Bonjour à tous,
Ma data.frame est composée de colonnes de strings et de doubles.
Certaines lignes sont identiques à quelques exceptions près.
J'aimerais construire une fonction qui effectue un classement des lignes les plus ressemblantes, par un pourcentage de corrélation décroissant ; pour pouvoir ensuite les dédoublonner à la main.
Quelqu'un connait-il par hasard une fonction permettant de donner un pourcentage de corrélation entre des strings :?:
En effet, celle que j'ai créé met trop de temps à s'exécuter - 20 000 lignes composent ma data.frame - :?
De plus, je voudrais présenter le résultat du classement de la sorte suivante :
ligne 1|ligne 2|corélat° string 1|cor sg 2|.......cor double 1|cor db 2|........|
ligne 2|ligne 3|corélat° string 1|cor sg 2|.......cor double 1|cor db 2|........|
ligne 3|ligne 4|corélat° string 1|cor sg 2|.......cor double 1|cor db 2|........|
............................
............................
............................
ligne n-1|ligne n|corélat° string 1|cor sg 2|.......cor double 1|cor db 2|.....|
Quelqu'un aurait-il une solution pour pouvoir accéder à une ligne du tableau précédent à partir du nombre total de lignes et des deux lignes adjacentes du tableau d'origine ?
NB : voici la forme du tableau d'origine :
ligne 1 | string 1 | sg 2 |.......| double 1 | db 2 |.........|
ligne 2 | string 1 | sg 2 |.......| double 1 | db 2 |.........|
..............
...............
.............
ligne n | string 1 | sg 2 |.......| double 1 | db 2 |.........|
Merci d'avance pour votre aide précieuse.
Amicalement,
S.Fabioni