Dédoublonnage d'une grande data.frame

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

Serge Fabioni
Messages : 1
Enregistré le : 30 Juin 2008, 12:29

Dédoublonnage d'une grande data.frame

Messagepar Serge Fabioni » 28 Juil 2008, 15:25

Bonjour à tous,

Ma data.frame est composée de colonnes de strings et de doubles.
Certaines lignes sont identiques à quelques exceptions près.

J'aimerais construire une fonction qui effectue un classement des lignes les plus ressemblantes, par un pourcentage de corrélation décroissant ; pour pouvoir ensuite les dédoublonner à la main.

Quelqu'un connait-il par hasard une fonction permettant de donner un pourcentage de corrélation entre des strings :?:

En effet, celle que j'ai créé met trop de temps à s'exécuter - 20 000 lignes composent ma data.frame - :?

De plus, je voudrais présenter le résultat du classement de la sorte suivante :

ligne 1|ligne 2|corélat° string 1|cor sg 2|.......cor double 1|cor db 2|........|
ligne 2|ligne 3|corélat° string 1|cor sg 2|.......cor double 1|cor db 2|........|
ligne 3|ligne 4|corélat° string 1|cor sg 2|.......cor double 1|cor db 2|........|
............................
............................
............................
ligne n-1|ligne n|corélat° string 1|cor sg 2|.......cor double 1|cor db 2|.....|

Quelqu'un aurait-il une solution pour pouvoir accéder à une ligne du tableau précédent à partir du nombre total de lignes et des deux lignes adjacentes du tableau d'origine ?

NB : voici la forme du tableau d'origine :

ligne 1 | string 1 | sg 2 |.......| double 1 | db 2 |.........|
ligne 2 | string 1 | sg 2 |.......| double 1 | db 2 |.........|
..............
...............
.............
ligne n | string 1 | sg 2 |.......| double 1 | db 2 |.........|


Merci d'avance pour votre aide précieuse.

Amicalement,

S.Fabioni

Matthieu Stigler
Messages : 141
Enregistré le : 07 Sep 2007, 11:30

Messagepar Matthieu Stigler » 28 Juil 2008, 17:14

hello

Ce que tu décris ressemble beaucoup aux algorithmes des analyses de cluster, qui cherchent à créer des groupes selon leur ressemblances. Peut-être pourrais-tu faire une analyse de cluster avec un très grand nombre de classes, ce qui te ferait des groupes aux dissimilarités les plus grandes? en même temps je sais pas ce que vaut une telle analyse sur un très grand nombre de données et avec beaucoup de classe....


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité