ACP sur grand jeu de données

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

Nina Matteucci
Messages : 5
Enregistré le : 11 Mai 2016, 05:58

ACP sur grand jeu de données

Messagepar Nina Matteucci » 28 Juil 2016, 14:42

Bonjour,

Je dispose d'un grand jeu de données (500 individus et 20 variables qualitatives). J'ai fait tourner une acp sous R mais comme vous pouvez vous en douter, le résultat est illisible. Je souhaite donc faire apparaître le barycentre de chacune de mes variables (colonnes) et des ellipses de confiance autour de ce barycentre. Je ne trouve pas d'exemples qui correspondent à mon cas (sans une colonne supplémentaire qui indiquerait une condition particulière) et je ne sais pas comment obtenir ce que je veux.
D'autre part, je souhaitais aussi obtenir des pvaleur pour mes individus (en plus des calculs de contribution) ce qui pourrait m'aider à sélectionner les individus qui "tirent" mon acp...

Merci pour votre aide.

Nicolas Péru
Messages : 1408
Enregistré le : 07 Aoû 2006, 08:13

Re: ACP sur grand jeu de données

Messagepar Nicolas Péru » 29 Juil 2016, 06:30

Bonjour,

Je ne crois pas que la question soit réellement liée à R.
Pour le moment :
- Qu'appelle-tu barycentre d'une colonne ? Et des ellipses ? N'es-tu pas en train de parer des ellipses qui permettent de regrouper les individus à parti d'un facteur descriptif externe ?
- Il n'y a pas de p-value possible pour les individus car je ne vois pas comment tu pourrais tirer une quelconque statistique à partir d'un seul individu...Les contributions sont là pour ça je ne vois pas ce qu'une p-value te dira de plus. D'autre part, tu tombes clairement dans le dogme de la p-value car une p-value est là pour donner une évaluation d'un risque en lien avec le rejet d'une hypothèse. Quelle serait l'hypothèse testée pour un individu dans une ACP ?
-Si vraiment tu cherches des p-value ce sera avec des facteurs explicatifs externes à l'ACP en faisant un test des coordonnées des individus en fonction de ton facteur explicatif.

Pour éventuellement pouvoir t'aider sous R, il faut que tu nous dises avec quelle librairie tu as obtenu ton ACP.

Nicolas

Nina Matteucci
Messages : 5
Enregistré le : 11 Mai 2016, 05:58

Re: ACP sur grand jeu de données

Messagepar Nina Matteucci » 29 Juil 2016, 13:47

Bonjour,

En fait, j'ai fait mon acp avec la fonction PCA () du package FactoMineR. Je peux aussi la faire tourner avec la fonction princomp ou dudi.pca (package ade4) mais je les connais moins bien.

Concernant les ellipses et barycentres, je souhaitais représenter pour chacune de mes variables (colonnes) le barycentre de mes individus (lignes) et une ellipse de confiance autour de ce barycentre. Dans l'idéal, cela devrait me permettre d'identifier des groupes distincts (ou pas) correspondant à mes colonnes. J'espère que je suis suffisamment claire dans mes explications.

Concernant les pvaleur pour les individus, mon maître de stage m'a dit que les précédents stagiaires arrivaient à les calculer mais il ne sait pas comment. Je ne sais effectivement pas à quelles hypothèses de test cette pvalue permettrait de rejeter. Je pense que je vais oublier ce point là pour l'instant.

Merci pour votre aide

Florent Aubry
Messages : 324
Enregistré le : 25 Juin 2010, 10:21

Re: ACP sur grand jeu de données

Messagepar Florent Aubry » 01 Aoû 2016, 10:01

Pour le tracé des ellipses : plotellipses. Attention à l'argument means. TRUE, c'est l'intervalle de confiance d'estimation du barycentre, FALSE calcule celui de la population.
Pour la p-value, elle est renvoyé par la fonction dimdesc pour ce qui concerne la corrélation des variables avec les axes. Pour les individus, ce pourrait être avec la fonction catdes (à vérifier), soit sur les données elles-mêmes soit par le script suivant (sous réserve) :

Code : Tout sélectionner

res <- cbind( as.data.frame( res.pca$ind$coord), donnees[,nom.colonne.quali.sup, drop=FALSE])
catdes( res, num.var=6)

Nina Matteucci
Messages : 5
Enregistré le : 11 Mai 2016, 05:58

Re: ACP sur grand jeu de données

Messagepar Nina Matteucci » 01 Aoû 2016, 14:57

Bonjour,

Merci pour votre réponse. J'avais déjà testé la commande plot ellipses mais R me renvoie le message "NULL". En fait dans mon cas, chaque variable (colonne) représente une catégorie, chaque ligne mes individus et il s'agit d'une table de comptage. Je souhaite donc avoir par exemple, pour ma catégorie 1 (colonne1 du tableau initial) le barycentre et son ellipse de confiance (des donnees apres acp). Le souci pour moi étant que les coordonnées des individus sur les axes ne correspondent pas aux coordonnées par rapport aux colonnes initiales (axe 1 =/ colonne 1) et je ne peux pas ré associer les coordonnées données par l'acp aux différentes colonnes... :(
Je n'ai pas d'idée pour résoudre çà sous R...

La fonction catdes a l'air bien mais je serai confrontée au même problème puisque je n'ai pas de variable catégorielle.

En tout cas merci pour votre aide

Eric Wajnberg
Messages : 776
Enregistré le : 11 Aoû 2008, 15:37
Contact :

Re: ACP sur grand jeu de données

Messagepar Eric Wajnberg » 01 Aoû 2016, 15:21

Je suis clairement hors sujet, mais une ACP est un méthode pour variables quantitatives, or là il s'agit de variables qualitatives. Par ailleurs, comment peut-on avoir "20 variables qualitatives" et en même temps " pas de variable catégorielle"??

Je vois de la confusion dans ce post et la discussion qui va avec. Mais tout ceci est effectivement hors sujet sur ce forum.

Désolé d'avoir "parasité" la discussion..

Eric.

Nina Matteucci
Messages : 5
Enregistré le : 11 Mai 2016, 05:58

Re: ACP sur grand jeu de données

Messagepar Nina Matteucci » 02 Aoû 2016, 05:54

Désolée je me suis trompée. J'ai 20 variables quantitatives. Je suis ouverte à toute remarque alors il n'y a vraiment aucun souci...

Je pense tester aujourd'hui un test de corrélation de pearson. D'après mes recherches, c'est le test qui est appliqué pour les variables avec la fonction dimdesc (). Je vais donc étudier ça...

Merci en tout cas :)

Florent Aubry
Messages : 324
Enregistré le : 25 Juin 2010, 10:21

Re: ACP sur grand jeu de données

Messagepar Florent Aubry » 02 Aoû 2016, 07:23

Par défaut, dans FactoMineR, les variables sont centrées réduites (matrice de corrélation) donc le barycentre des tous les individus est le centre de l'espace, c'est-à-dire le point de coordonnée nulle sur toutes les dimensions. Pour rester dans l'utilisation de FactoMineR, pour obtenir ce que tu désires, tu peux créer une colonne comme suit :

Code : Tout sélectionner

donnees$categorie <- factor( "A")
que tu définiras comme variable qualitative supplémentaire.
et ensuite utiliser plotellipses.


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Google [Bot] et 1 invité