Quelques éléments de réflexions :
Jean Thioulouse a écrit :At 14:20 +0200 30/06/04, Charline Laurent wrote:
>Je me pose quelques questions sur le nombre minimum de variables et
>d'individus (ainsi que le rapport variables/individus) nécessaire à
>une ACP pour que celle-ci soit valide.
>(plus concrètement, quelle est la validité d'une ACP avec 8
>variables et 9 individus ?)
Il faudrait que quelqu'un se decide a faire une FAQ pour cette liste.
Je suis sur que la question a deja ete posee des dizaines de fois.
(Comment ca j'exagere ?) En tous cas a moi, on me l'a posee des tas
de fois.
Stephane dit que ca depend des objectifs. C'est vrai, mais en fait
ca depend du modele mathematique qui conduit a l'ACP. Comme Daniel
en a recense au moins 5 ou 6, et que personne ne se pose la question
du modele avant de faire une ACP, on tourne en rond. Bien sur, un
bon chercheur devrait choisir son modele en fonction de ses objectifs.
Donc il y a tres peu de bons chercheurs (en dehors de nous bien sur).
L'avantage d'ade4, c'est que c'est maintenant un logiciel libre, et
qu'on peut aller voir dans les sources. Et on verra que les variances
sont calculees sur n et pas sur n-1. Donc on n'est deja pas dans un
modele d'estimation des parametres d'une population a partir d'un
echantillon.
Le modele est celui du schema de dualite, c'est pour ca que l'ACP
s'appelle dudi.pca (dudi=duality diagram). C'est un modele purement
geometrique, dans lequel il n'y a aucune consideration sur le nombre
d'individus et de variables (ni sur leur rapport).
L'article cite par Luis est au contraire en plein dans le modele
d'estimation des parametres d'une loi normale multidimensionnelle,
et meme la, leur conclusion n'est pas tres forte : en gros, ils
disent "mieux vaut avoir le plus d'individus possible" ! Il n'y a
aucun seuil, aucun plateau qui permette de fixer a priori un nombre
d'individus ni meme un rapport nombre d'individus / nombre variables.
Dommage !
Jean
Source :
http://listes.univ-lyon1.fr/wws/arc/adelist/2004-06/msg00029.htmlAutres éléments :
Daniel Chessel a écrit :At 13:45 02/02/2004 +0100, Gudrun Bornette wrote:
>bonjour
>
>Je suis en train d'analyser un papier dans lequel les auteurs ont eu recours
>à une ACP (n) réalisée sur un tableau dont le nombre de colonnes est très
>nettement supérieur au nombre de lignes (12 x 100 environ). je me pose la
>question de la recevabilité d'une telle analyse... ai je tort ?
>
>merci de votre avis
Bonne question, qui a déjà fait pleuré des générations d'utilisateurs.
La réponse est "ni tort ni raison" parce que c'est un endroit stratégique et
compliqué.
Pour les uns l'ACP est l'estimation des axes principaux d'une loi normale
multivariée et en prime la représentation de l'échantillon qui permet cela
sur le plan des deux premiers. Dans ce schéma il est inconcevable qu'il n'y
ait pas BEAUCOUP plus de points de mesure que de variables. Exemple :
a=matrix(rnorm(200),10,20)
princomp(a)
Error in princomp.default(a) : princomp can only be used with more units than
variables
La fonction princomp qui est un programme d'ACP est verrouillé et ne
s'exécute que si n>p.
Pour les autres, l'ACP est la recherche d'axes s'ajustant au mieux à un nuage
de n points à p dimensions (Pearson 1901) ou de composantes s'ajustant au
mieux à un nuage de p points à n dimensions (Hotelling, 1933). L'équilibre
entre n et p est quelconque.
prcomp(a)
Standard deviations:
[1] 2.241e+00 2.046e+00 1.703e+00 1.622e+00 1.345e+00 1.183e+00 1.009e+00
[8] 6.867e-01 4.861e-01 2.731e-16
Rotation:
PC1 PC2 PC3 PC4 PC5 PC6 PC7
[1,] -0.190121 ...
prcomp est un autre programme d'ACP qui accepte la situation. Ah les vaches !
Les deux fonctions ne portent pas de noms d'auteurs et sont dans la librairie
mva de
Author: R Development Core Team
(on va considérer que ce sont des statisticiens)
Chacune des documentations envoie à l'autre dans see also !
Les deux points de vue sont dans la tradition. On n'a ni tort ni raison.
Il y a deux modèles pour le même calcul (les calculs sont les mêmes).
Il n'y a pas d'arguments statistiques pour invalider un point de vue ou
l'autre, mais malheureusement, dans tous les cas, bien des possibilités de
dire des bêtises.
La vie est simple, c'est bien connu.
Daniel Chessel
Source :
http://listes.univ-lyon1.fr/wws/arc/adelist/2004-02/msg00002.html
Maxime