ACP non-paramétrique

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Messagepar Renaud Lancelot » 15 Mai 2008, 16:40

Pas les mêmes résultats numériques pour les coordonnées des lignes et des colonnes dans chacun des cas, bien sûr. Mais les résultats sont valides dans chaque cas, ne posent pas de pb de calcul et ont des liens directs. Cf les premières pages de http://pbil.univ-lyon1.fr/R/cours/bs8.pdf.

Renaud

Logez Maxime
Messages : 3138
Enregistré le : 26 Sep 2006, 11:35

Messagepar Logez Maxime » 15 Mai 2008, 18:12

Il est évident que d'un point de vue mathématique ces résultats soient valides, toutefois dans un des deux cas ils n'auront pas de sens. On cherche rarement (voir jamais) à caractériser des conditions physico-chimiques par des lieux de prélèvement mais bien les prélèvements par les conditions physico-chimiques.

Maxime

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Messagepar Renaud Lancelot » 15 Mai 2008, 20:17

On ne peut pas généraliser à partir de cet exemple: ça dépend du type de pb qu'on a à résoudre. Dans certains domaines, on peut avoir un petit nb d'unités stats caractérisées par des dizaines ou des centaines de variables, et d'avoir ensuite à s'intéresser plus à la typologie des variables qu'à celle des individus...

Renaud

Logez Maxime
Messages : 3138
Enregistré le : 26 Sep 2006, 11:35

Messagepar Logez Maxime » 16 Mai 2008, 08:54

Quelques éléments de réflexions :

Jean Thioulouse a écrit :At 14:20 +0200 30/06/04, Charline Laurent wrote:
>Je me pose quelques questions sur le nombre minimum de variables et
>d'individus (ainsi que le rapport variables/individus) nécessaire à
>une ACP pour que celle-ci soit valide.
>(plus concrètement, quelle est la validité d'une ACP avec 8
>variables et 9 individus ?)

Il faudrait que quelqu'un se decide a faire une FAQ pour cette liste.
Je suis sur que la question a deja ete posee des dizaines de fois.
(Comment ca j'exagere ?) En tous cas a moi, on me l'a posee des tas
de fois.

Stephane dit que ca depend des objectifs. C'est vrai, mais en fait
ca depend du modele mathematique qui conduit a l'ACP. Comme Daniel
en a recense au moins 5 ou 6, et que personne ne se pose la question
du modele avant de faire une ACP, on tourne en rond. Bien sur, un
bon chercheur devrait choisir son modele en fonction de ses objectifs.
Donc il y a tres peu de bons chercheurs (en dehors de nous bien sur).

L'avantage d'ade4, c'est que c'est maintenant un logiciel libre, et
qu'on peut aller voir dans les sources. Et on verra que les variances
sont calculees sur n et pas sur n-1. Donc on n'est deja pas dans un
modele d'estimation des parametres d'une population a partir d'un
echantillon.

Le modele est celui du schema de dualite, c'est pour ca que l'ACP
s'appelle dudi.pca (dudi=duality diagram). C'est un modele purement
geometrique, dans lequel il n'y a aucune consideration sur le nombre
d'individus et de variables (ni sur leur rapport).

L'article cite par Luis est au contraire en plein dans le modele
d'estimation des parametres d'une loi normale multidimensionnelle,
et meme la, leur conclusion n'est pas tres forte : en gros, ils
disent "mieux vaut avoir le plus d'individus possible" ! Il n'y a
aucun seuil, aucun plateau qui permette de fixer a priori un nombre
d'individus ni meme un rapport nombre d'individus / nombre variables.

Dommage !

Jean

Source : http://listes.univ-lyon1.fr/wws/arc/adelist/2004-06/msg00029.html

Autres éléments :
Daniel Chessel a écrit :At 13:45 02/02/2004 +0100, Gudrun Bornette wrote:
>bonjour
>
>Je suis en train d'analyser un papier dans lequel les auteurs ont eu recours
>à une ACP (n) réalisée sur un tableau dont le nombre de colonnes est très
>nettement supérieur au nombre de lignes (12 x 100 environ). je me pose la
>question de la recevabilité d'une telle analyse... ai je tort ?
>
>merci de votre avis

Bonne question, qui a déjà fait pleuré des générations d'utilisateurs.
La réponse est "ni tort ni raison" parce que c'est un endroit stratégique et
compliqué.

Pour les uns l'ACP est l'estimation des axes principaux d'une loi normale
multivariée et en prime la représentation de l'échantillon qui permet cela
sur le plan des deux premiers. Dans ce schéma il est inconcevable qu'il n'y
ait pas BEAUCOUP plus de points de mesure que de variables. Exemple :

a=matrix(rnorm(200),10,20)
princomp(a)
Error in princomp.default(a) : princomp can only be used with more units than
variables

La fonction princomp qui est un programme d'ACP est verrouillé et ne
s'exécute que si n>p.

Pour les autres, l'ACP est la recherche d'axes s'ajustant au mieux à un nuage
de n points à p dimensions (Pearson 1901) ou de composantes s'ajustant au
mieux à un nuage de p points à n dimensions (Hotelling, 1933). L'équilibre
entre n et p est quelconque.
prcomp(a)
Standard deviations:
[1] 2.241e+00 2.046e+00 1.703e+00 1.622e+00 1.345e+00 1.183e+00 1.009e+00
[8] 6.867e-01 4.861e-01 2.731e-16

Rotation:
PC1 PC2 PC3 PC4 PC5 PC6 PC7
[1,] -0.190121 ...

prcomp est un autre programme d'ACP qui accepte la situation. Ah les vaches !

Les deux fonctions ne portent pas de noms d'auteurs et sont dans la librairie
mva de
Author: R Development Core Team
(on va considérer que ce sont des statisticiens)
Chacune des documentations envoie à l'autre dans see also !

Les deux points de vue sont dans la tradition. On n'a ni tort ni raison.
Il y a deux modèles pour le même calcul (les calculs sont les mêmes).

Il n'y a pas d'arguments statistiques pour invalider un point de vue ou
l'autre, mais malheureusement, dans tous les cas, bien des possibilités de
dire des bêtises.
La vie est simple, c'est bien connu.



Daniel Chessel

Source : http://listes.univ-lyon1.fr/wws/arc/adelist/2004-02/msg00002.html

Maxime

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Messagepar Renaud Lancelot » 16 Mai 2008, 11:20

Daniel Chessel a parlé: amen !

;-)

Renaud


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité