dist.prop et ordination de pourcentages

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

valérie coudrain
Messages : 270
Enregistré le : 28 Juil 2009, 18:37

dist.prop et ordination de pourcentages

Messagepar valérie coudrain » 16 Juil 2012, 10:42

Bonjour, j'aimerais effectuer une analyse multivariée, mais mes données de départ ne sont pas des quantités, mais des pourcentages. J'ai vu qu'il existe la fonction dist.prop dans le package ade4, mais les index utilisés me sont totalement inconnus et je n'ai pas l'impression que cette fonction soit beaucoup utilisée. Est-ce que quelqu'un connaîtrait une autre fonction permettant de faire une analyse multivariée en partant de pourcentages? J'ai regardé dans vegan, mais rien trouvé. Ou alors j'utilise simplement les mêmes méthodes que pour des quantités?

Merci

Vincent Guillemot
Messages : 451
Enregistré le : 05 Mai 2010, 15:11

Messagepar Vincent Guillemot » 16 Juil 2012, 13:33

Je ne sais pas pour les pourcentages, mais pour des coefficients de corrélations, on utilise la "Fisher transformation" (je ne connais pas le nom en français) :
http://en.wikipedia.org/wiki/Fisher_transformation

Pour voir à quoi ressemble la distribution :

Code : Tout sélectionner

N <- 100
P <- 300
x <- matrix(rnorm(N*P),N,P)
y <- 0.5*x + 0.2*matrix(rnorm(N*P),N,P)
corcoefs <- sapply(1:P,function(col) cor(x[,col],y[,col]))
corcoefs.fisher <- 0.5*log( (1-corcoefs)/(1+corcoefs) )
layout(1:2)
hist(corcoefs)
hist(corcoefs.fisher)

valérie coudrain
Messages : 270
Enregistré le : 28 Juil 2009, 18:37

Messagepar valérie coudrain » 16 Juil 2012, 13:58

je n'ai jamais utilisée une ordination basée sur des coefficients de corrélation, mais merci pour l'info.

Nicolas Péru
Messages : 1408
Enregistré le : 07 Aoû 2006, 08:13

Messagepar Nicolas Péru » 16 Juil 2012, 14:13

Salut,

Voir la fonction dudi.pca avec l'argument scale=F par exemple (la raison de ce choix est que la variance des colonnes est déjà plus ou moins standardisée lorsqu'on a des variables bornées). Toutes les fonctions permettant de faire une ACP doivent permettre cette solution.

Par ailleurs, dist.prop ne fait pas une ordination mais permet le calcul de distance basée sur des distribution de valeurs dans [0,1]. Si tu ne connais pas les indices utilisés, saches qu'il est très facile de modifier le code de dist.prop en ajoutant des distances possible dans le choix proposé.

Nicolas

valérie coudrain
Messages : 270
Enregistré le : 28 Juil 2009, 18:37

Messagepar valérie coudrain » 16 Juil 2012, 14:41

Merci beaucoup. Oui le fait d'avoir des proportions est en fait une standardisation et c'est ce qui me posait problème pour le choix de la méthode, standardiser des données déjà standardisées n'a pas trop de sens. Je vais voir dudi.pca.
Bien sur, avec dist.prop je voulais parler de la matrice de départ pour l'ordination pour faire si possible une rda ensuite. En fait j'aurais voulu utiliser la ditance de Bray-Curtis, mais je ne sais pas si elle se prête bien aux proportions.

Nicolas Péru
Messages : 1408
Enregistré le : 07 Aoû 2006, 08:13

Messagepar Nicolas Péru » 17 Juil 2012, 06:39

Non la distance de bray-curtis n'est pas faite pour des données bornées. Pour les données sur proportion voir la distance de Manly par ex et regarder ce qui se fait pour les distances génétiques.

Nicolas

valérie coudrain
Messages : 270
Enregistré le : 28 Juil 2009, 18:37

Messagepar valérie coudrain » 17 Juil 2012, 14:44

J'ai regardé encore les fonctions dans le package vegan et il est possible avec la fonction decostand() de choisir la méthode "total" qui est la division par la somme de la ligne. Cela s'apparente donc à une proportion. Ce serait donc incorrect d'appliquer cette transformation avant de calculer une matrice de ditance basée sur la méthode de Bray-Curtis? Pourtant j'ai l'impression que c'est souvent utilisé.

Pierre Bady
Messages : 405
Enregistré le : 02 Mai 2006, 07:46

Messagepar Pierre Bady » 17 Juil 2012, 15:19

bonjour,

pourquoi vouloir utiliser la distance de Bray-Curtis à tout prix?
la méthode d'analyse ne doit pas forcer les données.
en principe, on fonctionne dans l'autre sens (?)

ça me fait penser aux jeux d'encastrement (jeu d'éveil) ... lorsque le cylindre rentre pas dans la forme d'étoile ...

Une méthode peu utilisée n'est pas forcément toute moisie !!!

HTH

pierre
=@===--------¬-------¬------¬-----¬
liens utiles :
http://www.gnurou.org/Writing/SmartQuestionsFr
http://neogrifter.free.fr/welcomeOnInternet.jpg
]<((((*< -------------------------------

Nicolas Péru
Messages : 1408
Enregistré le : 07 Aoû 2006, 08:13

Messagepar Nicolas Péru » 17 Juil 2012, 15:29

Pourtant j'ai l'impression que c'est souvent utilisé.

et moi j'ai tellement souvent l'impression que plus grand monde ne regarde l'adéquation données-analyses...Comme le dit Pierre on rencontre plus fréquemment l'usage du marteau et de l'enclume pour rentrer les données dans les besoins de l'analyse. C'est forcément foireux...

Donc pour toi pas de Bray-Curtis...à moins que la pratique de l'encastrage ne te tente vraiment ;)

Nicolas

Pierre Bady
Messages : 405
Enregistré le : 02 Mai 2006, 07:46

Messagepar Pierre Bady » 17 Juil 2012, 15:37

Bonjour,

je ne dis pas que c'est pas bon (le cylindre, si il a le bon diamètre, peut rentrer dans le carré), mais il faut juste bien savoir pourquoi on le fait (?)

En plus, l'utilisation de cette distance n'est pas forcément anodine ... c'est une semimétrique, non-euclidienne (on doit pouvoir la rendre euclidienne en utilisant une transformation sqrt), ce qui peut être génant dans certaines analyses (ex. pco).

si vous travaillez sur des proportions, l'utilisation d'une distance prévue pour cela semble plus raisonnable (cf les posts de Nico).


hth

pierre
=@===--------¬-------¬------¬-----¬

liens utiles :

http://www.gnurou.org/Writing/SmartQuestionsFr

http://neogrifter.free.fr/welcomeOnInternet.jpg

]<((((*< -------------------------------

Nicolas Péru
Messages : 1408
Enregistré le : 07 Aoû 2006, 08:13

Messagepar Nicolas Péru » 17 Juil 2012, 15:41

(le cylindre, si il a le bon diamètre, peut rentrer dans le carré),


:D..effectivement, mais l'exercice est quand même loupé : on a oublié le reste du carré par rapport au cercle inscrit dans le carré :P

@+ Pierre

Nicolas

valérie coudrain
Messages : 270
Enregistré le : 28 Juil 2009, 18:37

Messagepar valérie coudrain » 17 Juil 2012, 18:21

Merci pour vos réponses. En fait je retravaille le travail de master d'une étudiante en vue d'une publication et je me perd dans les statistiques qu'elle a utilisées. Je crois qu'il y a bcp d'inconsistences de la sorte...bref il va falloir que je reprenne tout à zéro et que je réanalyse avec des méthodes correctes. Ce qui m'interpelle, c'est qu'un package tel que vegan avec des applications spécifiques pour les analyses multivariées n'aborde pas le thème des proportions alors que c'est quand même une forme commune de données en écologie. Je vais aller me renseigner sur l'index de Manly.

Pierre Bady
Messages : 405
Enregistré le : 02 Mai 2006, 07:46

Messagepar Pierre Bady » 17 Juil 2012, 19:24

bonjour,

Ce qui m'interpelle, c'est qu'un package tel que vegan avec des applications spécifiques pour les analyses multivariées n'aborde pas le thème des proportions alors que c'est quand même une forme commune de données en écologie.


ce type de données est peut-être plus observé en génétique des pop. Il doit y avoir des informations sur ce type de distance dans le livre de Hartl & Clark "Principles of Population Genetics" (~2007) et voir peut-être aussi de le legendre & legendre (1998?)

Sinon, ces petits doc de Daniel Chessel sur les distances, la dissemblance et diversité sont également très instructifs: http://pbil.univ-lyon1.fr/R/pdf/tdr67.pdf et http://pbil.univ-lyon1.fr/R/pdf/cssb9.pdf


HTH et bon courage,



pierre
=@===--------¬-------¬------¬-----¬

liens utiles :

http://www.gnurou.org/Writing/SmartQuestionsFr

http://neogrifter.free.fr/welcomeOnInternet.jpg

]<((((*< -------------------------------

valérie coudrain
Messages : 270
Enregistré le : 28 Juil 2009, 18:37

Messagepar valérie coudrain » 17 Juil 2012, 20:10

Merci beaucoup pour les liens!


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité