Test ANOVA avec 40 variables

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

Solene Malblanc
Messages : 3
Enregistré le : 19 Juin 2018, 09:55

Test ANOVA avec 40 variables

Messagepar Solene Malblanc » 04 Juil 2018, 11:02

Bonjour à tous,

Je souhaiterais réaliser un modèle explicatif d'une variable quantitative (Expression de maladie en %age).
Ma base de données contient 1121 individus et 40 variables.

Pour faire ce test je réalise une ANOVA. Ayant un grand nombre de variables, j'ai fait des ANOVA à un facteur pour chaque.

Code : Tout sélectionner

anova(lm(Expression.MDB~Effeuillage))


Ensuite, j'ai voulu essayé cette méthode:

Code : Tout sélectionner

anova(lm(Expression.MDB~.,MDB))


Comment se fait-il que je trouve des résultats complètement différents? Certaines variables non significatives en ANOVA à 1 facteur le deviennent avec la 2e formule.

Merci d'avance

Stéphane Adamowicz
Messages : 206
Enregistré le : 07 Mar 2012, 10:13
Contact :

Re: Test ANOVA avec 40 variables

Messagepar Stéphane Adamowicz » 06 Juil 2018, 07:11

Bonjour Solene,

ce qui vous arrive est parfaitement normal, et à vrai dire très courant. Mais, il s'agit d'une question qui relève de la théorie statistique, pas de l'utilisation du logiciel R à laquelle ce site est consacré. Je vous invite à reposer votre question sur un site de statistiques.

cordialement,

Stéphane
Stéphane Adamowicz
INRA, UR 1115 Plantes et Systèmes de Culture Horticoles (PSH)
domaine St Paul, site agroparc
84914 Avignon, cedex 9

Solene Malblanc
Messages : 3
Enregistré le : 19 Juin 2018, 09:55

Re: Test ANOVA avec 40 variables

Messagepar Solene Malblanc » 06 Juil 2018, 10:08

D'accord, je vous remercie de m'avoir répondu.

Solène

Florent Aubry
Messages : 324
Enregistré le : 25 Juin 2010, 10:21

Re: Test ANOVA avec 40 variables

Messagepar Florent Aubry » 06 Juil 2018, 15:01

Le résultat relève à la fois de la théorie statistique comme le signale fort à propos Stéphane, mais aussi de R ou plus précisément du comportement de la fonction anova. En effet, cette fonction travaille sur la somme des carrés de type I, c'est-à-dire qu'elle teste l'apport de l'introduction séquentielle des variables dans le modèle. Je m'explique : elle teste la significativité de la première variable, interactions comprises avec les autres variables, qu'elles soient introduites dans le modèle ou non, puis l'apport de la seconde variable sur ce qui n'est pas expliqué par la première, de la troisième sur ce qui n'est pas expliqué par les deux premières, et ainsi de suite. De ce fait, on peut trouver des variables significatives en fonction de ce qui reste à expliquer alors que globalement, elles ne le sont pas car ce résidus qui reste à expliquer se fond en réalité dans la masse. Donc on a pour anova la suite de tests :
influence de la première variable sur VD, puis influence de la seconde sur VD auquel on a ôté l'influence de la première variable, puis influence de la troisième sur VD auquel on a ôté l'influence des deux premières variables...
La fonction Anova (avec un A majuscule cette fois) du package car, travaille par défaut sur les sommes des carrés de type II, c'est-à-dire sur l'influence globale de la variable. L'utiliser sur le résultat de lm devrait donner des résultats plus proche de qui est obtenu par les anova individuelles à 1 facteur.

Il faut bien reconnaître que ces points sont très mal documentés dans R mais que de manière générale, ils sont aussi très mal abordés dans les cours et manuels de statistiques où on se contente très souvent de présenter des tests basés sur les sommes de carrés de type III, sans le dire, ou plus rarement de type II, et cela sans expliquer ce que cela veut dire et à quoi cela sert.

Solene Malblanc
Messages : 3
Enregistré le : 19 Juin 2018, 09:55

Re: Test ANOVA avec 40 variables

Messagepar Solene Malblanc » 11 Juil 2018, 12:20

Bonjour Florent, merci pour votre réponse.

Je comprend "plus ou moins" la nuance entre les 2 types de codage. Auriez-vous peut-être des idées de publications ou de cours afin que je comprenne mieux quel test utiliser?

D'après vous, est-ce pertinent de faire un modèle explicatif d'une variable quanti en utilisant que des ANOVA à 1 facteur pour toutes les variables?

Cela me reviendrai à faire 40 ANOVA et je pourrai en fonction des plus-values obtenues classer mes variables explicatives par ordre d'importance et ainsi faire un modèle. Cependant, je ne prendrai pas en compte d'éventuelles interactions entre les variables qui pourraient influencer Y.
Je pars du principe que si lors de l'étude des liaisons entre variables, elles ne sont pas liées, il n'y aura pas d'interaction dans le modèle. Puis je faire ce raisonnement?

Code : Tout sélectionner

Anova(lm(formula=Expression.MDB~Cepage,MDBFixe))


On est bien d'accord que vous parlez de cette fonction Anova avec le package Car.

Merci beaucoup d'avance.

Florent Aubry
Messages : 324
Enregistré le : 25 Juin 2010, 10:21

Re: Test ANOVA avec 40 variables

Messagepar Florent Aubry » 11 Juil 2018, 14:20

Quand il n'y a qu'une variable explicative, anova et Anova donnent le même résultat. Pour le reste, étant donné que ce forum est dédié aux problèmes rencontrés dans l'utilisation de R et non aux problèmes statistiques, je te propose de continuer la discussion sur le 'Forum des statistiques' (http://statistiques.forumpro.fr/) qui est plus adapté pour discuter des stratégies d'analyse des données, des problèmes liés à l'interaction entre variables explicatives ou à la sélection des variables et autres questions connexes, soit dans la rubrique 'Questions générales', soit celle plus spécifique à R. Tu y retrouveras d'ailleurs plusieurs contributeurs à ce forum.


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité