quelqu'un sait-il pourquoi, dans le cas d'une ANOVA hiérarchique, les résultats pour le facteur d'emboîtement sont délibérément faux ?
Par exemple, avec ce genre de données :
Code : Tout sélectionner
set.seed(1720)
result <- rnorm(120)
region <- factor(rep(paste("Region",1:3,sep=""),each=40))
pop <- factor(rep(c(paste("R1_pop",1:2,sep=""),paste("R2_pop",1:2,sep=""),paste("R3_pop",1:2,sep="")),each=20))
qui ont une structure de ce type :
Code : Tout sélectionner
aggregate(result~region+pop,FUN=length)
region pop result
1 Region1 R1_pop1 20
2 Region1 R1_pop2 20
3 Region2 R2_pop1 20
4 Region2 R2_pop2 20
5 Region3 R3_pop1 20
6 Region3 R3_pop2 20
on obtient le résultat suivant :
Code : Tout sélectionner
anova(lm(result~region/pop))
Analysis of Variance Table
Response: result
Df Sum Sq Mean Sq F value Pr(>F)
region 2 1.186 0.59275 0.5152 0.5987
region:pop 3 2.592 0.86413 0.7511 0.5239
Residuals 114 131.148 1.15042
alors que l'on devrait avoir :
Code : Tout sélectionner
Analysis of Variance Table
Response: result
Df Sum Sq Mean Sq F value Pr(>F)
region 2 1.186 0.59275 0.6860 0.4946
region:pop 3 2.592 0.86413 0.7511 0.5239
Residuals 114 131.148 1.15042
Le F est en effet calculé par rapport au carré moyen résiduel, alors qu'il devrait l'être à partir du carré moyen du facteur emboîté...
Je suis certain qu'il y a une très bonne raison, puisque la fonction Anova (du package car) procède de même. La question est : quelle est-elle ?
Maxime