Vincent Chalmel a écrit :Bonjour, j'aimerais savoir où trouver les différences d'interprétations nécessaires entre une anova faite par R et une classique
en effet (corrigez moi si je me trompe )
Oui, en effet.
avec deux facteurs, le paramètre associé au deuxième est la moyenne des y_{i,j,k) corrigés de l'estimation du premier et de l'intercept, au contraire de SAS par exemple (et des cours d'analyse de la variance ) qui estiment les deux paramètres de façon analogue comme moyennes respectivement sur i et j des y_{i,j,k} corrigés uniquement de l'intercept.
Je n'utilise plus SAS depuis longtemps et ne me rappelle plus des sorties. Je pense que vous confondez
1) l'estimation des paramètres, pour laquelle SAS et R devraient donner les mêmes résultats en vérifiant que les modèles sont bien identiques et que les mêms contrastes sont utilisés.
2) L'analyse de la variance dont les résultats sont présentés séquentiellement dans la fonction anova. Vous trouverez dans le package
car la fonction Anova qui vous produira les mêmes sorties que SAS.
la différence se faisant sentir également dans l'estimation du paramètre d'intéraction.
Cf ci-dessus: ne pas confondre estimation des paramètres et analyse de la variance.
je cherche à savoir, si celà change l'interprétation des sorties (tableau d'analyse de la variance en particulier mais aussi tests des effets des différents types) et si l'estimation de la variance résiduelle reste inchangée (je soupçonne que oui )
Ces malentendus dissipés, vous retrouverez les mêmes résultats.
D'une manière générale, R privilégie les comparaisons de modèle.
Code : Tout sélectionner
> set.seed(12321)
> dfr <- data.frame(y = rnorm(10),
+ x1 = rep(c("A", "B"), times = 5),
+ x2 = rep(c("A", "B"), each = 5))
>
> ## Estimation des modèles
> m1 <- lm(y ~ x1 + x2, data = dfr)
> m2 <- lm(y ~ x1, data = dfr)
>
> ## Coefficients estimés
> summary(m1)
Call:
lm(formula = y ~ x1 + x2, data = dfr)
Residuals:
Min 1Q Median 3Q Max
-1.8831 -0.4256 0.1269 0.5274 1.4812
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.7419 0.5317 1.395 0.206
x1B -0.4121 0.6646 -0.620 0.555
x2B -0.5262 0.6646 -0.792 0.455
Residual standard error: 1.03 on 7 degrees of freedom
Multiple R-squared: 0.1523, Adjusted R-squared: -0.08985
F-statistic: 0.629 on 2 and 7 DF, p-value: 0.5608
> summary(m2)
Call:
lm(formula = y ~ x1, data = dfr)
Residuals:
Min 1Q Median 3Q Max
-1.5673 -0.4230 -0.1362 0.4718 1.7969
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.5314 0.4496 1.182 0.271
x1B -0.5174 0.6358 -0.814 0.439
Residual standard error: 1.005 on 8 degrees of freedom
Multiple R-squared: 0.07644, Adjusted R-squared: -0.03901
F-statistic: 0.6621 on 1 and 8 DF, p-value: 0.4394
>
> ## Analyse de variance
> anova(m1)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x1 1 0.6692 0.6692 0.6312 0.4530
x2 1 0.6645 0.6645 0.6268 0.4545
Residuals 7 7.4211 1.0602
>
> ## Comparaison de modèles
> anova(m2, m1)
Analysis of Variance Table
Model 1: y ~ x1
Model 2: y ~ x1 + x2
Res.Df RSS Df Sum of Sq F Pr(>F)
1 8 8.0856
2 7 7.4211 1 0.6645 0.6268 0.4545
>
> ## Analyse de variance "à la SAS"
> library(car)
> Anova(m1, type = "III")
Anova Table (Type III tests)
Response: y
Sum Sq Df F value Pr(>F)
(Intercept) 2.0640 1 1.9469 0.2056
x1 0.4077 1 0.3845 0.5548
x2 0.6645 1 0.6268 0.4545
Residuals 7.4211 7
y'a t'il des écrits exhaustifs en français ou anglais sur les différences entre ces paramétrisations pour l'anova ?
d'ailleurs, je serais en second lieu également intéréssé par un exposé des raisons qui ont conduit les programmeurs de R à ce choix particulier.
http://www.stats.ox.ac.uk/pub/MASS3/Exegeses.pdf