modèle linéaire séquentiel

Vincent Chalmel · Messagepar **Vincent Chalmel** » 30 Juin 2009, 15:28

Bonjour, j'aimerais savoir où trouver les différences d'interprétations nécessaires entre une anova faite par R et une classique

en effet (corrigez moi si je me trompe )

avec deux facteurs, le paramètre associé au deuxième est la moyenne des y_{i,j,k) corrigés de l'estimation du premier et de l'intercept, au contraire de SAS par exemple (et des cours d'analyse de la variance ) qui estiment les deux paramètres de façon analogue comme moyennes respectivement sur i et j des y_{i,j,k} corrigés uniquement de l'intercept.

la différence se faisant sentir également dans l'estimation du paramètre d'intéraction.

je cherche à savoir, si celà change l'interprétation des sorties (tableau d'analyse de la variance en particulier mais aussi tests des effets des différents types) et si l'estimation de la variance résiduelle reste inchangée (je soupçonne que oui )

y'a t'il des écrits exhaustifs en français ou anglais sur les différences entre ces paramétrisations pour l'anova ?

d'ailleurs, je serais en second lieu également intéréssé par un exposé des raisons qui ont conduit les programmeurs de R à ce choix particulier.

Renaud Lancelot · Messagepar **Renaud Lancelot** » 01 Juil 2009, 17:20

Vincent Chalmel a écrit :Bonjour, j'aimerais savoir où trouver les différences d'interprétations nécessaires entre une anova faite par R et une classique

en effet (corrigez moi si je me trompe )

Oui, en effet.

avec deux facteurs, le paramètre associé au deuxième est la moyenne des y_{i,j,k) corrigés de l'estimation du premier et de l'intercept, au contraire de SAS par exemple (et des cours d'analyse de la variance ) qui estiment les deux paramètres de façon analogue comme moyennes respectivement sur i et j des y_{i,j,k} corrigés uniquement de l'intercept.

Je n'utilise plus SAS depuis longtemps et ne me rappelle plus des sorties. Je pense que vous confondez

1) l'estimation des paramètres, pour laquelle SAS et R devraient donner les mêmes résultats en vérifiant que les modèles sont bien identiques et que les mêms contrastes sont utilisés.

2) L'analyse de la variance dont les résultats sont présentés séquentiellement dans la fonction anova. Vous trouverez dans le package car la fonction Anova qui vous produira les mêmes sorties que SAS.

la différence se faisant sentir également dans l'estimation du paramètre d'intéraction.

Cf ci-dessus: ne pas confondre estimation des paramètres et analyse de la variance.

je cherche à savoir, si celà change l'interprétation des sorties (tableau d'analyse de la variance en particulier mais aussi tests des effets des différents types) et si l'estimation de la variance résiduelle reste inchangée (je soupçonne que oui )

Ces malentendus dissipés, vous retrouverez les mêmes résultats.

D'une manière générale, R privilégie les comparaisons de modèle.

Code : Tout sélectionner

> set.seed(12321)
> dfr <- data.frame(y = rnorm(10),
+                   x1 = rep(c("A", "B"), times = 5),
+                   x2 = rep(c("A", "B"), each = 5))
> 
> ## Estimation des modèles
> m1 <- lm(y ~ x1 + x2, data = dfr)
> m2 <- lm(y ~ x1, data = dfr)
> 
> ## Coefficients estimés
> summary(m1)

Call:
lm(formula = y ~ x1 + x2, data = dfr)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.8831 -0.4256  0.1269  0.5274  1.4812 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   0.7419     0.5317   1.395    0.206
x1B          -0.4121     0.6646  -0.620    0.555
x2B          -0.5262     0.6646  -0.792    0.455

Residual standard error: 1.03 on 7 degrees of freedom
Multiple R-squared: 0.1523,     Adjusted R-squared: -0.08985 
F-statistic: 0.629 on 2 and 7 DF,  p-value: 0.5608 

> summary(m2)

Call:
lm(formula = y ~ x1, data = dfr)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.5673 -0.4230 -0.1362  0.4718  1.7969 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   0.5314     0.4496   1.182    0.271
x1B          -0.5174     0.6358  -0.814    0.439

Residual standard error: 1.005 on 8 degrees of freedom
Multiple R-squared: 0.07644,    Adjusted R-squared: -0.03901 
F-statistic: 0.6621 on 1 and 8 DF,  p-value: 0.4394 

> 
> ## Analyse de variance
> anova(m1)
Analysis of Variance Table

Response: y
          Df Sum Sq Mean Sq F value Pr(>F)
x1         1 0.6692  0.6692  0.6312 0.4530
x2         1 0.6645  0.6645  0.6268 0.4545
Residuals  7 7.4211  1.0602               
> 
> ## Comparaison de modèles
> anova(m2, m1)
Analysis of Variance Table

Model 1: y ~ x1
Model 2: y ~ x1 + x2
  Res.Df    RSS Df Sum of Sq      F Pr(>F)
1      8 8.0856                           
2      7 7.4211  1    0.6645 0.6268 0.4545
> 
> ## Analyse de variance "à la SAS"
> library(car)
> Anova(m1, type = "III")
Anova Table (Type III tests)

Response: y
            Sum Sq Df F value Pr(>F)
(Intercept) 2.0640  1  1.9469 0.2056
x1          0.4077  1  0.3845 0.5548
x2          0.6645  1  0.6268 0.4545
Residuals   7.4211  7

y'a t'il des écrits exhaustifs en français ou anglais sur les différences entre ces paramétrisations pour l'anova ?

d'ailleurs, je serais en second lieu également intéréssé par un exposé des raisons qui ont conduit les programmeurs de R à ce choix particulier.

http://www.stats.ox.ac.uk/pub/MASS3/Exegeses.pdf

Vincent Chalmel · Messagepar **Vincent Chalmel** » 02 Juil 2009, 07:59

Merci bien

Groupe des utilisateurs du logiciel R

modèle linéaire séquentiel

modèle linéaire séquentiel

Re: modèle linéaire séquentiel

Qui est en ligne