modèle linéaire séquentiel

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

Vincent Chalmel
Messages : 103
Enregistré le : 16 Avr 2009, 17:26

modèle linéaire séquentiel

Messagepar Vincent Chalmel » 30 Juin 2009, 15:28

Bonjour, j'aimerais savoir où trouver les différences d'interprétations nécessaires entre une anova faite par R et une classique

en effet (corrigez moi si je me trompe )

avec deux facteurs, le paramètre associé au deuxième est la moyenne des y_{i,j,k) corrigés de l'estimation du premier et de l'intercept, au contraire de SAS par exemple (et des cours d'analyse de la variance ) qui estiment les deux paramètres de façon analogue comme moyennes respectivement sur i et j des y_{i,j,k} corrigés uniquement de l'intercept.

la différence se faisant sentir également dans l'estimation du paramètre d'intéraction.

je cherche à savoir, si celà change l'interprétation des sorties (tableau d'analyse de la variance en particulier mais aussi tests des effets des différents types) et si l'estimation de la variance résiduelle reste inchangée (je soupçonne que oui )

y'a t'il des écrits exhaustifs en français ou anglais sur les différences entre ces paramétrisations pour l'anova ?


d'ailleurs, je serais en second lieu également intéréssé par un exposé des raisons qui ont conduit les programmeurs de R à ce choix particulier.

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Re: modèle linéaire séquentiel

Messagepar Renaud Lancelot » 01 Juil 2009, 17:20

Vincent Chalmel a écrit :Bonjour, j'aimerais savoir où trouver les différences d'interprétations nécessaires entre une anova faite par R et une classique

en effet (corrigez moi si je me trompe )


Oui, en effet.

avec deux facteurs, le paramètre associé au deuxième est la moyenne des y_{i,j,k) corrigés de l'estimation du premier et de l'intercept, au contraire de SAS par exemple (et des cours d'analyse de la variance ) qui estiment les deux paramètres de façon analogue comme moyennes respectivement sur i et j des y_{i,j,k} corrigés uniquement de l'intercept.


Je n'utilise plus SAS depuis longtemps et ne me rappelle plus des sorties. Je pense que vous confondez

1) l'estimation des paramètres, pour laquelle SAS et R devraient donner les mêmes résultats en vérifiant que les modèles sont bien identiques et que les mêms contrastes sont utilisés.

2) L'analyse de la variance dont les résultats sont présentés séquentiellement dans la fonction anova. Vous trouverez dans le package car la fonction Anova qui vous produira les mêmes sorties que SAS.

la différence se faisant sentir également dans l'estimation du paramètre d'intéraction.


Cf ci-dessus: ne pas confondre estimation des paramètres et analyse de la variance.

je cherche à savoir, si celà change l'interprétation des sorties (tableau d'analyse de la variance en particulier mais aussi tests des effets des différents types) et si l'estimation de la variance résiduelle reste inchangée (je soupçonne que oui )


Ces malentendus dissipés, vous retrouverez les mêmes résultats.

D'une manière générale, R privilégie les comparaisons de modèle.

Code : Tout sélectionner

> set.seed(12321)
> dfr <- data.frame(y = rnorm(10),
+                   x1 = rep(c("A", "B"), times = 5),
+                   x2 = rep(c("A", "B"), each = 5))
>
> ## Estimation des modèles
> m1 <- lm(y ~ x1 + x2, data = dfr)
> m2 <- lm(y ~ x1, data = dfr)
>
> ## Coefficients estimés
> summary(m1)

Call:
lm(formula = y ~ x1 + x2, data = dfr)

Residuals:
    Min      1Q  Median      3Q     Max
-1.8831 -0.4256  0.1269  0.5274  1.4812

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   0.7419     0.5317   1.395    0.206
x1B          -0.4121     0.6646  -0.620    0.555
x2B          -0.5262     0.6646  -0.792    0.455

Residual standard error: 1.03 on 7 degrees of freedom
Multiple R-squared: 0.1523,     Adjusted R-squared: -0.08985
F-statistic: 0.629 on 2 and 7 DF,  p-value: 0.5608

> summary(m2)

Call:
lm(formula = y ~ x1, data = dfr)

Residuals:
    Min      1Q  Median      3Q     Max
-1.5673 -0.4230 -0.1362  0.4718  1.7969

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   0.5314     0.4496   1.182    0.271
x1B          -0.5174     0.6358  -0.814    0.439

Residual standard error: 1.005 on 8 degrees of freedom
Multiple R-squared: 0.07644,    Adjusted R-squared: -0.03901
F-statistic: 0.6621 on 1 and 8 DF,  p-value: 0.4394

>
> ## Analyse de variance
> anova(m1)
Analysis of Variance Table

Response: y
          Df Sum Sq Mean Sq F value Pr(>F)
x1         1 0.6692  0.6692  0.6312 0.4530
x2         1 0.6645  0.6645  0.6268 0.4545
Residuals  7 7.4211  1.0602               
>
> ## Comparaison de modèles
> anova(m2, m1)
Analysis of Variance Table

Model 1: y ~ x1
Model 2: y ~ x1 + x2
  Res.Df    RSS Df Sum of Sq      F Pr(>F)
1      8 8.0856                           
2      7 7.4211  1    0.6645 0.6268 0.4545
>
> ## Analyse de variance "à la SAS"
> library(car)
> Anova(m1, type = "III")
Anova Table (Type III tests)

Response: y
            Sum Sq Df F value Pr(>F)
(Intercept) 2.0640  1  1.9469 0.2056
x1          0.4077  1  0.3845 0.5548
x2          0.6645  1  0.6268 0.4545
Residuals   7.4211  7   


y'a t'il des écrits exhaustifs en français ou anglais sur les différences entre ces paramétrisations pour l'anova ?


d'ailleurs, je serais en second lieu également intéréssé par un exposé des raisons qui ont conduit les programmeurs de R à ce choix particulier.


http://www.stats.ox.ac.uk/pub/MASS3/Exegeses.pdf
Renaud

Vincent Chalmel
Messages : 103
Enregistré le : 16 Avr 2009, 17:26

Messagepar Vincent Chalmel » 02 Juil 2009, 07:59

Merci bien


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité

cron