La réponse à la question se trouve sans doute plus dans les stats que dans le manuel de R mais néanmoins n'ayant apparemment pas les ressources nécessaires pour la trouver le tente ici (mon statisticien de voisin de bureau, ne sachant pas me répondre :D)
voici les sorties de R concernant un modèle de regression logistique:
Code : Tout sélectionner
#rmcca$her1 est un facteur à 11 niveaux.
S un nombre de succès
S-259 la différence pour obtenir le nombre d'échec
Le modèle est estimé sur 474 valeurs
> summary(glmS1)
Call:
glm(formula = cbind(S, abs(S - 259)) ~ rmcca$her1, family = binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-5.062 -0.958 -0.111 0.744 4.857
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.6197 0.0432 -37.49 < 2e-16 ***
rmcca$her12 -0.5840 0.0533 -10.95 < 2e-16 ***
rmcca$her13 0.1732 0.0558 3.10 0.00193 **
rmcca$her14 0.1197 0.0562 2.13 0.03321 *
rmcca$her15 -0.0879 0.0454 -1.94 0.05277 .
rmcca$her16 0.0416 0.0471 0.88 0.37654
rmcca$her17 -0.1215 0.0485 -2.51 0.01220 *
rmcca$her18 0.1928 0.0521 3.70 0.00022 ***
rmcca$her110 0.0848 0.0545 1.56 0.11959
rmcca$her115 0.0941 0.0536 1.75 0.07937 .
rmcca$her119 0.2542 0.0990 2.57 0.01029 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1517.69 on 473 degrees of freedom
Residual deviance: 967.69 on 463 degrees of freedom
AIC: 3527
Number of Fisher Scoring iterations: 4
L'anova du modèle donne :
Code : Tout sélectionner
> anova(glmS1,test ="Chisq")
Analysis of Deviance Table
Model: binomial, link: logit
Response: cbind(S, abs(S - 259))
Terms added sequentially (first to last)
Df Deviance Resid. Df Resid. Dev P(>|Chi|)
NULL 473 1518
rmcca$her1 10 550 463 968 9e-112
Jusqu'ici tout va bien mais je me pose alors la question de l'éventuelle surdispersion (plus rarement sous-) du modèle. Maintenant je passe en quasi binomiale...transformation ou plutôt bricolage qui consiste à rajouter un facteur correctif pour corriger les variations de variance si je ne me trompe pas. On obtient :
Code : Tout sélectionner
> summary(glm(formula = cbind(S, abs(S - 259)) ~ rmcca$her1, family = quasibinomial))
Call:
glm(formula = cbind(S, abs(S - 259)) ~ rmcca$her1, family = quasibinomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-5.062 -0.958 -0.111 0.744 4.857
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.6197 0.0624 -25.94 <2e-16 ***
rmcca$her12 -0.5840 0.0771 -7.57 2e-13 ***
rmcca$her13 0.1732 0.0807 2.15 0.032 *
rmcca$her14 0.1197 0.0813 1.47 0.141
rmcca$her15 -0.0879 0.0656 -1.34 0.181
rmcca$her16 0.0416 0.0680 0.61 0.541
rmcca$her17 -0.1215 0.0701 -1.73 0.084 .
rmcca$her18 0.1928 0.0754 2.56 0.011 *
rmcca$her110 0.0848 0.0788 1.08 0.282
rmcca$her115 0.0941 0.0776 1.21 0.226
rmcca$her119 0.2542 0.1432 1.77 0.077 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for quasibinomial family taken to be 2.09)
Null deviance: 1517.69 on 473 degrees of freedom
Residual deviance: 967.69 on 463 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
Code : Tout sélectionner
> anova(glm(formula = cbind(S, abs(S - 259)) ~ rmcca$her1, family = quasibinomial),test="Chisq")
Analysis of Deviance Table
Model: quasibinomial, link: logit
Response: cbind(S, abs(S - 259))
Terms added sequentially (first to last)
Df Deviance Resid. Df Resid. Dev P(>|Chi|)
NULL 473 1518
rmcca$her1 10 550 463 968 9.2e-51
entre les 2 summary :
- les valeurs des estimations des paramètres sont les mêmes (ouf ! :) )
- dans un on parle de z value ,dans l'autre de t value (simple choix du programmeur ou réelle dépendance vis à vis de la loi de distribution suivant la fonction choisie ?)
-en lien avec lepoint précédent, les probas associées ont été modifié (du coup la significativité des différence aussi)
-dans l'anova, les déviances et les ddl sont les même, pourtant je n'ai pas la même proba associé dans le test du chi² ...
si vous avez quelques éclaircissement là dessus je suis preneur mais surtout, j'en arrive au point que je ne comprend vraiment pas :
Pourquoi n'ai je pas de valeur d'AIC pour le modèle quasi-binomiale ?
autre tentative :
Code : Tout sélectionner
AIC(glm(formula = cbind(S, abs(S - 259)) ~ rmcca$her1, family = quasibinomial))
[1] NA
....plouf....
L'aide de la fonction AIC indique que le calcul nécessite un objet de type "log-likelyhood". Pourquoi avoir "cassé" ce processus dans la family quasi-binomiale (peut être toutes le quasi d'ailleurs...pas testé) ? Le correctif associé rend il ce calcul un peu limite ?
merci d'avance