pour étudier les tendances dans ma base, j'ai transformé le fichier d'individus en fichier de comptage. voici à quoi ressemble mon jeu de données
nbpst annee lage sexe activite
1 2001 -30 ans Homme Administration
1 2001 -30 ans Femme Administration
7 2001 -30 ans Femme Administration
15 2001 -30 ans Homme Administration
1 2001 -30 ans Homme Administration
1 2001 30-40 ans Femme Administration
1 2001 30-40 ans Homme Administration
1 2002 30-40 ans Femme Administration
2 2002 30-40 ans Homme Administration
7 2003 30-40 ans Femme Administration
4 2003 30-40 ans Homme Administration
Le tableau résume le nombre de problèmes (nbpst) par année, age, sexe et activité.
Je modélise nbpst (qui suit une loi de poisson) avec glm famille = poisson. Les variables explicatives sont annee, lage, sexe et activité.
Le rapport de la variance/moyenne est égal 46 indiquant une surdispersion. Surdispersion qui est confirmée par le test de Dean.
Donc je passe du poisson simple au quasipoisson et au negative binomial
Pour le quasipoisson j'ai :
(Dispersion parameter for quasipoisson family taken to be 26.17042)
Null deviance: 86850 on 3678 degrees of freedom
Residual deviance: 68188 on 3654 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 6
et pour le negative binomial:
(Dispersion parameter for Negative Binomial(0.7512) family taken to be 1)
Null deviance: 5082.1 on 3678 degrees of freedom
Residual deviance: 3991.2 on 3654 degrees of freedom
AIC: 24429
Number of Fisher Scoring iterations: 1
Theta: 0.7512
Std. Err.: 0.0169
2 x log-likelihood: -24376.9570
Mes questions sont les suivantes:
1/Peut -on dire qu'avec le quasipoisson on confirme la présence de surdispersion (Dispersion parameter for quasipoisson family taken to be 26.17042)?
2/ Peut-on dire que le negative binomial modélise mieux mes données par rapport au quasipoisson (Dispersion parameter for Negative Binomial(0.7512) family taken to be 1)?
3/Compte tenue de la nature de mon fichier où la variable à expliquer est le résultat d'un dénombrement entre différents strates (qui sont mes variables explicatives)imbriqués les uns à la suite des autres est ce que la régression de poisson classique est le mieu adaptée?
Par avance, je vous remercie du temps que vous accorderez à mon message.
Cordialement,