Analyse de tendance et regression de poisson

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

Serge Faye
Messages : 34
Enregistré le : 14 Mar 2007, 09:49

Analyse de tendance et regression de poisson

Messagepar Serge Faye » 17 Jan 2011, 18:34

Bonjour,
J'ai des données sur le nombre de pathologies par années (2001-2009) suivant le sexe, l'âge et le secteur d'activité.
J'aimerais analyser :
1/ la tendance (significative ou non) du nombre de pathologies d'une année à une autre
2/ connaitre les facteurs les plus déterminants sur l'augmentation ou la diminution de ce nombre
3/ et estimer le nombre de pathologie en fonction de certains facteurs.
Pensez vous que la régression de poisson puisse me permettre de répondre à ces questions? Sachant qu'il est fort probable que je sois confronté à un nombre de zéro excessifs dans mon comptage.
Vos conseils sont les bienvenus.
Je vous remercie

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Messagepar Renaud Lancelot » 18 Jan 2011, 11:12

A priori classique comme approche pour la régression de Poisson. Voir la fonction glm. La régression de Poisson est bien adaptée pour modéliser des événements rares (==> bcp de 0's) ==> ne vous jetez pas sur les modèles avec excès de zéro comme un mort de faim sur une choucroute royale :-)
Renaud

Serge Faye
Messages : 34
Enregistré le : 14 Mar 2007, 09:49

Messagepar Serge Faye » 18 Jan 2011, 12:39

Etant rassuré pour cette démarche, pouvez-vous me confirmer que dans le cadre d'utilsiation de la fonction gml dans R, mon jeux de données peut être de la forme suivante:
-------------------------------------------------------------------------------------
Année Secteur d’activité Pathologie Effectif
-------------------------------------------------------------------------------------
Annee 1 SA 1 Patho 1 nb (Pst pour Patho 1, SA1 et Annee 1)
Annee 1 SA 1 Patho 2 nb (Pst pour Patho 2, SA1 et Annee 1)
Annee 1 SA 2 Patho 1 nb (Pst pour Patho 1, SA2 et Annee 1)
. SA3 Patho 1
. . .
. . .
Annee n . .
Annee n SA n Patho n nb (Pst pour Patho n, SA n et Annee n)
---------------------------------------------------------------------------------------
ou:
N= 9 le nombre d'année (variable Année)
Y= Effectif : le nombre de pathologie par année, secteur d'activité
X= * Secteur d'activité
* Pathologie (groupe, classification)
* Sexe
* ...
Si j'ai bien compris, vous me déconseillez d'utiliser un modèle à inflation zéro.
De ce fait, pourrais je modéliser la présence de surdispersion par :
1/ la correction par le ratio de pearson?
2/ ou par l'inclusion d'un terme de bruit dans mon modèle ?

Pour l'étude de la tendance, j'ai prévu les tests de corrélation de rang associées aux graphes brutes. Pensez vous que ça soit une bonne méthode?

Je vous remercie par avance.[list=][/list]
    [quote][/quote]

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Messagepar Renaud Lancelot » 19 Jan 2011, 09:52

Serge Faye a écrit :Etant rassuré pour cette démarche, pouvez-vous me confirmer que dans le cadre d'utilsiation de la fonction gml dans R, mon jeux de données peut être de la forme suivante:
-------------------------------------------------------------------------------------
Année Secteur d’activité Pathologie Effectif
-------------------------------------------------------------------------------------
Annee 1 SA 1 Patho 1 nb (Pst pour Patho 1, SA1 et Annee 1)
Annee 1 SA 1 Patho 2 nb (Pst pour Patho 2, SA1 et Annee 1)
Annee 1 SA 2 Patho 1 nb (Pst pour Patho 1, SA2 et Annee 1)
. SA3 Patho 1
. . .
. . .
Annee n . .
Annee n SA n Patho n nb (Pst pour Patho n, SA n et Annee n)
---------------------------------------------------------------------------------------
ou:
N= 9 le nombre d'année (variable Année)
Y= Effectif : le nombre de pathologie par année, secteur d'activité
X= * Secteur d'activité
* Pathologie (groupe, classification)
* Sexe
* ...


Voir l'aide de la fonction glm pour les conditions d'utuilisation et la nature des données. Il faut qu'elles soient sous forme d'un data.frame (tableau rectangulaire de données), avec les variables numériques (comptages, années...) sous forme numérique, et les variables qualitatives sous forme de facteurs (voir ?factor).

Si vous n'avez aucune expérience sour R, il est ABSOLUMENT IMPERATIF de lire de la doc de base, comme le manuel "An introduction to R" où la syntaxe de base, la nature des données et les modèles sont présentés succinctement. Le site du CRAN dispose également d'une documentation abondante, y compris sur les modèles linéaires et linéaires généralisés (glm).

Je vous recommande également de lire des documents sur la régression de Poisson, sujet pas complètement trivial.

Si j'ai bien compris, vous me déconseillez d'utiliser un modèle à inflation zéro.


En tout cas, il me paraîtrait "normal" de commencer par un modèle de Poisson avec ce genre de données, quitte à identifier les écarts à une distribution de Poisson pour les données, CONDITIONNELLEMENT aux variables explicatives.

Avant même de commencer cela, il est tout aussi indispensable de commencer par faire une description soigneuse des données.

De ce fait, pourrais je modéliser la présence de surdispersion par :
1/ la correction par le ratio de pearson?
2/ ou par l'inclusion d'un terme de bruit dans mon modèle ?

Pour l'étude de la tendance, j'ai prévu les tests de corrélation de rang associées aux graphes brutes. Pensez vous que ça soit une bonne méthode?

Je vous remercie par avance.[list=][/list]


Les excès de zéros et la surdispersion ne sont pas des notions identiques. On peut avoir surdispersion sans excès de zéros, par exemple. La manière la plus simple (à mon sens) de régler un pb de surdispersion est d'utiliser une régression binomiale négative, ce qui permet de rester dans un cadre glm. Voir le package gamlss pour une mise en oeuvre très efficace.

Pour les excès de zéros (par rapport à une loi de Poisson), le mieux est de les mettre en évidence par une exploration graphique.

Pour l'étude de la tendance annuelle, il vaut mieux utiliser un modèle addititif linéaire généralisé (gam) pour explorer la forme de la tendance (avec une fonction spline ou loess de l'année). Voir le package mgcv livré avec R, ou le package gam.
Renaud

Serge Faye
Messages : 34
Enregistré le : 14 Mar 2007, 09:49

Messagepar Serge Faye » 19 Jan 2011, 10:33

Merci pour vos conseils,
Je me mets au boulot et vous tiens informer de l'évolution des choses.
encore une fois merci.
Cordialement,


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Google [Bot] et 1 invité