Procédure de pas à pas (régression logistique)

Hélène Guis · Messagepar **Hélène Guis** » 11 Juil 2006, 08:06

Bonjour

Je suis à la recherche d'une fonction qui permettrait de mettre en oeuvre des procédure pas à pas ascendantes et/ou descendantes. Je fais des régressions logistiques en utilisant la fonction glm (avec l'attribut family binomial), mais ce sont des modèles bloqués (toutes les variables sont forcées dans le modèle). Est-il possible de faire des régression avec une procédure pas à pas de sélection des variables? J'ai vu qu'il existait la fonction step, mais elle permet de sélectionner des modèles selon l'AIC et non les variables selon un seuil de p, non?
Merci pour votre aide

Hélène Guis
doctorante Cirad emvt

Renaud Lancelot · Messagepar **Renaud Lancelot** » 11 Juil 2006, 12:26

Bonjour Hélène,

Tu ne trouveras pas de fonction permettant de faire une sélection de modèles pas-à-pas selon le critère du F (ou chi2 du rapport des vraisemblances pour la régression logistique): il s'agit d'une décision des développeurs de R, basée sur le fait qu'il n'y a aucune théorie satisfaisante sur laquelle s'appuyer pour faire ce genre de chose (problème lié aux comparaisons multiples que l'on fait de cette manière). Pour faire court, l'utilisation d'une telle méthode pas-à-pas est à proscrire.

La question théorique de la sélection du meilleur modèle (ou d'un sous-ensemble de modèles pertinents) est complexe, et très vaste. Les raisons du rejet de la procédure pas-à-pas sont exposées dans plusieurs ouvrages, dont par exemple:

Burnham, K.P., Anderson, D.R., 2002. Model selection and multimodel inference: a practical information-theoretic approach., 2nd Edition. Springer-Verlag, New-York, 496 p.

Et effectivement, une des façons de résoudre le problème est de s'appuyer sur le critère d'information d'Akaike (AIC), d'où la fonction step que tu as trouvée dans R, et qui existe également sous une forme un peu plus élaborée (et historique) dans le package MASS (dispo dans la version standard de R) sous le nom stepAIC.

J'ai fait une petite fiche sur le sélection de modèle, disponible sur ce forum. Outre les fonctions step et stepAIC, tu trouveras quelques utilitaires dans le package metomet disponible également sur ce forum.

Enfin, si tu veux être à la pointe du progrès en matière de sélection de modèle, voir le package BMA (bayesian model averaging) qui permet de classer les modèles en compétition ainsi que les covariables par ordre d'importance. Il est décrit dans un numéro récent de R-News (voir aussi l'erratum). Très utile dans un objectif de prédiction, qui me semblerait cadrer avec ton sujet de thèse.

Bien cordialement,

Renaud

Groupe des utilisateurs du logiciel R

Procédure de pas à pas (régression logistique)

Procédure de pas à pas (régression logistique)

Qui est en ligne