Messagepar Claire Duflos » 30 Oct 2014, 15:43
merci pour vos réponses ! en résumé, il y a 2 méthodes : celle de SAS et celle de R.
- SAS : sélection des variables par le chi2 de wald mesurant la significativité des effets de type 3. C'est celle qui est utilisée par les procédures de sélection automatique, et que je cherchais à reproduire. Merci Eric, ce test (dans SAS) est effectivement très proche du test du rapport de vraisemblance entre le modèle M et le modèle M sans la variable en question (dans R). Je peux donc reproduire, dans R, cette méthode SAS honnie par un certain nombre d'habitués de ce forum...
- R : sélection des variables par un critère d'ajustement, par exemple l'AIC. Les fonctions données par Eric font toutes les étapes d'un coup, et la fonction donnée par Renaud permet d'avoir l'information pour faire chaque étape à la main.
Les modèles obtenus par les deux méthodes sont radicalement différents... problème qui sort de l'objectif de ce forum...
Autre problème sortant de l'objectif de ce forum, mais très rigolo dans sa capacité de perplexitudification du jeune utilisateur des outils stats : j'estime le même modèle avec les mêmes données sous SAS et sous R. J'obtiens les mêmes estimations (betas et sd(beta)). SAS (proc logistic) utilise le score de Fisher comme méthode d'utilisation, et glm() utilise la méthode IWLS - la lecture béate d'un tas de supports de cours me laisse penser que c'est la même méthode. La valeur par défaut du critère de convergence dans les deux logiciels est 10e-8 (mais est-ce le même critère ?), et le nombre max d'itérations est de 25. DIFFERENCE (de taille) observée : R converge en 15 itérations, SAS ne converge pas. WTF ???