nouvelle fonction gof dans metomet

Questions sur les fonctions statistiques de R

Modérateur : Groupe des modérateurs

Tillard
Messages : 87
Enregistré le : 17 Déc 2004, 10:32

nouvelle fonction gof dans metomet

Messagepar Tillard » 13 Mar 2006, 08:17

merci Renaud pour cette fonction gof tres utile (que tu viens d'ajouter dans le package metomet)
il faudrait cependant rappeler dans l'aide que ce test convient aux données groupées (covariate pattern), et qu'avec glm, ce test n'est pas applicable dans le cas d'une variable dependante binaire (0/1).
Et que dans ce cas, on peut utiliser soit le (tres connu) test de Hosmer Lemeshow (pour lequel tu as aussi ecris une fonction - pourquoi ne pas l'ajouter au package metomet ?) ou le test de le Cessie-van Houwelingen disponible via la fonction residuals.lrm du package Design.
Emmanuel
Emmanuel Tillard
UMR ERRC (Elevage des Ruminants en Regions Chaudes)
CIRAD - St PIERRE (La Réunion)
tel: 02 62 49 92 54

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Messagepar Renaud Lancelot » 13 Mar 2006, 17:42

Bonjour Manu,

Merci de ces commentaires. Je vais essayer d'améliorer l'aide et je posterai une mise à jour ce soir Inch Allah.

Sauf erreur de ma part (si Matthieu nous lit, il pourra rectifier, le cas échéant), le test de Pearson marche aussi pour les réponses binaires. Je n'ai pas McCullagh et Nelder sous la main, mais tu peux regarder http://www.statsci.org/smyth/pubs/goodness.pdf.

Le test de Hosmer et Lemeshow est très contesté, raison pour laquelle on ne l'a pas mis dans le package. Il faudrait aussi probablement que je le ré-écrive car bcp de choses ont changé dans S+/R depuis que je l'avais programmé (il y a 10 ans !). Pas le temps en ce moment, mais si quelqu'un a le temps / courage, why not !

Je viens de jeter un coup d'oeil sur le code du test de Cessis-van Houwelingen. Je pense que c'est possible de l'adapter pour les modèles ajustés avec glm. J'essaierai de la faire quand j'aurai un peu de temps (il faudrait que je vérifie dans le papier de Hosmer et al. que je dois avoir qque part). Là aussi, si il y a des contributeurs, ils sont les bienvenus !

Amicalement,

Renaud

Matthieu Lesnoff
Messages : 120
Enregistré le : 29 Nov 2004, 12:41

Messagepar Matthieu Lesnoff » 14 Mar 2006, 06:43

Renaud Lancelot a écrit :Sauf erreur de ma part (si Matthieu nous lit, il pourra rectifier, le cas échéant), le test de Pearson marche aussi pour les réponses binaires.


Non a ma connaissance le X2 de Pearson ne marche pas pour les donnees binaires. La distribution du X2 est degeneree et ne suit plus un chi-2.

A+

Matthieu

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Messagepar Renaud Lancelot » 14 Mar 2006, 10:16

Matthieu,

Merci de ta réponse. Je viens de vérifier dans McCullagh et Nelder (p.34):
"Both the deviance and the generalized Pearson X2 have exact chi-squared distribution for normal-theory linear models (assuming of course that the model is true), and asymptotic results are available for the other distributions. However, asymptotic results may not be specially relevant to statistics calculated from limited amounts of data, and for these, either D or X2 may prove superior in its distributional properties"


Si je rapproche cela de ce que dit Smyth (2003) dans la publi citée en réf de l'aide de gof():
The expected value of the Pearson statistic depends only on the first two moments of the distribution of the yi and in this sense the Pearson statistic is robust against mis-specification of the response distribution


les choses ne me semblent pas aussi claires pour le cas d'une réponse binaire, où le pb se poserait plutôt pour le cas d'échantillons de faible taille. Merci de me dire si je me trompe.

Par ailleurs, pour suivre ce que disent McCullagh et Nelder, il faudrait ajouter un warning sur le risque avec les faibles tailles d'échantillon, et ajouter le test de la déviance. Qu'en penses-tu ?

Amicalement,

Renaud

Matthieu Lesnoff
Messages : 120
Enregistré le : 29 Nov 2004, 12:41

Messagepar Matthieu Lesnoff » 14 Mar 2006, 15:19

Salut Renaud

Pas eu le temps de regarder gof dans metomet.

Renaud Lancelot a écrit :les choses ne me semblent pas aussi claires pour le cas d'une réponse binaire, où le pb se poserait plutôt pour le cas d'échantillons de faible taille. Merci de me dire si je me trompe.


La taille d'échantillon joue sur l'approximation asymptotique de la distribution des statistiques X2 ou D, mais cela est différent de l'effet "sparsness" qui survient quand bcp de "n_i" deviennent petits (l'extrême etant les données binaires où tous les n_i = 1). Pour des "sparses data", la distribution du X2 et D n'est plus un chi-2, même asymptotiquement. Ceci est par exemple expliqué dans McCullagh & Nelder chap 4.4.5 p.120. Si je me rappelle bien, l'effet sparseness tire la distribution de X2 et D vers la gauche (en remarque, un effet surdispersion tire les distributions vers la droite, donc l'un des effets peut masquer l'autre), la distribution devenant complètement dégénérée pour les données binaires (cf M&N).


Renaud Lancelot a écrit :Par ailleurs, pour suivre ce que disent McCullagh et Nelder, il faudrait ajouter un warning sur le risque avec les faibles tailles d'échantillon


Mon avis est que cela semble très délicat. Quelles limites prendre ? Il y a bcp de situations différentes à prendre en compte. Je pense que cela emmène trop loin.

Renaud Lancelot a écrit :et ajouter le test de la déviance. Qu'en penses-tu ?


Oui tu peux ajouter D. Il me semble me rappeler que, dans son bouquin, Collett disait que lorsque D et X2 n'aboutissaient pas au même diagnostic (et étaient donc très différents) cela signifiait que l'approximation chi-2 n'était probablement pas très valide.

Le "goodness of fit" n'est pas un pb simple si on creuse un peu. Pour gof, personnellement j'en resterai à des choses basiques comme le X2 et D. Ou alors il faut se baser sur des choses bien décrites et validées dans la littérature, que je n'ai pas du tout suivie à ce niveau.

Il y a aussi toutes les approches Monte Carlo, cf par exemple thèse Pauline Ezanno, relativement facile à faire sous R mais pas sous la forme d'une fonction standard (il faut faire un peu de script).

En espérant n'avoir pas dit trop de bêtises car je te répond de mémoire, je n'ai +trop les choses précises en tête sur ce sujet.

A+

Matthieu


Retourner vers « Archives : Fonctions statistiques »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité