critere AIC

Questions sur les fonctions statistiques de R

Modérateur : Groupe des modérateurs

colombet murielle
Messages : 12
Enregistré le : 10 Sep 2006, 12:46

critere AIC

Messagepar colombet murielle » 11 Sep 2006, 08:14

Bonjour,

Je suis nouvelle sur le forum
J'ai un souci avec le critere AIC.
En fait j'ai construit des modeles pour predire des taux de mortalite.
A la base je ne m'interesse pas a la qualite du modele mais a la prediction donc je fais d'autres tests enfin bref la n'est pas le probleme.
Le fait est que je regarde quand meme la qualite en sortant le critere AIC.
Le souci est que dans un des modeles(modele lineaire) je suppose que mon taux suit une loi gaussienne avec un poids de la population et dans les 2 autres(avec du log) je modelise le nombre de deces suivant une loi de poisson avec un offset qui est la population.
Dans les 2 derniers le critere est entre 100 et 800 en gros alors que dans le premier il est de l'ordre de -3*10^9!!! On m'a dit que ce n'etait pas normal qu'il soit negatif et que le logiciel n'a peut-etre pas donne le bon resultat et qu'il fallait que je le calcule moi-meme.
Alors premiere question : comment le logiciel calcule le AIC?
Et comment le calculer?

J'ai trouve des formules differentes sur internet et dans des bouquins:

AIC=-2*logvrais+2*nbr_parametre_ds _le modele ----->Ca c'est la formule donnee par tous les bouquins.

Je l'ai utilise pour le modele lineaire avec logvrai=exp{-(sum[yi-E(yi)]^2)/2*sigma^2} (formule trouvee dans un bouquin) en prenant comme variance sigma la variance empirique mais je trouve des resultats negatifs encore .

Sinon il y a d'autres formules:
AIC=Cp+nbr_observation ----> SI c'est un modele lineaire
AIC=ln(somme des residus au carre/nbr de parametre)+ (nbr de parametre +1)*2/nbr de parametre
....etc

J'ai essaye avec ces formules mais je ne retrouve pas les meme resultats que R meme dans les 2 derniers modeles.... je suis perdue.

Si vous connaissez ce critere la merci beaucoup de votre aide.



Murielle

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Re: critere AIC

Messagepar Renaud Lancelot » 11 Sep 2006, 11:44

colombet murielle a écrit :Bonjour,

Je suis nouvelle sur le forum
J'ai un souci avec le critere AIC.
En fait j'ai construit des modeles pour predire des taux de mortalite.
A la base je ne m'interesse pas a la qualite du modele mais a la prediction donc je fais d'autres tests enfin bref la n'est pas le probleme.
Le fait est que je regarde quand meme la qualite en sortant le critere AIC.


Attention l'AIC n'est pas un critère de qualité de l'ajustement des modèles. La qualité de l'ajustement est un autre domaine. L'AIC est un critère de comparaison de modèles, souvent utilisé pour sélectionner le "meilleur" modèle, ou un petit nb de modèles en compétition.

Le souci est que dans un des modeles(modele lineaire) je suppose que mon taux suit une loi gaussienne avec un poids de la population et dans les 2 autres(avec du log) je modelise le nombre de deces suivant une loi de poisson avec un offset qui est la population.

Avant d'aller plus loin, vous ne pouvez pas comparer directement des modèles relatifs à deux lois de distribution différentes. Vous ne pouvez comparer que des modèles où la réponse est la même, sous la même forme. Les puristes ajoutent également qu'il est nécessaire que les modèles soient emboîtés. Par exemple, vous ne pouvez pas comparer
y ~ x
et
y ~ log(x)

ou

y ~ x
et
log(y) ~ x

Dans les 2 derniers le critere est entre 100 et 800 en gros alors que dans le premier il est de l'ordre de -3*10^9!!! On m'a dit que ce n'etait pas normal qu'il soit negatif et que le logiciel n'a peut-etre pas donne le bon resultat et qu'il fallait que je le calcule moi-meme.

On vous a dit une bêtise mais c'est toujours bien de vérifier soi-même !

Alors premiere question : comment le logiciel calcule le AIC?
Et comment le calculer?


Si vous parlez de la fonction AIC disponible dans le package stats de R (disponible par défaut), vous pouvez accéder au code de la manière suivante:

Code : Tout sélectionner

> AIC
function (object, ..., k = 2)
UseMethod("AIC")
<environment: namespace:stats>
> methods(AIC)
[1] AIC.default* AIC.logLik*

   Non-visible functions are asterisked
> stats:::AIC.default
function (object, ..., k = 2)
{
    if (length(list(...))) {
        object <- list(object, ...)
        val <- lapply(object, logLik)
        val <- as.data.frame(t(sapply(val, function(el) c(attr(el,
            "df"), AIC(el, k = k)))))
        names(val) <- c("df", "AIC")
        Call <- match.call()
        Call$k <- NULL
        row.names(val) <- as.character(Call[-1])
        val
    }
    else AIC(logLik(object), k = k)
}
<environment: namespace:stats>
> stats:::AIC.logLik
function (object, ..., k = 2)
-2 * c(object) + k * attr(object, "df")
<environment: namespace:stats>


En clair, ça veut dire que le programme extrait le log de la vraisemblance du modèle (linéaire, linéaire généralise,...), puis extrait le nombre de paramètres en général stocké avec le log de la vraisemblance, et fait le calcul -2 * log(vraisemblance) + k * nb de paramètres. La constante k prend la valeur 2 par défaut, ce qui donne le critère AIC. Vous pouvez spécifier k = log(n) où n est le nb d'observations, ce qui donne le BIC.


J'ai trouve des formules differentes sur internet et dans des bouquins:

AIC=-2*logvrais+2*nbr_parametre_ds _le modele ----->Ca c'est la formule donnee par tous les bouquins.

Je l'ai utilise pour le modele lineaire avec logvrai=exp{-(sum[yi-E(yi)]^2)/2*sigma^2} (formule trouvee dans un bouquin) en prenant comme variance sigma la variance empirique mais je trouve des resultats negatifs encore .


Le pb peut venir du fait que la vraisemblance des modèles linéaires est définie à une constante près qui peut varier d'un logiciel à l'autre. Vous n'avez pas à vous inquiéter de trouver un AIC négatif. Ce qui est important, c'est la variation de l'AIC entre les modèles comparés, et non la valeur absolue de l'AIC qui n'a aucune signification en elle-même.

Pour des explications complémentaires, voir la fiche sur la sélection de modèles avec l'AIC, disponible sur ce forum.

Renaud

Sinon il y a d'autres formules:
AIC=Cp+nbr_observation ----> SI c'est un modele lineaire
AIC=ln(somme des residus au carre/nbr de parametre)+ (nbr de parametre +1)*2/nbr de parametre
....etc

J'ai essaye avec ces formules mais je ne retrouve pas les meme resultats que R meme dans les 2 derniers modeles.... je suis perdue.

Si vous connaissez ce critere la merci beaucoup de votre aide.



Murielle

colombet murielle
Messages : 12
Enregistré le : 10 Sep 2006, 12:46

Messagepar colombet murielle » 11 Sep 2006, 14:00

Deja merci bcp pour votre reponse .

Attention l'AIC n'est pas un critère de qualité de l'ajustement des modèles. La qualité de l'ajustement est un autre domaine. L'AIC est un critère de comparaison de modèles, souvent utilisé pour sélectionner le "meilleur" modèle, ou un petit nb de modèles en compétition.


En fait je veux choisir le meilleur modele mais pas en fonction du AIC je le choisis d'une autre maniere mais on m'a dit de regarder ce critere en second pour voir si le modele selectionne etait celui qui avait le AIC le plus faible , c'est une sorte de verification.

Avant d'aller plus loin, vous ne pouvez pas comparer directement des modèles relatifs à deux lois de distribution différentes. Vous ne pouvez comparer que des modèles où la réponse est la même, sous la même forme. Les puristes ajoutent également qu'il est nécessaire que les modèles soient emboîtés. Par exemple, vous ne pouvez pas comparer
y ~ x
et
y ~ log(x)

ou

y ~ x
et
log(y) ~ x


En fait mes modeles sont

taux(i,t)=alpha(i)+beta(i)*t (1)
log(taux(i,t))=alpha(i)+beta(i)*t (2)
log(taux(i,t))=alpha(i)+beta*t (3)


avec i qui correspond au groupe d'age i et t à l'annee
or taux(i,t)=nbr_cas(i,t)/popu(i,t)

donc dans (1) je dis que le taux suit une loi gaussienne et je mets le poids de la population donc ca fait
glm=glm(taux ~ -1+age+age*annee,family=gaussian(identity),weigths=popu)

je sais que j'aurais pu mettre taux ~ -1+age/annee je l'ai vu apres avoir fini de programmer mais je retrouve les memes resultats. Certes il a juste fallu que je fasse des transformations pour retrouver la matrice de covariance mais bon tant pis ...

dans (2) la je modelise le nbr_cas(i,t) et j'ai donc:
glm=glm(cas~-1+age+age*annee,family=poisson(log),offset=log(popu))

pour (3) c'est pareil que (2) sauf que j'ai age+ annee au lieu de age+age*annee

donc moi je pense que mes modeles sont comparables avec le critere
non?
Et donc que ce n'est pas normal d'avoir un AIC de 10^9 dans (1) et un AIC de 400 en moyenne dans (2) et (3) il y a forcement quelque chose qui ne va pas.
J'ai essaye quelque de bete: j'ai mis une loi de poisson dans mon premier modele au lieu d'une loi gaussienne ce qui est absurde vu que je modelise un taux mais je voulais voir si le AIC etait aussi haut et en fait ben non il etait du meme ordre que dans les 2 autres modeles.

Donc comme je trouve des resulats corrects je ne pense pas que mon modele (1)soit mal parametre donc je ne sais pas quoi faire.
Pour l'instant je ne me soucie pas du critere bien que cela reste un pbm au fond.


Si vous avez compris mon souci et si vous avez la solution miracle je vous attend et je vous remercie d'avance de votre reponse :wink:

François Bonnot
Messages : 537
Enregistré le : 10 Nov 2004, 15:19
Contact :

Messagepar François Bonnot » 11 Sep 2006, 15:25

Renaud,

Les auteurs de nombreux articles utilisent (peut-être à tort?) les critères AIC et BIC pour comparer des modèles non-emboîtés. Je n'ai pas à ma disposition immédiate de référence théorique à ce sujet mais on peut trouver de nombreux exemples sur internet, voir par exemple (à partir de la page 83):

http://perso.univ-rennes1.fr/bernard.delyon/regression.pdf#search=%22aic%20mod%C3%A8les%20%22non%20embo%C3%AEt%C3%A9s%22%22

J'ai trouvé (entre autres) la référence de l'ouvrage suivant mais je n'en dispose pas:

Burnham, K. P. et Anderson, D. R. 1998. Model selection and inference. A practical information-theoretic approach. Springer-Verlag, New York, xx + 353 pp.

En fait les critères AIC et BIC sont utiles justement dans le cas de modèles non emboîtés pour choisir le "meilleur" modèle, sans que l'on dispose d'un véritable test statistique. Mais si les modèles sont emboîtés pourquoi ne pas utiliser le rapport de vraisemblance qui, lui, nous fournit un test ?

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Messagepar Renaud Lancelot » 11 Sep 2006, 15:41

François,

Il y a une controverse sévère sur l'utilisation de l'AIC et autres critères d'information pour des modèles non emboîtés.
* Burnham et Anderson (j'ai le bouquin) affirment qu'un des avantages de ces critères est de permettre la comparaison de modèles non emboîtés et j'ai moi-même publié des articles où des données étaient analysées de cette manière.
* D'autres auteurs (exemple Brian Ripley) disent que la théorie ne tient que pour des modèles emboîtés, et encore pas n'importe quels modèles: uniquement modèles linéaires et modèles linéaires généralisés. Il y a encore des problèmes non surmontés pour comparés des modèles linéaires mixtes entre eux, et des modèles à effets fixes avec des modèles mixtes, etc. Je ne parle même pas des modèles linéaires généralisés mixtes pour lesquels la vraisemblance est maximisée par approximation...

Même en se cantonnant aux modèles emboîtés, les critères d'information sont intéressants car ils permettent d'éviter de faire des comparaisons multiples avec le test du rapport des vraisemblances (ou autres tests). J'en parle un peu dans la fiche. A noter également que l'objectif est de sélectionner un modèle ayant des propriétés optimales (précision et variance) pour la prédiction: cela aboutit souvent à conserver des termes dont tous les coef ne sont pas forcément "significatifs" (test de Wald ou LRT).

NB: il y a une édition plus récente du bouquin de B&A (2002).

Renaud

Pierre Bady
Messages : 405
Enregistré le : 02 Mai 2006, 07:46

Messagepar Pierre Bady » 11 Sep 2006, 15:50

bonjour,

pour appuyer, le post de Renaud, voici un petit aperçu du débat sur la R-list :

http://tolstoy.newcastle.edu.au/R/help/06/02/21794.html
http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

@++

Pierre
=@===--------¬-------¬------¬-----¬
liens utiles :
http://www.gnurou.org/Writing/SmartQuestionsFr
http://neogrifter.free.fr/welcomeOnInternet.jpg
]<((((*< -------------------------------

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Messagepar Renaud Lancelot » 11 Sep 2006, 16:54

colombet murielle a écrit :En fait mes modeles sont

taux(i,t)=alpha(i)+beta(i)*t (1)
log(taux(i,t))=alpha(i)+beta(i)*t (2)
log(taux(i,t))=alpha(i)+beta*t (3)


avec i qui correspond au groupe d'age i et t à l'annee
or taux(i,t)=nbr_cas(i,t)/popu(i,t)

donc dans (1) je dis que le taux suit une loi gaussienne et je mets le poids de la population donc ca fait
glm=glm(taux ~ -1+age+age*annee,family=gaussian(identity),weigths=popu)


Pourquoi une loi gaussienne ? Pour modéliser des comptages ou des probas, on utilise plutôt une loi de Poisson ou binomiale car les observations sont discrètes par nature. Cela peut marcher avec la loi gaussienne mais il y a parfois des gags douloureux (valeurs prédites < 0, par exemple). Sur un plan stat, je crois qu'il faut choisir un modèle respectant la nature des données, i.e. pas une régression linéaire.
De plus, votre notation:

Code : Tout sélectionner

taux ~ -1 + age + age*annee

est équivalente à

Code : Tout sélectionner

taux ~ -1 + age * annee

car cette formule se développe en

Code : Tout sélectionner

taux ~ -1 + age + annee + age:annee


je sais que j'aurais pu mettre taux ~ -1+age/annee je l'ai vu apres avoir fini de programmer mais je retrouve les memes resultats. Certes il a juste fallu que je fasse des transformations pour retrouver la matrice de covariance mais bon tant pis ...

dans (2) la je modelise le nbr_cas(i,t) et j'ai donc:
glm=glm(cas~-1+age+age*annee,family=poisson(log),offset=log(popu))

pour (3) c'est pareil que (2) sauf que j'ai age+ annee au lieu de age+age*annee


Pas sûr d'avoir tt compris, mais je pense que vous pouvez faire:

Code : Tout sélectionner

fm1 <- glm(taux ~ -1 + age + annee, family = binomial, weigths = popu)
fm2 <- glm(taux ~ -1 + age * annee, family = binomial, weigths = popu)
anova(fm1, fm2, test = "chisq")

pour faire un test du rapport des vraisemblance jugeant de l'intérêt de l'interaction age:annee dans le modèle binomial

ou

Code : Tout sélectionner

fm3 <- glm(nb_cas ~ -1 + age + annee + offset(log(pop)), family = poisson)
fm4 <- glm(nb_cas ~ -1 + age * annee + offset(log(pop)), family = poisson)
anova(fm3, fm4, test = "chisq")

pour faire la même chose avec des modèles de Poisson.

Le choix de binomial ou poisson peut se faire selon la valeur des propas observées: plutôt Poisson si probas faibles, plutôt binomial sinon.

L'AIC ne présente pas d'intérêt pour comparer deux modèles emboîtés: prendre le test du rapport des vraisemblances.


donc moi je pense que mes modeles sont comparables avec le critere non?
Et donc que ce n'est pas normal d'avoir un AIC de 10^9 dans (1) et un AIC de 400 en moyenne dans (2) et (3) il y a forcement quelque chose qui ne va pas.
J'ai essaye quelque de bete: j'ai mis une loi de poisson dans mon premier modele au lieu d'une loi gaussienne ce qui est absurde vu que je modelise un taux mais je voulais voir si le AIC etait aussi haut et en fait ben non il etait du meme ordre que dans les 2 autres modeles.

Donc comme je trouve des resulats corrects je ne pense pas que mon modele (1)soit mal parametre donc je ne sais pas quoi faire.
Pour l'instant je ne me soucie pas du critere bien que cela reste un pbm au fond.


Vous ne pouvez comparer que des modèles relatifs à la même distribution, et ajustés sur le même jeu de données (même réponse).

Renaud

Si vous avez compris mon souci et si vous avez la solution miracle je vous attend et je vous remercie d'avance de votre reponse :wink:

colombet murielle
Messages : 12
Enregistré le : 10 Sep 2006, 12:46

Messagepar colombet murielle » 12 Sep 2006, 09:42

Je suis etonnee d'avoir des reponses aussi rapides merci a tous. :D

Mais au final je ne sais plus ce que je dois faire.

Pourquoi une loi gaussienne ? Pour modéliser des comptages ou des probas, on utilise plutôt une loi de Poisson ou binomiale car les observations sont discrètes par nature. Cela peut marcher avec la loi gaussienne mais il y a parfois des gags douloureux (valeurs prédites < 0, par exemple). Sur un plan stat, je crois qu'il faut choisir un modèle respectant la nature des données, i.e. pas une régression linéaire.


En fait vu que dans mon premier modele je modelise le taux , on m'a dit d'utiliser une loi gaussienne, pour les 2 autres je modelise le nombre de cas donc c'est du comptage et vu qu'il y a du log j'utilise une loi de poisson qui est plus adaptee.



Pas sûr d'avoir tt compris, mais je pense que vous pouvez faire:

Code:
fm1 <- glm(taux ~ -1 + age + annee, family = binomial, weigths = popu)
fm2 <- glm(taux ~ -1 + age * annee, family = binomial, weigths = popu)
anova(fm1, fm2, test = "chisq")


pour faire un test du rapport des vraisemblance jugeant de l'intérêt de l'interaction age:annee dans le modèle binomial

ou

Code:
fm3 <- glm(nb_cas ~ -1 + age + annee + offset(log(pop)), family = poisson)
fm4 <- glm(nb_cas ~ -1 + age * annee + offset(log(pop)), family = poisson)
anova(fm3, fm4, test = "chisq")


pour faire la même chose avec des modèles de Poisson.

Le choix de binomial ou poisson peut se faire selon la valeur des propas observées: plutôt Poisson si probas faibles, plutôt binomial sinon.



Bon en fait je ne cherche pas a savoir quel est le meilleur modele entre les 3.
En fait j'utilise quoiqu'il arrive ces 3 modeles avec un nombre d'annees different pris en compte et en tout j'ai 15 modeles.
Mon choix se porte sur celui qui aura la meilleur prediction avec mes tests.
Je voulais juste avoir un apercu avec le critere AIC pour ces 15modeles.
Mais si vous me dites que le critere n'est comparable qu'avec des distributions identiques... ben je comprends mieux pourquoi j'ai des differences dans mon critere avec le modele (1).

Mais vous pensez que je devrais mettre une loi de poisson quand meme ds mon premier modele ?
mais dans ce cas j'aurais:

Code : Tout sélectionner

 glm(taux ~ -1+ age*annee,family=poisson(identity),weigths=popu)


Et il me semble qu'il faut eviter de mettre une fonction de lien identite avec une loi de poisson

En fait si vous voulez tout savoir il y a un programme sous STATA qui effectue ces 3 modeles et j'ai du le reecrire sous R.
Et dans STATA tous les modeles utilisaient une loi de poisson meme celui qui modelisait le taux mais on m'a suggere de ne pas suivre cette procedure (et j'etais assez d'accord) voila pk j'ai mis une loi gaussienne.

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Messagepar Renaud Lancelot » 12 Sep 2006, 11:27

En fait vu que dans mon premier modele je modelise le taux , on m'a dit d'utiliser une loi gaussienne, pour les 2 autres je modelise le nombre de cas donc c'est du comptage et vu qu'il y a du log j'utilise une loi de poisson qui est plus adaptee.

Il n'est pas naturel de modéliser des taux avec une loi gaussienne: prennent des valeurs discrètes par nature (1/10, 23/520, etc). Selon la manière dont les taux sont construits et les valeurs prises, on les modélise soit par des régressions binomiales (liens logistiques, cloglog, etc) ou de Poisson (lien log, identité). NB, dans les deux cas, on peut considérer qu'on modélise le comptage ou la proportion. Un des élements de choix entre binomial ou Poisson est la valeur prise par la proportion.

Mais vous pensez que je devrais mettre une loi de poisson quand meme ds mon premier modele ?
mais dans ce cas j'aurais:

Code : Tout sélectionner

glm(taux ~ -1+ age*annee,family=poisson(identity),weigths=popu)



Deux possibilités:

1) Binomial

Code : Tout sélectionner

glm(taux ~ -1+ age * annee, family = binomial, weigths = popu)


2) Poisson

Code : Tout sélectionner

glm(taux ~ -1+ age * annee + offset(log(popu)), family = poisson)


Les liens par défaut sont logit avec binomial, et log avec poisson. Sauf nécessité ou justification spéciale, je ne mettrais pas un lien identité avec poisson.

Pour choisir entre les deux (binomial ou poisson), regarder la qualité de l'ajustement (test du chi2 de Pearson, examen des valeurs ajustées et prédites, examen des résidus,...) et les valeurs prédites: si bcp de probas élevées (e.g. > .1 ou .2), il peut être préférable de prendre du binomial, et réciproquement.

Renaud

colombet murielle
Messages : 12
Enregistré le : 10 Sep 2006, 12:46

Messagepar colombet murielle » 12 Sep 2006, 17:04

Je ne comprend pas trop la solution que vous me proposez pour mon premier modele.
Mes taux sont vraiment faibles de l'ordre de 10^-5 . Et taux=cas/popu
or cas ~Poisson mais je vois mal le taux suivre une loi de Poisson je ne saurais pas vous expliquer pourquoi d'ailleurs...

Vous me dites de faire ainsi:

glm(taux ~ -1+ age * annee + offset(log(popu)), family = poisson)


mais dans ce cas mon modele n'est plus taux=alpha(i)+beta(i)*t
mais log(taux/popu)=alpha(i)+beta(i)*t

C'est juste une regression lineaire pour chaque tranche d'age donc je ne devrais pas avoir de log dans mes formules c'est pour ca que je mettrais une fonction de lien identite.

Sinon, je suis allee voir votre fiche sur le AIC.
Alors je ne peux pas comparer les AIC avec les modeles que j'avais au depart en prenant des distributions differentes?


Je vous remercie beaucoup pour vos reponses .

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Messagepar Renaud Lancelot » 12 Sep 2006, 17:34

Je ne comprend pas trop la solution que vous me proposez pour mon premier modele.
Mes taux sont vraiment faibles de l'ordre de 10^-5 .


Donc pas de doute: c'est bien un modèle log-linéaire (Poisson) qu'il faut essayer avant tout. Vous êtes pile-poil dans le cas classique.

Et taux=cas/popu
or cas ~Poisson mais je vois mal le taux suivre une loi de Poisson je ne saurais pas vous expliquer pourquoi d'ailleurs...


Ce n'est pas le taux qui suit une loi de Poisson, mais le nb de cas. Le terme offset lié à popu est fait pour tenir compte que le nb de cas n'est pas toujours relatif au même nb de personnes ou de personnes * temps.

Vous me dites de faire ainsi:

Citation:
glm(taux ~ -1+ age * annee + offset(log(popu)), family = poisson)


mais dans ce cas mon modele n'est plus taux=alpha(i)+beta(i)*t
mais log(taux/popu)=alpha(i)+beta(i)*t


Non: log(cas) = alpha(i) + beta(i) * t avec ajustement sur la taille de la population.

C'est juste une regression lineaire pour chaque tranche d'age donc je ne devrais pas avoir de log dans mes formules c'est pour ca que je mettrais une fonction de lien identite.


Le pb du lien log est la nature du risque: un risque additif sur l'échelle log correspond à un risque multiplicatif sur l'échelle des cas. C'est tte la théorie du modèle log-linéaire, développé pour modéliser le genre de pb auquel vous êtes confrontée: lire un bon bouquin sur la question, par exemple:

Agresti, A., Categorical data analysis. Wiley series in probability and mathematical statistics, ed. V. Barnett, et al. 1990, New York: John Wiley & sons. 558 p.

(je crois qu'il y a une édition plus récente).

Sinon, je suis allee voir votre fiche sur le AIC.
Alors je ne peux pas comparer les AIC avec les modeles que j'avais au depart en prenant des distributions differentes?


Non.

(il y a des astuces pour contourner le pb: voir par exemple dans les bouquins de Jim K Lindsey. Pas sûr que ce soit validé par les théoriciens.)

Renaud

Charlène Joannès
Messages : 5
Enregistré le : 24 Oct 2012, 13:26

Messagepar Charlène Joannès » 12 Déc 2012, 12:23

Attention l'AIC n'est pas un critère de qualité de l'ajustement des modèles. La qualité de l'ajustement est un autre domaine. L'AIC est un critère de comparaison de modèles, souvent utilisé pour sélectionner le "meilleur" modèle.


Je vais poser une question bête, mais dans ce cas, qu'est-ce que le "meilleur" modèle ?


Retourner vers « Archives : Fonctions statistiques »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité