mon avant dernière intervention sur ce forum... Je m'excuse d'avance pour la longueur du message. J'espère que quelqu'un aura le courage de me lire jusqu'au bout et acceptera de tenter de répondre à toutes (ou partie de) ces interrogations. C'est la dernière fois que je vous embete, promis !
--------------------
je reviens sur plusieurs de mes topics sur ce forum, en raison d'un véritable soucis. je pense que mes 6 mois de travail sont plantés (?). soit, tant pis, de toute facon je doit rendre mon mémoire dans 5 jours... mais je cherche à le confirmer dans l'objectif de pouvoir expliquer l'erreur de mes résultats lors de ma soutenance, si erreur il y a. peut être y'a t il une explication rationnelle et que mes résultat ne sont finalement pas faux, mais il faut que je comprenne ce qui m'echappe.
j'ai des modèles linéaires du type lm, sur lesquels je réalise des anova --> anova(lm(....)) qui revient au même que aov(...) de ce que j'ai compris de l'aide de R concernant les différentes fonctions, notamment ceci :
Fit an analysis of variance model by a call to lm for each stratum
compte tenu du grand nombre de variables explicatives, je selectionne le meilleur modèle avec le critère AIC, afin de reduire le risque alpha de declarer un effet significatif juste par le hasard. mon directeur de mémoire m'avait dès le départ orienté sur la fonction extractAIC() afin de récupérer l'AIC des modèles
---------------------
exemple de résultat sur un modèle de classe lm, où co est une variable à 6 niveaux :
Code : Tout sélectionner
> extractAIC(aov(ASRF3~co, data=fcb))
[1] 6.0000 -316.6329
ou 6.000 représente "the number of free parameters for usual parametric models" soit le nombre de paramètres du modèle (?je me trompe pas?)
a tord peut etre, j'ai finalement décidé d'utiliser la fonction sic du package metomet... qui me permettait de recupérer en plus de l'aic, l'aicc, snas avoir à reprogrammer une fonction spécifique ou avoir a faire les calculs de l'aicc a la main
Code : Tout sélectionner
> sic.aov(aov(ASRF3~co, data=fcb))
n k nsk LL AIC AICc BIC
aov(ASRF3 ~ co, data = fcb) 226 7 32.28571 -156.3637 326.7274 327.2411 350.6711
ici, le nombre de paramètres du modèle, si je ne me trompe pas, est k = 7.
Pour extractAIC,
voici la description :
This is a generic function, with methods in base R for "aov", "coxph", "glm", "lm", "negbin" and "survreg" classes.
The criterion used is
AIC = - 2*log L + k * edf,
where L is the likelihood and edf the equivalent degrees of freedom (i.e., the number of free parameters for usual parametric models) of fit.
For linear models with unknown scale (i.e., for lm and aov), -2log L is computed from the deviance and uses a different additive constant to logLik and hence AIC.
au contraire, la fonction sic()du package metomet, utilise la même méthode de calcul que la fonction AIC(), au vu des résultats identiques de la valeur de l'AIC
Code : Tout sélectionner
> AIC(aov(ASRF3~co, data=fcb))
[1] 326.7274
et voici la descr. que l'on trouve pour AIC :
The default method for AIC, AIC.default() entirely relies on the existence of a logLik method computing the log-likelihood for the given class.
When comparing fitted objects, the smaller the AIC, the better the fit.
The log-likelihood and hence the AIC is only defined up to an additive constant. Different constants have conventionally be used for different purposes and so extractAIC and AIC may give different values (and do for models of class "lm": see the help for extractAIC).
Je ne saisi pas bien l'explication et quelle différence reelle il y a entre les deux méthodes. mon bagage statistique semble trop limité.
--------------------
--->> Concretement, j'ai basé tous mes résultats sur les resultats de la fonction sic. dans ma situation, etait ce un bon choix ?
--------------------
pourquoi le nombre de paramètres du modèle est différent selon les méthodes ? Je n'arrive pas à comprendre ou se trouve la différence entre les deux fonctions qui aboutit à des modèles différents !
la différence d'aic entre deux modèle serait t elle strictement identique avec les deux méthodes ? c'est a dire, avec les deux méthodes, est ce que je sélectionnerait au final le meme modèle ?
Je serais on ne peut plus reconnaissant envers celui qui me permettra de comprendre erreur, si erreur il y a, afin de m'aider dans la construction de ma soutenance et justifier mes résultats.
--------------------
Je cite renaud ( viewtopic.php?t=446 ) :
Sauf erreur de ma part, il y a bien deux paramètres estimés: la moyenne générale et la variance résiduelle ==> k = 2. Dans un modèle gaussien, la moyenne et la variance sont en effet indépendantes (différent d'un modèle binomial ou de Poisson, par exemple).
Or, le pdf dont j'ai fait référence dans mon message précédent indique que k (dans la formule AIC=-2Log(vraisemblance) + 2k) est le nombre de parametres du modèle estimé, et il inclue intercept et variance residuelle uniquement dans le cas ou la méthode d'estimation se fait selon les moindres carrés, car dans cette situation :
AIC =n(log(variance²)) + 2K.
ce qui n'est pas ma situation je crois...
dans ma situation, un modèle nul (aucune variable étudiée n'intervient sur la réponse) : y = b0 (ou b0 est l'intercept)
n'a qu'un seul paramètre.
etant donné que je n'utilise pas la méthode des moindres carrés, j'ai bien un unique paramètre dans le cas d'un modèle nul.
pourquoi la fonction sic me donne alors 2 paramètres dans le cas d'un modèle de classe lm nul ? lorsque la fonction extractAIC me donne 1 paramètre pour un même modèle nul?
--------------------
pourquoi n'ai je pas ce probleme dans le cas d'une classe glm :
Code : Tout sélectionner
> extractAIC(glm(a3~1, family=binomial, data=scb))
[1] 1.000 3495.365
> sic.glm(glm(a3~1, family=binomial, data=scb))
n k nsk LL AIC AICc BIC
glm(a3 ~ 1, family = binomial, data = scb) 2618 1 2618 -1746.682 3495.365 3495.366 3501.235
--------------------
Voilà, pour ma dernière question sur ce forum... je remercie d'avance ceux qui accepteront de me donner quelques explications, quelques pistes de réflexion qui me permettront de construire un argumentaire face à mes résultats et mes choix de méthode