Bonjour Karine,
J'ai quelques problèmes à comprendre quel code utiliser pour un modèle mixte avec la fonction lme (library nlme ou lme4).
Bienvenue au club ;-) !
Dans mon modèle mixte j'ai deux populations, dans ces populations plusieurs souches (nested dans populations), et pour chaque souches plusieurs répétitions (4 normalement s'il n'y a pas de données manquantes).
Si vous n'avez pas de données manquantes, vous pouvez utiliser la fonction aov en spécifiant un terme d'erreur (effet aléatoire). Voir l'aide de ?aov et les exemples à la fin.
Si il y a des données manquantes, il vaut mieux utiliser lme (package nlme) ou lmer (packages Matrix / lme4) car le modèle sous-jacent est adapté aux plans déséquilibrés (cf l'article de Laird et Ware). Il n'en demeure pas moins qu'il est indispensable de vérifier si les données manquantes ou perdus de vue se produisent de manière complètement aléatoire par rapport à la variable dépendante. Vous trouverez une méthode d'évaluation dans:
Diggle, P.J., Liang, K.-Y., Zeger, S.L., 1994. Analysis of longitudinal data, 1st Edition. Clarendon Press, Oxford, 253 p.
(il y a une édition plus récente).
Au départ je souhaitais faire simplement une ANOVA hiérarchique pour une variable (continue) que j'ai mesurée, mais il s'avère que celle-ci est corrélée à une autre variable (continue aussi), sur l'ensemble de mon expérience.
Je souhaite donc intégrer cette variable dans mon analyse. A noter que cette variable n'est pas significativement différente entre populations, mais l'est entre les souches. Pour cette variable, je ne sais pas trop comment gérer la chose: si je ne me trompe pas, je devrais la considérer comme nested dans la variable "souche"?
Il faudrait savoir si la variation aléatoire liée à la souche est suffisante pour rendre compte de l'effet de la seconde variable sans que celle-ci ne soit incluse dans les effets fixes du modèle. Cela peut se vérifier en regardant la corrélation des résidus de ce modèle avec cette variable. Une autre manière d'aborder le problème serait de faire le contraire: subsiste-t-il une variation liée à la souche si on inclut la seconde variable dans le modèle ? En d'autres termes, l'effet de la souche est-il attribuable à l'effet de cette seconde variable (ou vice versa) ? Si oui, et si l'objectif du modèle est de faire de la prévision, je laisserais tomber la variable la plus coûteuse à observer: souche ou seconde variable. Sinon...
Remarque: Comme je fais une analyse d'héritabilité de mon caractère, j'aurais besoin de connaître la variance existant entre souches pour la comparer à la variance intrasouches (en tenant compte de la variabilité de mon second facteur).
C'est un modèle des composantes de la variance. Matthieu Lesnoff a fait une
fiche sur ce sujet, disponible sur ce forum: exemple traité avec lme.
J'ai une variable binomiale (type survie-mort) pour un certain nombre d'individus de chaque répétition, ce qui me donne des pourcentages (c'est ma variable dépendante, que j'ai normalisée avec la formule arcsin). Je pourrais apparemment utiliser au lieu d'un modèle linéaire un "logistic mixed model" (ce qui évite la transformation des données), mais si j'ai bien compris la documentation que j'ai trouvée, ça ne me permet pas de faire d'analyse d'héritabilité...
NB: la "normalisation" se fait avec la transformation arcsin(sqrt(p)) et non arcsin(p). Il faut voir quelle est la valeur de p, et l'ordre de grandeur du dénominateur. Dans certains cas, un modèle linéaire sur les probas peut être suffisant (probas pas trop hautes ou basses, grand dénominateur).
Avec un modèle linéaire généralisé mixte, le problème est que la variance résiduelle et la variance aux niveaux supérieurs (souche, population) ne sont pas sur la même échelle, ce qui rend les comparaisons difficiles. Il faudrait faire la biblio pour voir les évolutions récentes. Il y a peut-être des solutions avec des approches bayésiennes, elles-mêmes d'ailleurs disponibles dans lme4 (voir fonction mcmcsamp).
Bref, j'espère avoir été claire, et que mon problème n'est pas trop compliqué (en même temps, l'idée me paraît simple, mais je ne trouve pas de cas ressemblant assez au mien pour être certaine de la façon de procéder). Je vais me procurer le Livre de Pinheiro et Bates (mixed-effects models in S and S-Plus, mais il va falloir que j'attende le transfert inter-BU ;) ).
C'est un bon point de départ. La fonction lmer est plus puissante que lme en cas de structure aléatoire complexe, mais elle est moins bien carrossée et son aide est rachitique. Voir toutefois le package mlmRev qui traite des exemples d'analyses hiérarchiques avec lmer.
Amicalement,
Renaud