Bonjour à tous,
Tout d’abord, je voulais vous remercier de m’accueillir sur votre forum. J’utilise R de plus en plus mais je reste une débutante.
Mon problème est le suivant, je cherche à expliquer les causes d’un échec massif à un examen de première année de licence dont l’épreuve était classiquement noté de 0 à 20. Il y avait au total 385 étudiants qui ont passé l’épreuve.
Au cours de l’année, les étudiants avaient la possibilité de rendre des devoirs qui étaient facultatifs, il y avait deux devoirs de prévus. J’ai ainsi constitué 3 groupes de sujets en fonction du nombre de devoirs rendus durant l’année :
- Groupe zéro (aucun devoir rendu) : n =207
- Groupe un (un seul devoir rendu) : n = 42
- Groupe deux (deux devoirs rendus) : n = 136
Comme vous le constatez, les groupes sont très déséquilibrés. La variable réponse ici, c’est donc la note obtenue à l’examen : variable « note1 » (note de 0 à 20). Le facteur, c’est le « groupe » (zéro, un deux).
J’ai testé 2 modèles :
Étant donnée qu’une note de 0 à 20, n’est pas vraiment une variable continue et que d’autre part, les distributions obtenues étaient fortement biaisées (vers les notes très faibles), j’ai testé deux types de modèles :
J’ai d’abord utilisé le modèle linéaire généralisé avec une structure d’erreur en quasi poisson à cause de la surdispersion qui apparaît souvent avec ce genre de données (model1). J’ai ensuite testé un modèle avec une erreur en binomial inverse grâce à la fonction glm.nb (model2). Dans les deux cas, on obtient une différence significative entre le « groupzéro » et l’intercept c’est-à-dire le « groupedeux ». Malheureusement, il me semble que mes deux modèles ne se comportent pas très bien si j’en juge les graphiques diagnostiques que j’obtiens dans les deux situations (pardonnez_moi, mais je n'arrive pas à afficher sur le forum les graphiques en question).
J’en viens à présent à mes questions : Que pensez-vous de mon analyse ? Ai-je le droit de faire ce que j’ai fait avec des groupes aussi déséquilibrés ?
Y a-t-il d’autres méthodes pour analyser ce genre de données ?
Merci pour vos réponses