Bonjour,
Je suis utilisateur de R occasionnel et pas du tout de formation en biostatistiques. Néanmoins j'aime bien comprendre ce que je fais, et faire des choses pertinentes quand je traite mes données. J'ai rejoins un projet il y quelque temps en agroalimentaire et je bosse sur la caractérisation de matériaux. Je complète donc une base de données déjà existante avec pas mal d'analyses, base de données qui n'a franchement pas été tenue correctement avant moi. Le genre de tableau qui est passé entre 50 mains différentes où chacun était censé mettre ses données, mais bien évidemment il y a des NA. En me documentant j'ai cru comprendre qu'il existe des méthodes permettant de combler ces NA, mais un post sur ce forum m'a amené ce matin à lire le papier "Inference et Missing Data" de Rubin (1976). Bon pour les équations on repassera, mais j'en tire néanmoins une information qui me semble capitale : on peut s'occuper des NA si ces derniers sont manquants par le fruit du hasard.
Je me demande donc si les NA que j'ai sont des "missing data at random" ou pas, et s'il existe un moyen de tester ça ? Je pense que oui (on peut tester) puisque c'est ce que l'auteur de l'article semble dire, mais comme je le disais plus haut, j'ai été rapidement noyé dans les équations de l'article.
Ce qui m'embête avec mes données, c'est que les valeurs manquantes sont généralement le fruit de "ah tiens on a oublié de traiter ces échantillons-là, à tiens on ne peut plus faire les tests, bon tant pis !". Est-ce que c'est de l'aléatoire ? Dans ce cas je dirais "oui". Mais si on ajoute par exemple "ah tiens on n'a pas les données de ces échantillons-là, ah ben oui ce sont ceux que l'on a envoyé à untel, il a fait de la merde, pas moyen de récupérer les données". Est-ce réellement de l'aléatoire ? Là je doute...
De mes données je cherche à sortir des matrices de corrélation (j'ai des dizaines de critères observés) et des dizaines d'échantillons. Mais pareil, certaines observations sont faites une fois, d'autres avec réplicats, etc. Je suis finalement repassé par les moyennes pour faire ces matrices, et dans un premier jet de tests j'ai utilisé le use="pairwise.complete" de la fonction cor pour sortir les matrices.
L'idée serait donc de savoir si je peux améliorer la force de mon jeu de données en m'occupant des NA, ou s'il vaut mieux que j'en reste-là...
Désolé pour le pavé, et merci d'avance pour vos éclaircissements !
Antoine