Valeurs manquantes aléatoires ou non

A T [compte désactivé]

Bonjour,

Je suis utilisateur de R occasionnel et pas du tout de formation en biostatistiques. Néanmoins j'aime bien comprendre ce que je fais, et faire des choses pertinentes quand je traite mes données. J'ai rejoins un projet il y quelque temps en agroalimentaire et je bosse sur la caractérisation de matériaux. Je complète donc une base de données déjà existante avec pas mal d'analyses, base de données qui n'a franchement pas été tenue correctement avant moi. Le genre de tableau qui est passé entre 50 mains différentes où chacun était censé mettre ses données, mais bien évidemment il y a des NA. En me documentant j'ai cru comprendre qu'il existe des méthodes permettant de combler ces NA, mais un post sur ce forum m'a amené ce matin à lire le papier "Inference et Missing Data" de Rubin (1976). Bon pour les équations on repassera, mais j'en tire néanmoins une information qui me semble capitale : on peut s'occuper des NA si ces derniers sont manquants par le fruit du hasard.

Je me demande donc si les NA que j'ai sont des "missing data at random" ou pas, et s'il existe un moyen de tester ça ? Je pense que oui (on peut tester) puisque c'est ce que l'auteur de l'article semble dire, mais comme je le disais plus haut, j'ai été rapidement noyé dans les équations de l'article.

Ce qui m'embête avec mes données, c'est que les valeurs manquantes sont généralement le fruit de "ah tiens on a oublié de traiter ces échantillons-là, à tiens on ne peut plus faire les tests, bon tant pis !". Est-ce que c'est de l'aléatoire ? Dans ce cas je dirais "oui". Mais si on ajoute par exemple "ah tiens on n'a pas les données de ces échantillons-là, ah ben oui ce sont ceux que l'on a envoyé à untel, il a fait de la merde, pas moyen de récupérer les données". Est-ce réellement de l'aléatoire ? Là je doute...

De mes données je cherche à sortir des matrices de corrélation (j'ai des dizaines de critères observés) et des dizaines d'échantillons. Mais pareil, certaines observations sont faites une fois, d'autres avec réplicats, etc. Je suis finalement repassé par les moyennes pour faire ces matrices, et dans un premier jet de tests j'ai utilisé le use="pairwise.complete" de la fonction cor pour sortir les matrices.

L'idée serait donc de savoir si je peux améliorer la force de mon jeu de données en m'occupant des NA, ou s'il vaut mieux que j'en reste-là...

Désolé pour le pavé, et merci d'avance pour vos éclaircissements !

Antoine

Serge Rapenne · Messagepar **Serge Rapenne** » 18 Déc 2018, 16:10

Bonjour,

Bienvenu ici mais la charte indique : "Un forum francophone d'échange autour du logiciel de calcul statistique R", ce n'est pas un forum de statistiques hors ta question est une pure question de statistiques, elle est donc hors charte.

Cordialement

Serge Rapenne

A T [compte désactivé]

J'ai quand-même l'impression que derrière la question statistique il ressort une volonté de ma part d'être en mesure d'y répondre en utilisant R.

Je me demande donc si les NA que j'ai sont des "missing data at random" ou pas, et s'il existe un moyen de tester ça avec R ?
[...]
L'idée serait donc de savoir si je peux améliorer la force de mon jeu de données en m'occupant des NA avec R ?

Pfiou, à rien près je n'étais pas hors charte.

Merci quand-même.

Antoine

Logez Maxime · Messagepar **Logez Maxime** » 20 Déc 2018, 10:28

Bonjour,

Ce n'est pas parce que quelqu'un cherche à répondre à une question de statistiques avec R que le forum est adapté à cette question.
En dehors des questions purement de scripts, de programmation R, la logique du forum ça serait : j'ai vu telle méthode statistiques est-elle disponible dans R ? Dans ces cas là première chose : un moteur de recherche de ton choix et tu vois si elle l'est ou pas. Ensuite, une fois le package ou la fonction trouvée, tu n'arrives pas à l'appliquer à tes données et à ce moment là la question à sa place sur le forum. De même tu as écrit un bout de code pour implémenter une analyse et tu n'arrives pas à le faire fonctionner alors là ta question à sa place sur le forum.

Je me demande donc si les NA que j'ai sont des "missing data at random" ou pas, et s'il existe un moyen de tester ça avec R ?
[...]
L'idée serait donc de savoir si je peux améliorer la force de mon jeu de données en m'occupant des NA avec R ?

Typiquement la première question en relève pas du forum mais d'une recherche amont sur un moteur de recherche ou avec la fonction recherche du forum pour voir si cette question n'a pas été posée et déjà répondue. Ce n'est pas une question propre à R, c'est avant tout une question de méthode. Une fois que tu as la méthode, alors si tu n'arrives pas à la faire fonctionner avec R alors ça devient une question légitime du forum.
Pour une même question de statistiques il peut y avoir plusieurs façon de faire, et le choix pratique ou théorique sur la ou les méthodes ne relève pas de ce forum.
Pour ce qui est de la deuxième question, c'est pareil. On peut tout faire ou presque avec R mais savoir quoi faire, quelle méthode utilisée ne relève pas de ce forum.

En résumé, ce n'est pas parce que dans la question il y a avec R qu'elle est du ressort de ce forum.

Cordialement,
Maxime

A T [compte désactivé]

J'avais saisi merci, c'était simplement un peu d'ironie.

Il est juste regrettable et surprenant de se faire envoyer balader sèchement, sans même un truc comme "peut-être que tu trouveras une aide là" ou quelque chose du genre. Je serais surpris que les utilisateurs confirmés de R n'aient dans leur liste de compétence que "je sais utiliser R et corriger des scripts", et pas un peu de bagages statistiques. J'ai quand-même précisé dans mon message que j'ai fait un peu de biblio avant de venir poster, j'ai expliqué mon problème avec plus ou moins de clarté sans doute, mais en tout cas en montrant que je n'étais pas arrivé ici les mains vides...malheureusement les articles que j'ai lus sont un peu trop pointus et je n'arrive justement pas à me décider sur la marche à suivre. D'où ma venue ici.

Ce n'est pas bien grave.

Antoine

Logez Maxime · Messagepar **Logez Maxime** » 20 Déc 2018, 10:58

re,

Tu ne t'ais pas fait envoyé balader, on t'a gentiment répondu que ta question ne correspondait pas au forum.
Personne n'a été incisif. Tu devrais voir ce qui se passe sur d'autres forums et tu verrais qu'ici les gens sont assez bienveillants, juste ils ne répondent pas à des questions de stats quelque soit leur background.
Le débat à déjà eu lieu et a déjà été tranché il y a quelques années et c'est pour ça que les posts qui précisent la charte ont été créés.
Moi c'est l'inverse qui me surprend toujours. Une personne pose sa question, il sait qu'elle ne correspond pas au forum et s'étonne de ne pas avoir de réponses, sous prétexte que des membres auraient les compétences pour y répondre. Dans ces cas là pourquoi ne pas les contacter directement ou attendre un potentielle réponse par mp s'ils ont envie de t'aider ?J'ai déjà répondu à des questions de stats posées mais directement auprès de l'auteur toujours pour les mêmes raisons.

Après à titre purement personnel je trouve que ce genre de posts ne t'aide pas à obtenir de l'aide.

Cordialement,
Maxime

A T [compte désactivé]

Le ton de mes réponses n'est pas malveillant. J'ai simplement indiqué que j'étais surpris, et j'ai tenu à expliquer un peu plus précisément la démarche qui m'a amené ici, c'est tout. Je suis tombé plusieurs fois sur des posts de ce forum en cherchant des infos, et il y avait régulièrement des discussions portant aussi sur les statistiques. Je pensais donc à tort que je pouvais y poser la mienne. Mais comme je l'ai dit juste avant, ce n'est vraiment pas grave et j'accepte le fait que je ne recevrai pas d'aide. J'ai passé l'âge des débats stériles sur les forums de discussion. Ça méritait d'être précisé je pense.

Bonne journée et bonnes fêtes de fin d'année.

Antoine

Eric Wajnberg · Messagepar **Eric Wajnberg** » 20 Déc 2018, 12:40

Deux points :

1) Tout ceci est bien précisé dans la charte de ce forum. Aucune ambiguïté de ce côté là. Vous êtes clairement, et dès le début, off-topic.

2) Il existe des forums spécifiquement sur les statistiques et leur usage, y compris des forums francophones. Nous vous invitons à les utiliser.

Cordialement, Eric.

Serge Rapenne · Messagepar **Serge Rapenne** » 20 Déc 2018, 12:44

Merci Maxime pour tes réponses très mesurées.
Il y a quelque années, quand je trainais sur plusieurs forums usenet ma réponse aurait tenu en un seul mot "plonk"

Serge

Groupe des utilisateurs du logiciel R

Valeurs manquantes aléatoires ou non

Valeurs manquantes aléatoires ou non

Re: Valeurs manquantes aléatoires ou non

Re: Valeurs manquantes aléatoires ou non

Re: Valeurs manquantes aléatoires ou non

Re: Valeurs manquantes aléatoires ou non

Re: Valeurs manquantes aléatoires ou non

Re: Valeurs manquantes aléatoires ou non

Re: Valeurs manquantes aléatoires ou non

Re: Valeurs manquantes aléatoires ou non

Qui est en ligne