Imputation en régression logistiques

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

Christian Dina
Messages : 40
Enregistré le : 18 Jan 2007, 12:36

Imputation en régression logistiques

Messagepar Christian Dina » 27 Mar 2013, 16:14

Bonjour,

j'ai un problème qui me semble assez spécifique (mais je peux me tromper).
J'ai un vecteur de statuts (0/1) et des co-variables qui sont, en principe ordinales (valeurs de 0 à 5).

Pour certains individus, nous n'avons pas la valeur exacte mais plutôt un distribution de probabilité
Individu Sur Individu pas sur
0 0 0
1 1 0
2 0 0.3
3 0 0.4
4 0 0.3
5 0 0

Nous connaissons ces valeurs par imputation génétique (donc il n'y a pas besoin d'imputer en même temps qu'on estime la maximum de vraisemblance).

Connaissez-vous une façon d'utiliser GLM, ou un autre package, qui me permette de procéder aux tests stats classiques aussi bien en ordinal qu'en "cardinal" (dummy coding).

Cordialement,

Christian

-

Nicolas Péru
Messages : 1408
Enregistré le : 07 Aoû 2006, 08:13

Messagepar Nicolas Péru » 27 Mar 2013, 17:08

Bonsoir,

Désolé mais la demande est assez incompréhensible.

Nicolas

Christian Dina
Messages : 40
Enregistré le : 18 Jan 2007, 12:36

Messagepar Christian Dina » 27 Mar 2013, 21:37

Merci pour cette réponse. Il n'y avait pourtant aucune intention de sélection dans cette question - dans le sens voir qui comprend ou non. Je pense que je vais la migrer sur un forum de génétique stat (même s'il n'y en aucun correspondant exactement à cela) ou le cas est beaucoup plus courant et "parle" tout de suite.

Je ne vois pas de possibilité de "deleter" ce message, il reste possible aux modérateurs de le faire pour éviter une perte de temps aux autres potentiels lecteurs.

Nicolas Péru
Messages : 1408
Enregistré le : 07 Aoû 2006, 08:13

Messagepar Nicolas Péru » 28 Mar 2013, 07:10

Christian Dina a écrit :Merci pour cette réponse. Il n'y avait pourtant aucune intention de sélection dans cette question - dans le sens voir qui comprend ou non. Je pense que je vais la migrer sur un forum de génétique stat (même s'il n'y en aucun correspondant exactement à cela) ou le cas est beaucoup plus courant et "parle" tout de suite.


Pas de souci sur l'aspect "sélection de la question" c'est juste que ton vocabulaire n'est pas très général mais sans doute plus adapté à ton domaine. Le terme "imputation" ne m'évoque rien à priori.

Pour certains individus, nous n'avons pas la valeur exacte mais plutôt un distribution de probabilité

Cette phrase n'est par contre pas clair et là ce n'est pas une question d'adaptation du vocabulaire.

Donc si tu viens sur un forum qui ne concerne pas directement ton domaine alors il faut que fasses l'effort d'expliquer clairement quelle sont tes données et ce que tu souhaites faire.

Ensuite c'est comme tu veux soit tu détailles ici, soit tu vas voir sur un autre forum.

Nicolas

Christian Dina
Messages : 40
Enregistré le : 18 Jan 2007, 12:36

Messagepar Christian Dina » 28 Mar 2013, 07:58

Tout à fait. Je dois aller sur un forum plus adapté car je me rends compte que je dois faire appel à plusieurs notions simples (rien d'extraordinaire) sur la structure des données.

Je vais donc migrer

Juste pour info :

3 génotypes possible pour un individu:
AA AG GG

Soit le gars, on connaît son génotype. Disons qu'il est AA. Il a une valeur exacte :
P(AA) = 1, P(AG)=0 et P(GG) = 0. Il aura une distribution de probas pour son génotype de 1 0 0

Soit on est obligé d'imputer (à l'aide d'information génétique de marqueurs voisins pour lesquels on a une valeur exacte). Et on n'aura pas de génotype "exact".
P(AA)=0.9, P(AG)=0.05, P(GG)=0.05

Son codage dans certains logiciels sera 0.9 05 0.05

Si la variable explicative est le nombre d'allèles A chez un individu, dans le premier cas on fait une régression logistique classique alors que dans le deuxième cas on doit prendre en compte cette incertitude (voir http://mathgen.stats.ox.ac.uk/genetics_ ... est.v2.pdf ).

Bonne continuation

Je vais demander comment deleter ce topic ...

Pierre Bady
Messages : 405
Enregistré le : 02 Mai 2006, 07:46

Messagepar Pierre Bady » 28 Mar 2013, 09:02

Hello,

pour ce type d'analyse dans R, les packages comme snpStats and GenABEL seront (peut-être) plus adaptés. De plus, leur documentation est assez fournie.

* R package snpStats: http://www.bioconductor.org/packages/2. ... Stats.html
* R package GenABEL: http://www.genabel.org/

voir par exemple, la vignette et l'analyse de données "imputées" avec les functions de snpStats: http://www.bioconductor.org/packages/2. ... vignette.R


@Nico: l'imputation, c'est cool et toxique à la fois ... faut juste faire gaffe :)
en gros, tu réestimes des variables que tu n'as pas mesuré. Donc, tu augmentes le nombres de marqueurs, mais tes 'nouvelles' variables sont dépendentes des régles (de tes 'prior') que tu as choisi pour les estimer.
... faut trouver le bon compromis :)

HTH

@+

pierre
=@===--------¬-------¬------¬-----¬
liens utiles :
http://www.gnurou.org/Writing/SmartQuestionsFr
http://neogrifter.free.fr/welcomeOnInternet.jpg
]<((((*< -------------------------------

Nicolas Péru
Messages : 1408
Enregistré le : 07 Aoû 2006, 08:13

Messagepar Nicolas Péru » 28 Mar 2013, 10:23

merci pour les compléments d'explication !
Je me coucherai moins bête ce soir :D
mais tes 'nouvelles' variables sont dépendentes des régles (de tes 'prior') que tu as choisi pour les estimer.

ça sent un peu trop le bayésien à mon goût tout ça :P

Pierre Bady
Messages : 405
Enregistré le : 02 Mai 2006, 07:46

Messagepar Pierre Bady » 28 Mar 2013, 11:38

hello,

c'était 'prior' entre guillemets ... donc c'était une utilisation au sens très large du terme, indépendemment du choix du type de modèle. J'aurai peut-être dû utiliser le terme "hypothèses de construction" à la place (?).

Sinon, le bayesian ... c'est pas toujours le mal ... ça peut rendre quelques précieux services :)

comme quoi ... même moi ... j'arrive à changer d'avis ... ça doit être l'âge qui me rend plus sage ... ou fou? :D


@++


pierre
=@===--------¬-------¬------¬-----¬

liens utiles :

http://www.gnurou.org/Writing/SmartQuestionsFr

http://neogrifter.free.fr/welcomeOnInternet.jpg

]<((((*< -------------------------------

Nicolas Péru
Messages : 1408
Enregistré le : 07 Aoû 2006, 08:13

Messagepar Nicolas Péru » 28 Mar 2013, 12:40

Pierre Bady a écrit :... ça doit être l'âge qui me rend plus sage ... ou fou?

Ne rêve pas Pierre...c'est plutôt la 2nd hypothèse :P

Sinon j'avais bien relevé les guillemets sur le prior ;)

Christian Dina
Messages : 40
Enregistré le : 18 Jan 2007, 12:36

Messagepar Christian Dina » 28 Mar 2013, 12:52

Merci pour ces réponses.

J'utilise en effet SNPTEST et aussi (très peu) GenAbel. Donc je maîtrise (grâce aux gens qui ont codé le test) pour un seul SNP - avec toutes les limitations d'analyser des nouvelles variables imputées qui sont par essence corrélées avec les variables (marqueurs génétiques) qui ont servi à les imputer. Le problèmes est qu'ici je veux généraliser le test (dans la cadre du Genetic Score Risk si il y a des stat. génét.) en combinant les SNPs.

Donc ici, si je prends 2 loci, cela fait 9 génotypes possibles et 6 états possible en nombre d'allèles à risque (en sachant que le nombre est > 3).
A partir des probabilités pour chaque SNP, on dérive (si les SNPs sont indépendants) les probas des états "nbre d'allèles à risque". Un tel test n'a pas été codé et donc je voulais savoir si c'était jouable avec des procédures déjà existantes ou s'il fallait que je recode.

Exemple de score génétique, soient 2 SNPs pour un individu i :
AA AG GG 0.1 0.1 0.8
CC CT TT 0 0.5 0.5

Si les allèles à risque sont G et T respectivement, la probabilité que l'individu i ait 6 allèles à risque est 0.5*0.8, et ainsi de suite.

Donc on n'a pas en valeur dépendante le nbre d'allèles à risque mais .. une distribution de probabilités (désolé).
P(N=0), P(N=1) ... ¨(N=6)

Pierre Bady
Messages : 405
Enregistré le : 02 Mai 2006, 07:46

Messagepar Pierre Bady » 28 Mar 2013, 14:34

rebonjour,

Donc ici, si je prends 2 loci, cela fait 9 génotypes possibles ...


jusqu'ici ça va, après je ne comprends pas l'exemple (?)
mais, pourquoi 6 allèles à risques?

... Exemple de score génétique, soient 2 SNPs pour un individu i :
AA AG GG 0.1 0.1 0.8
CC CT TT 0 0.5 0.5


c'est plus que 2 spns, non? ça représente quoi?


par contre, on tend à s'éloigner un peu d'une question sur le logiciel R (?).

@+

pierre
=@===--------¬-------¬------¬-----¬

liens utiles :

http://www.gnurou.org/Writing/SmartQuestionsFr

http://neogrifter.free.fr/welcomeOnInternet.jpg

]<((((*< -------------------------------

Christian Dina
Messages : 40
Enregistré le : 18 Jan 2007, 12:36

Messagepar Christian Dina » 28 Mar 2013, 14:41

Pourquoi 2 (à N) SNPs au lieu d'un seul :
- une fois qu'on a trouvé des SNPs en association (chacun étant proche d'un gène donné), nous voulons typiquement estimer les poids des SNPs - pris dans leur ensemble - associés dans la survenue d'une pathologie (ou la variance d'un trait). On peut faire de la régression multiple et voir les R2 mais on fait aussi typiquement un "score génétiques.
Le score génétique, sur N SNPs, est la somme (parfois pondérée) du nombre total d'allèles à risque (donc somme d'allèle à risque à chaque SNP).

- rapport avec R : dans glm ou autre, ou comment est-ce que je peux rentrer cette incertitude (en gros je prends un individu et j'énumère les scores possibles que je pondère par leur probabilité).


voilà voilà,

Christian

Pierre Bady
Messages : 405
Enregistré le : 02 Mai 2006, 07:46

Messagepar Pierre Bady » 28 Mar 2013, 15:40

rebonjour,

Pourquoi 2 (à N) SNPs au lieu d'un seul :
- une fois qu'on a trouvé des SNPs en association (chacun étant proche d'un gène donné), nous voulons typiquement estimer les poids des SNPs - pris dans leur ensemble - associés dans la survenue d'une pathologie (ou la variance d'un trait). On peut faire de la régression multiple et voir les R2 mais on fait aussi typiquement un "score génétiques.


ou bien faire une analyse basée sur les haplotypes (?)

Le score génétique, sur N SNPs, est la somme (parfois pondérée) du nombre total d'allèles à risque (donc somme d'allèle à risque à chaque SNP).


ok, un nombre de snp à risk peut/pourrait être un marker de la survenue d'une pathologie ... i

ll paraît assez logique que le cumul de facteurs de risk (ex. fumeur, BMI élevé, consommation d'alcool, etc ...) augmente (en général) les chances de survenue de la pathologie (ex. hypertension artérielle).

mon incomprehension n'était pas associée au nombre de SNP, mais plutôt à l'exemple proposé :)


- rapport avec R : dans glm ou autre, ou comment est-ce que je peux rentrer cette incertitude (en gros je prends un individu et j'énumère les scores possibles que je pondère par leur probabilité).


peut-être jouable avec un modèle bayesien fait à la main (mais ça ne me semble pas vraiment simple, à voir avec les spécialistes du domaine ??).

Sinon, il ne semble pas y avoir de functions qui vont dans ce sens dans les packages cités précédement.

désolé, beaucoup de bruit pour pas/peu de réponse ...


hth et bonne chance,



pierre
=@===--------¬-------¬------¬-----¬

liens utiles :

http://www.gnurou.org/Writing/SmartQuestionsFr

http://neogrifter.free.fr/welcomeOnInternet.jpg

]<((((*< -------------------------------

Christian Dina
Messages : 40
Enregistré le : 18 Jan 2007, 12:36

Messagepar Christian Dina » 28 Mar 2013, 15:53

Pour l'exemple, il s'agissait d'un individu et de son génotype à deux SNPs ...
Pour chaque SNP, il y a trois probabilités pour les trois génotypes possibles ..

Sinon, c'est bien ce que je pensais, il faudrait que j'étende le modèle développé dans http://mathgen.stats.ox.ac.uk/genetics_ ... est.v2.pdf

Oui, un bayesien là-dedans irait aussi, mais disons que c'est un peu disproportionné par rapport au bénéfice ...

Merci quand même.

Christian

Christian Dina
Messages : 40
Enregistré le : 18 Jan 2007, 12:36

Messagepar Christian Dina » 03 Avr 2013, 21:24

Pour clore ce topic. J'ai essayé l'imputation multiple (Little, Rubin) ne pas confondre avec imputation génétique.

J'ai l'impression que cela convient bine au problème et est + facile à coder (pour moi).
Ca fait plus bourrin que la maximisation avec données observées + manquantes mais j'assume.

Et R là-dedans ? J'ai utiliser pour coder ...


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité

cron