Groupe des utilisateurs du logiciel R Index du Forum Groupe des utilisateurs du logiciel R
Un forum francophone d'échange autour du logiciel de calcul statistique R dans le domaine de la recherche agronomique tropicale
 
 FAQFAQ   RechercherRechercher   Liste des MembresListe des Membres   Groupes d'utilisateursGroupes d'utilisateurs   S'enregistrerS'enregistrer 
 ProfilProfil   Se connecter pour vérifier ses messages privésSe connecter pour vérifier ses messages privés   ConnexionConnexion 

problème de variables pour régression logistique

 
Poster un nouveau sujet   Répondre au sujet    Groupe des utilisateurs du logiciel R Index du Forum -> Questions en cours
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
Claire Reinhardt



Inscrit le: 22 Mai 2008
Messages: 3
Localisation: France

MessagePosté le: Jeu Mai 22, 2008 9:01 am    Sujet du message: problème de variables pour régression logistique Répondre en citant

Bonjour,

Je souhaite effectuer une régression logistique binaire avec R. Je souhaite expliquer la variable X (présence ou absence d'un évènement modélisé par 1 ou 0) en fonction des variables A, B, C (qui sont binaires) et en fonction de la variable DISTANCE qui a 3 modalités (faible, moyenne, forte que j'ai codé en 0, 1 et 2).

J'utilise la fonction glm avec l'option family=binomial.

J'ai transformé ma variable DISTANCE en variables binaires D1 et D2 avec le codage :
(D1,D2)=(1,0) qui correspond à 0 pour DISTANCE
(D1,D2)=(0,1) qui correspont à 1 pour DISTANCE
(D1,D2)=(0,0) qui correspond à 2 pour DISTANCE

Dans le fichier que j'utilise pour la régression il y a les valeurs des variables X, A, B, C, DISTANCE, D1 et D2.

Cependant, je ne sais pas comment faire pour que R considère que la variable DISTANCE est représentée par D1 et D2. De plus, je ne sais pas comment faire pour que R considère D1 et D2 comme allant ensemble et non comme deux variables explicatives différentes.

J'espère avoir été assez claire.
Merci.
Revenir en haut de page
Voir le profil de l'utilisateur Envoyer un message privé
Logez Maxime



Inscrit le: 26 Sep 2006
Messages: 2101
Localisation: Cemagref Aix en Provence

MessagePosté le: Jeu Mai 22, 2008 9:05 am    Sujet du message: Répondre en citant

Bonjour,

c'est pas clair pour moi ton affaire. Pourquoi ne pas avoir garder la variable distance en facteur ?

Maxime
Revenir en haut de page
Voir le profil de l'utilisateur Envoyer un message privé
Vincent Boulanger



Inscrit le: 25 Avr 2006
Messages: 76
Localisation: Cemagref Nogent / INRA Nancy

MessagePosté le: Jeu Mai 22, 2008 9:15 am    Sujet du message: Répondre en citant

Bonjour,
pour moi, il n'est pas possible avec tes données de faire de la régression logistique.
Une régression logistique cherche à modéliser une variable binaire en fonction d'une ou plusieurs variables continues.
Or ici, il semblerait que tu cherches un lien entre un variable binaire (X) en fonction de variables factorielles (A,B,C binaires et Distance à 3 facteurs).

Bref, comme suggéré par maxime, si tu gardes la distance en continu (supposé que tu aie la donnée sous cette forme),
tu peux alors utiliser un modèle logistique : glm(X~dist, data=..., family="binomial")

Sinon, il te faut faire des tables de contingence que tu analyseras avec des tests type chi2 (approché) ou fisher (exact)
de manière à connaître le lien entre deux variables.

VB
_________________
Vincent Boulanger
Ingénieur Forestier
Doctorant Cemagref/INRA/ONCFS
Revenir en haut de page
Voir le profil de l'utilisateur Envoyer un message privé
Logez Maxime



Inscrit le: 26 Sep 2006
Messages: 2101
Localisation: Cemagref Aix en Provence

MessagePosté le: Jeu Mai 22, 2008 9:22 am    Sujet du message: Répondre en citant

Citation:
Bonjour,
pour moi, il n'est pas possible avec tes données de faire de la régression logistique.
Une régression logistique cherche à modéliser une variable binaire en fonction d'une ou plusieurs variables continues.


Pas d'accord. Tu peux très bien intégrer des variables qualitatives. Je n'ai jamais vu de limitation dans des bouquins de stats ni dans mes cours disant que la régression logistique ne se fait qu'avec des variables continues.

Maxime


Dernière édition par Logez Maxime le Jeu Mai 22, 2008 9:47 am; édité 2 fois
Revenir en haut de page
Voir le profil de l'utilisateur Envoyer un message privé
Vincent Boulanger



Inscrit le: 25 Avr 2006
Messages: 76
Localisation: Cemagref Nogent / INRA Nancy

MessagePosté le: Jeu Mai 22, 2008 9:41 am    Sujet du message: Répondre en citant

oui, c'est tout à fait juste, je me méprend, mes excuses,
ne pas tenir compte de ce que j'ai dit concernant les logistiques...que j'utilise dans des cas très particuliers qui biaisent mon raisonnement...
_________________
Vincent Boulanger
Ingénieur Forestier
Doctorant Cemagref/INRA/ONCFS
Revenir en haut de page
Voir le profil de l'utilisateur Envoyer un message privé
Claire Reinhardt



Inscrit le: 22 Mai 2008
Messages: 3
Localisation: France

MessagePosté le: Jeu Mai 22, 2008 9:47 am    Sujet du message: Répondre en citant

Logez Maxime a écrit:
Bonjour,

c'est pas clair pour moi ton affaire. Pourquoi ne pas avoir garder la variable distance en facteur ?

Maxime


Je n'ai pas gardé la variable DISTANCE en facteur car dans le cours que j'ai regardé, il était dit de faire une transfomation similaire à celle que j'ai faite. Mais si cela ne pose pas de problème de garder la variable DISTANCE telle quel, la question est règlée.

Merci pour vos réponses.
Revenir en haut de page
Voir le profil de l'utilisateur Envoyer un message privé
Logez Maxime



Inscrit le: 26 Sep 2006
Messages: 2101
Localisation: Cemagref Aix en Provence

MessagePosté le: Jeu Mai 22, 2008 9:54 am    Sujet du message: Répondre en citant

Re,

R va gérer ça tout seul et transformer lui même cette variable avec trois facteurs en deux indicatrices. Par contre si tu veux que la modalité "2" de Distance soit le '0,0' de tes indicatrices il te faudra modifier les contrastes de ce facteur :
Code:
distance <- gl(3,3,label=c(0:2))
contrasts(distance)
  1 2
0 0 0
1 1 0
2 0 1
contr.treatment(levels(distance),3)
  0 1
0 1 0
1 0 1
2 0 0
contrasts(distance) <- contr.treatment(levels(distance),3)


Maxime[/quote]
Revenir en haut de page
Voir le profil de l'utilisateur Envoyer un message privé
Nicolas Péru



Inscrit le: 07 Aoû 2006
Messages: 1264
Localisation: EdF R&D, Chatou (78)

MessagePosté le: Jeu Mai 22, 2008 9:55 am    Sujet du message: Répondre en citant

Bonjour,

Comme l'a dit maxime, il n'y a aucun intéret à recoder distance. Il suffit de voir ton problème comme une regression logistique sur variable catégorielle. Que les variables aient 2 ou 3 niveau ne change rien.

Une très bonne ref sur les variables catégorielles :

Agresti's Categorical Data Analysis 2nd edition (2002)

et l'incontournable travail de Laura Thompson en guise de compagnon au livre d'Agresti le tout en langage S avec beaucoup d'exemple et les codes associés.:
https://home.comcast.net/~lthompson221/Splusdiscrete2.pdf

Nicolas
Revenir en haut de page
Voir le profil de l'utilisateur Envoyer un message privé
Claire Reinhardt



Inscrit le: 22 Mai 2008
Messages: 3
Localisation: France

MessagePosté le: Jeu Mai 22, 2008 11:00 am    Sujet du message: Répondre en citant

Merci beaucoup pour vos réponses.
Revenir en haut de page
Voir le profil de l'utilisateur Envoyer un message privé
Montrer les messages depuis:   
Poster un nouveau sujet   Répondre au sujet    Groupe des utilisateurs du logiciel R Index du Forum -> Questions en cours Toutes les heures sont au format GMT
Page 1 sur 1

 
Sauter vers:  
Vous ne pouvez pas poster de nouveaux sujets dans ce forum
Vous ne pouvez pas répondre aux sujets dans ce forum
Vous pouvez éditer vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous ne pouvez pas voter dans les sondages de ce forum


Powered by phpBB © 2001, 2005 phpBB Group
Traduction par : phpBB-fr.com

Anti Bot Question MOD - phpBB MOD against Spam Bots
Inscriptions bloqués / messages: 79432 / 701