regression : choix d'un modèle

Questions sur les fonctions statistiques de R

Modérateur : Groupe des modérateurs

marie pouget
Messages : 8
Enregistré le : 30 Aoû 2006, 07:15

regression : choix d'un modèle

Messagepar marie pouget » 30 Aoû 2006, 09:36

Bonjour à tous, je suis nouvelle sur le forum :oops:

donc voila j'ai un peu de mal en R, alors je me suis dit :o

alors j'ai deux echantillons (de même taille) disons X et Y, donc autrement dit un nuage de points.

Et j'ai essayé lm(Y~X), et obtenu un résultat.
Puis j'ai lu dans un de mes cours un exemple où X=vitesse, et Y=distance de freinage, ou apres avoir fait lm(Y~X), le prof disait que il y avait surement une dépendance en x^2, et donc il essayait ..
lm(Y~X^2+X-1) !! et je ne comprends pas pourquoi -1 !!
en plus j'ai essayé, et son
lm(Y~X^2+X-1) et bien meilleur que
lm(Y~X^2+X)..

alors pour ce qui est des maths la dessous j'ai compris les calculs, pour le cas simple d'une droite des moindres carrés ..
pour pour une "parabole des moindres carrés" .. je ne sais pas (même si c'est toujour un modèle linéaire en fait ..)

en gros ma question :
pour trouver le meilleur modèle : il faut essayer au hasard plein de choses ? ?? genre
lm(Y~X^2+X+1)
lm(Y~X^3+X-1)
lm(Y~ln(X))
??

Ou y a t'il simplement 3 ou 4 modèles standart qui marchent souvent à essayer d'abord ?
Une méthode analytique pour le choix d'un modèle optimal semble dur non ?

Je vous remercie tous !!
Vous me sauveriez (non non j'en fais pas trop :D )

marie

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Re: regression : choix d'un modèle

Messagepar Renaud Lancelot » 30 Aoû 2006, 15:00

marie pouget a écrit :Bonjour à tous, je suis nouvelle sur le forum :oops:

donc voila j'ai un peu de mal en R, alors je me suis dit :o

alors j'ai deux echantillons (de même taille) disons X et Y, donc autrement dit un nuage de points.

Et j'ai essayé lm(Y~X), et obtenu un résultat.
Puis j'ai lu dans un de mes cours un exemple où X=vitesse, et Y=distance de freinage, ou apres avoir fait lm(Y~X), le prof disait que il y avait surement une dépendance en x^2, et donc il essayait ..


Un des intérêts de R est de pouvoir facilement réaliser une exploration graphique. Quand on n'a pas d'info a priori sur la forme de la relation entres variables à expliquer et explicative, cela permet de définir un codage pertinent pour cette variable explicative. En d'autres termes, le graphe:

Code : Tout sélectionner

plot(X, Y)

vous donne des infos sur la nécessité d'avoir un terme linéaire, quadratique, cubique,... Il est également utile et nécessaire d'étudier les résidus du modèle. Tout cela est décrit dans les bons bouquins sur la régression linéaire.

Pour l'exemple précis que vous citez, une force de freinage constante correspond (?) à d2(x)/dt2 = cste d'où une relation quadratique entre distance de freinage et vitesse initiale, et une distance nulle pour une vitesse initiale nulle ==> pas de constante dans le modèle stat.

lm(Y~X^2+X-1) !! et je ne comprends pas pourquoi -1 !!
en plus j'ai essayé, et son
lm(Y~X^2+X-1) et bien meilleur que
lm(Y~X^2+X)..


-1 signifie pas de constante dans le modèle. Si il n'y a pas de constante par construction (comme ici), c'est logique que certains critères de choix du modèle pointent vers le modèle sans constante.

Dans le cas général, l'exploartion graphique doit vous guider. Tt dépend de la manière dont la variable est codée: centrage, autre transformation,...

alors pour ce qui est des maths la dessous j'ai compris les calculs, pour le cas simple d'une droite des moindres carrés ..
pour pour une "parabole des moindres carrés" .. je ne sais pas (même si c'est toujour un modèle linéaire en fait ..)

en gros ma question :
pour trouver le meilleur modèle : il faut essayer au hasard plein de choses ? ?? genre
lm(Y~X^2+X+1)
lm(Y~X^3+X-1)
lm(Y~ln(X))
??


Deux cas:

1) vous connaissez la loi entre variable à expliquer et la variable explicative ==> vous formulez le modèle correspondant, vous estimez les paramètres et vous regardez si le modèle ajuste bien les données. Sinon, vous essayez des modèles alternatifs que vous comparez avec le modèle a priori.

2) vous ne connaissez pas cette loi ==> vous faites une exploration graphique et essayez de trouver un modèle le plus simple possible décrivant bien les données, si possible sur la base de connaissances physiques, biologiques, etc.

Ou y a t'il simplement 3 ou 4 modèles standart qui marchent souvent à essayer d'abord ?
Une méthode analytique pour le choix d'un modèle optimal semble dur non ?


Il y a de nombreuses méthodes de sélection des modèles. C'est un des domaines importants des statistiques. Difficile de donner un aperçu en quelques lignes. En gros, il y a:

1. des tests de comparaisons, mis en oeuvre dans la fonction anova pour comparer des modèles emboîtés:

fm1 <- lm(y ~ x1)
fm2 <- lm(y ~ x1 + x2)
anova(fm1, fm2)

2. des critères permettant de comparer les modèles, sans les tester formellement, tels que le critère d'information d'Akaike (AIC). Pour reprendre l'exemple ci-dessus:

AIC(fm1, fm2)

Si cette question est centrale pour vous, voir par exemple:

Burnham, K.P. and D.R. Anderson, Model selection and multimodel inference: a practical information-theoretic approach. 2nd ed. 2002, New-York: Springer-Verlag, 496p.

Mais le sujet est très vaste...

Bonne chance,

renaud

marie pouget
Messages : 8
Enregistré le : 30 Aoû 2006, 07:15

merci !!

Messagepar marie pouget » 30 Aoû 2006, 15:45

Merci beaucoup !!
bon avant de reposer des questions stupides "à chaud", je vais étudier votre réponse ...
Je vous re-dérangerai éventuellement plus tard :D ..
Encore merci d'avoir pris de votre temps,

Marie

Eric Casellas
Messages : 665
Enregistré le : 06 Jan 2009, 14:59

Messagepar Eric Casellas » 04 Oct 2010, 14:24

Bonjour,

Il faut "inverser" ta relation :
Y² = a + b * log(X)
en :
X = exp((Y²-a)/b)

avec Y le taux d'humidite et X le temps thermique
exp ~ exponentiel
Eric


Retourner vers « Archives : Fonctions statistiques »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité