regression : choix d'un modèle

marie pouget · Messagepar **marie pouget** » 30 Aoû 2006, 09:36

Bonjour à tous, je suis nouvelle sur le forum :oops:

donc voila j'ai un peu de mal en R, alors je me suis dit :o

alors j'ai deux echantillons (de même taille) disons X et Y, donc autrement dit un nuage de points.

Et j'ai essayé lm(Y~X), et obtenu un résultat.
Puis j'ai lu dans un de mes cours un exemple où X=vitesse, et Y=distance de freinage, ou apres avoir fait lm(Y~X), le prof disait que il y avait surement une dépendance en x^2, et donc il essayait ..
lm(Y~X^2+X-1) !! et je ne comprends pas pourquoi -1 !!
en plus j'ai essayé, et son
lm(Y~X^2+X-1) et bien meilleur que
lm(Y~X^2+X)..

alors pour ce qui est des maths la dessous j'ai compris les calculs, pour le cas simple d'une droite des moindres carrés ..
pour pour une "parabole des moindres carrés" .. je ne sais pas (même si c'est toujour un modèle linéaire en fait ..)

en gros ma question :
pour trouver le meilleur modèle : il faut essayer au hasard plein de choses ? ?? genre
lm(Y~X^2+X+1)
lm(Y~X^3+X-1)
lm(Y~ln(X))
??

Ou y a t'il simplement 3 ou 4 modèles standart qui marchent souvent à essayer d'abord ?
Une méthode analytique pour le choix d'un modèle optimal semble dur non ?

Je vous remercie tous !!
Vous me sauveriez (non non j'en fais pas trop :D )

marie

Renaud Lancelot · Messagepar **Renaud Lancelot** » 30 Aoû 2006, 15:00

marie pouget a écrit :Bonjour à tous, je suis nouvelle sur le forum :oops:

donc voila j'ai un peu de mal en R, alors je me suis dit :o

alors j'ai deux echantillons (de même taille) disons X et Y, donc autrement dit un nuage de points.

Et j'ai essayé lm(Y~X), et obtenu un résultat.
Puis j'ai lu dans un de mes cours un exemple où X=vitesse, et Y=distance de freinage, ou apres avoir fait lm(Y~X), le prof disait que il y avait surement une dépendance en x^2, et donc il essayait ..

Un des intérêts de R est de pouvoir facilement réaliser une exploration graphique. Quand on n'a pas d'info a priori sur la forme de la relation entres variables à expliquer et explicative, cela permet de définir un codage pertinent pour cette variable explicative. En d'autres termes, le graphe:

Code : Tout sélectionner

plot(X, Y)

vous donne des infos sur la nécessité d'avoir un terme linéaire, quadratique, cubique,... Il est également utile et nécessaire d'étudier les résidus du modèle. Tout cela est décrit dans les bons bouquins sur la régression linéaire.

Pour l'exemple précis que vous citez, une force de freinage constante correspond (?) à d2(x)/dt2 = cste d'où une relation quadratique entre distance de freinage et vitesse initiale, et une distance nulle pour une vitesse initiale nulle ==> pas de constante dans le modèle stat.

lm(Y~X^2+X-1) !! et je ne comprends pas pourquoi -1 !!
en plus j'ai essayé, et son
lm(Y~X^2+X-1) et bien meilleur que
lm(Y~X^2+X)..

-1 signifie pas de constante dans le modèle. Si il n'y a pas de constante par construction (comme ici), c'est logique que certains critères de choix du modèle pointent vers le modèle sans constante.

Dans le cas général, l'exploartion graphique doit vous guider. Tt dépend de la manière dont la variable est codée: centrage, autre transformation,...

alors pour ce qui est des maths la dessous j'ai compris les calculs, pour le cas simple d'une droite des moindres carrés ..
pour pour une "parabole des moindres carrés" .. je ne sais pas (même si c'est toujour un modèle linéaire en fait ..)

en gros ma question :
pour trouver le meilleur modèle : il faut essayer au hasard plein de choses ? ?? genre
lm(Y~X^2+X+1)
lm(Y~X^3+X-1)
lm(Y~ln(X))
??

Deux cas:

1) vous connaissez la loi entre variable à expliquer et la variable explicative ==> vous formulez le modèle correspondant, vous estimez les paramètres et vous regardez si le modèle ajuste bien les données. Sinon, vous essayez des modèles alternatifs que vous comparez avec le modèle a priori.

2) vous ne connaissez pas cette loi ==> vous faites une exploration graphique et essayez de trouver un modèle le plus simple possible décrivant bien les données, si possible sur la base de connaissances physiques, biologiques, etc.

Ou y a t'il simplement 3 ou 4 modèles standart qui marchent souvent à essayer d'abord ?
Une méthode analytique pour le choix d'un modèle optimal semble dur non ?

Il y a de nombreuses méthodes de sélection des modèles. C'est un des domaines importants des statistiques. Difficile de donner un aperçu en quelques lignes. En gros, il y a:

1. des tests de comparaisons, mis en oeuvre dans la fonction anova pour comparer des modèles emboîtés:

fm1 <- lm(y ~ x1)
fm2 <- lm(y ~ x1 + x2)
anova(fm1, fm2)

2. des critères permettant de comparer les modèles, sans les tester formellement, tels que le critère d'information d'Akaike (AIC). Pour reprendre l'exemple ci-dessus:

AIC(fm1, fm2)

Si cette question est centrale pour vous, voir par exemple:

Burnham, K.P. and D.R. Anderson, Model selection and multimodel inference: a practical information-theoretic approach. 2nd ed. 2002, New-York: Springer-Verlag, 496p.

Mais le sujet est très vaste...

Bonne chance,

renaud

marie pouget · Messagepar **marie pouget** » 30 Aoû 2006, 15:45

Merci beaucoup !!
bon avant de reposer des questions stupides "à chaud", je vais étudier votre réponse ...
Je vous re-dérangerai éventuellement plus tard :D ..
Encore merci d'avoir pris de votre temps,

Marie

Eric Casellas · Messagepar **Eric Casellas** » 04 Oct 2010, 14:24

Bonjour,

Il faut "inverser" ta relation :
Y² = a + b * log(X)
en :
X = exp((Y²-a)/b)

avec Y le taux d'humidite et X le temps thermique
exp ~ exponentiel

Groupe des utilisateurs du logiciel R

regression : choix d'un modèle

regression : choix d'un modèle

Re: regression : choix d'un modèle

merci !!

Qui est en ligne