loi du résidu

Questions sur les fonctions statistiques de R

Modérateur : Groupe des modérateurs

marie pouget
Messages : 8
Enregistré le : 30 Aoû 2006, 07:15

loi du résidu

Messagepar marie pouget » 05 Sep 2006, 13:35

Bonjour tout le monde !

Je me posais la question de la détermination de la loi du résidu dans le cadre d'une regression linéaire (et oui marie pouget = regression linéaire :), avec un modèle y_chapeau = beta*x + epsilon

ou deja, plus simplement, je suppose que mon résidu est de loi normale
N(m,sigma), et j'aimerai saoivr comment déterminer m, et sigma.

voila ce que me donne R :


Call:
lm(formula = pic ~ nbtotal - 1)

Residuals:
Min 1Q Median 3Q Max
-0.9135 -0.6481 -0.3674 0.3659 5.1807

Coefficients:
Estimate Std. Error t value Pr(>|t|)
nbtotal 3.067e-05 7.627e-07 40.21 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.153 on 49 degrees of freedom
Multiple R-Squared: 0.9706, Adjusted R-squared: 0.97
F-statistic: 1617 on 1 and 49 DF, p-value: < 2.2e-16


1 )ALors y a t'il une manip pour obtenir par R, m et sigma si on suppose que epsilon est de loi normale ?

2 ) Plus dur : comment déterminer la loi des epsilon ?
Car je connais bien les méthodes (test d'appartenance à une famille de lois etc ...), mais est ce que monsieur R peut nous faire un petit topo
sur la loi des epsilon ?



PS : pour plus de précisions :

pour tout vous dire, j'ai sous les yeux des calculs (FAITS AVEC L'HYPOTHESE DE epsilon suivant N(0,sigma)), qui me disent que
le "Residual standard error: 1.153 " est la variance empirique, ie mon estimation de sigma ..
tres bien, mais ici je ne sais si m=0 !! donc est ce que residual standart .. c'est toujours la variance ??

De plus, pour avoir la moyenne de epsilon, je me disais simplement que il suffirait de sommer la distance algébrique entre chaque point et la droite des moindres carrés, et de diviser tout ça pour avoir la moyenne quoi !!

R doit savoir nous faire ça tres facilement non ? comment ?
comment obtenir cette bête "moyenne des écarts entre les points et notre droite ?"
(attention c'est pas vraiment des distances ici car si le point est en dessous de la droite, la "distance est négative") ..


Voila je suis désolée je suis un peu mélangée la :)
Mais les questions 1) et 2) sont compréhensibles j'espère !!
Merci à tous,

Marie[/url]

E.V. Dennst

Re: loi du résidu

Messagepar E.V. Dennst » 05 Sep 2006, 14:14

marie pouget a écrit :2 ) Plus dur : comment déterminer la loi des epsilon ?

Réponse incomplète :
A défaut de déterminer la loi, on peut déjà au moins infirmer ou confirmer si elle est normale ou pas.
Par déf, la loi normale c'est :
- 99.7%/95%/68% des observations sont respectivement
dans [m-3*sd; m+3*sd]/ [m-2*sd; m+2*sd]/ [m-sd; m+sd]

Donc calculer m, sd, et compter le % d'observations dans les différents intervalles, renseigne déjà sur le degré de normalité de la distribution.
(voir éventuellement ?scale, etc.)

Tant mieux si une fonction R de base (ou en package) fait ça tout cuit,
mais sinon, ce n'est pas bien long à écrire.

marie pouget
Messages : 8
Enregistré le : 30 Aoû 2006, 07:15

ok

Messagepar marie pouget » 05 Sep 2006, 14:44

c'est vrai c'est vrai je n'ai pas pensé à tester ça,
alors que cela provient de la définition même de la loi normale ..
merci ..

marie pouget
Messages : 8
Enregistré le : 30 Aoû 2006, 07:15

en fait j'ai changé de question !

Messagepar marie pouget » 05 Sep 2006, 15:24

Re !
J'ai trouvé presque toute mes réponses ..
Oui vous avez raison je devrais réfléchir plus avant de poster !!
Mais quand je pose c'est que à chaque fois je crois que je suis bloquée :)

Voila une derniere chose :

la différence entre les 2 commandes ci dessous :

sachant qu'on a
> test<-c(1,2,3)
> test2<-c(3.1,6.2,8.9)
> fit<-lm(test2~test)


voila les deux commandes :


> predict(fit,newdata=data.frame(test=c(4,5,6)),interval="confidence",level=0.95)

fit lwr upr
1 11.86667 8.697182 15.03615
2 14.76667 10.205000 19.32833
3 17.66667 11.676904 23.65643

> predict(fit,newdata=data.frame(test=c(4,5,6)),interval="prediction",level=0.95)

fit lwr upr
1 11.86667 8.078408 15.65493
2 14.76667 9.755272 19.77806
3 17.66667 11.327698 24.00564



Pour le premier prédict, on peut bien interpréter comme suit :
"pour une nouvelle valeur 4, le modèle prévoit 11.86667, et on a une confiance de 95% en le fait que pour cette valeur 4 l'observation soit entre 8.697182 et 15.03615" ..
et pareil pour 5 et 6 .. ??

Pour le second prédict, que veut dire interval = "prediction" ?
La doc de R est bof bof la dessus, pour une fois J'AI CHERCHE avant de poster :)

Merci boucou tous !!

marie

Pierre Bady
Messages : 405
Enregistré le : 02 Mai 2006, 07:46

Messagepar Pierre Bady » 05 Sep 2006, 15:35

bonjour,

ou deja, plus simplement, je suppose que mon résidu est de loi normale
N(m,sigma), et j'aimerai saoivr comment déterminer m, et sigma.


eh bien ... calcul la moyenne et la variance de tes résidus ;)


pour le reste, tu peux jeter un coup d'oeil sur les fonctions "qqnorm", "plot.lm".

Par contre, pour construire tes modèles, je te conseille de t'inspirer du cours sur la modélisation des Philippe Besse (http://www.lsp.ups-tlse.fr/Besse/pub/modlin.pdf).
Le plan de ce document indique toutes les étapes du processus de modélisation:

Modèle
Estimation
Qualité d'ajustement, prédiction
(éventuellement des transformations)
Influence
graph des résidus

la plupart des graph sont données directement par la fonction "plot.lm"
sinon, le document suivant est très bien aussi (avec exemple en R): http://pbil.univ-lyon1.fr/R/fichestd/tdr33.pdf.


en espérant t'avoir aider :)

@++

Pierre
=@===--------¬-------¬------¬-----¬
liens utiles :
http://www.gnurou.org/Writing/SmartQuestionsFr
http://neogrifter.free.fr/welcomeOnInternet.jpg
]<((((*< -------------------------------


Retourner vers « Archives : Fonctions statistiques »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité