Je cherche à connaître la distribution de mes données mais je ne suis pas très à l'aise dans ce domaine. J'ai pourtant eu quelques idées, mais je ne comprend pas vraiment les résultats que me fournit R.
Mes données (R) correspondent à des effectifs par sites (1040 sites).
L'histogramme correspondant est de la forme suivante :
[img][img]http://img508.imageshack.us/img508/7659/histnb1.th.jpg[/img][/img]
J'ai donc tester dans un premier temps la normalité de mes données grâce à la fonction shapiro.test().
Code : Tout sélectionner
> shapiro.test(R)
Shapiro-Wilk normality test
data: R
W = 0.6898, p-value < 2.2e-16
A priori mes données ne sont pas normal, ce qui semble logique vu l'allure de l'histogramme. Cependant, j'ai voulu le tester par une autre méthode : en comparant mes données à des données générées par rnorm() à l'aide d'un test de chi² (chisq.test() ):
Code : Tout sélectionner
norm<-rnorm(1040)
> chisq.test(R,norm)
Pearson's Chi-squared test
data: R and norm
X-squared = 953680, df = 952763, p-value = 0.2532
Warning message:
In chisq.test(R, norm) : l'approximation du Chi-2 est peut-être incorrecte
Et là ça colle, les résultats semblent suggérer que R et norm suivent la même loi!??
Pourtant, vu l'allure de l'histogram, j'aurai plutôt pencher pour une distribution exponentielle. Du coup j'ai essayé de tester la normalité de mes données en les transformant par un log :
Code : Tout sélectionner
> logR<-log(R)
> shapiro.test(logR)
Shapiro-Wilk normality test
data: logR
W = 0.9784, p-value = 2.588e-11
On se rapproche mais ça n'est pas encore ça... Pourtant, avec chisq.test(), mes données transformées semblent bien être normales :
Code : Tout sélectionner
> chisq.test(log,norm)
Pearson's Chi-squared test
data: log and norm
X-squared = 953680, df = 952763, p-value = 0.2532
Warning message:
In chisq.test(log, norm) :
l'approximation du Chi-2 est peut-être incorrecte
Du coup je ne sais pas quoi penser... D'autant que le chisq.tes() me génère quasi-systématiquement un message d'erreur et que les pvalues sont identiques...
J'ai regardé l'allure du graphe quantile par quantile,
[img][img]http://img508.imageshack.us/img508/1261/qqik8.th.jpg[/img][/img]
et effectivement, les données s'écartent de la droite aux deux extrémités. Il semblerait donc que le test de shapiro a "raison" et que le chisq.tst a "tord"! Mais je ne comprend pas bien pourquoi... Et au delà de ça je m'interroge sur la transformation à effectuer pour que mes données deviennent normales...
Peut-être est-ce tout simplement un problème de connaissances sur les lois de distribution, et à ce moment, je m'excuse d'encombrer le forum, je sais bien qu'il n'a pas pour utilité de donner des informations sur des notions purement statistiques, mais mon résonnement ne me parraît pas trop mauvais, et je me dis que c'est peut-être une erreur de compréhension du fonctionnement des fonctions utilisées... Dans tous les cas merci pour toute l'aide que vous pourrez m'apporter!
Christel