t.test

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

Couanais Pierre
Messages : 213
Enregistré le : 26 Fév 2007, 12:41

t.test

Messagepar Couanais Pierre » 03 Déc 2008, 10:32

Bonjour à tous,

Je vous expose mon problème car je ne suis pas sûr de faire le test statistique adapté :

un magasin A recoit 25 000 clients en 1 mois et 700 achètent quelquechose.
Sur ce même mois, le magasin B recoit également 25 000 clients mais seulement 400 achètent quelquechose

Je fais alors un vecteur A et un vecteur B de longueur 25 000 et dans le vecteur A je mets 700 "1" et dans le vecteur B 400...

Et je fais un t.test sur mes 2 vecteurs pour savoir si le magasin A est significativement plus vendeur que le magasin B...

Mais vu que c'est plus que qualitatif que du quanti, je pense que la méthode n'est pas adaptée...

Quelle serait la bonne svp !??


Cordialement

Vincent Boulanger
Messages : 76
Enregistré le : 25 Avr 2006, 11:59

Messagepar Vincent Boulanger » 03 Déc 2008, 11:01

Bonjour,

pour ma part, je ferais un test type chi2 ou fisher sur un tableau 2x2 :
avec "magasin A" et "magasin B" en colonnes
"achète" ou "achète pas" en ligne...

et pour info, ça donne un test très hautement significatif...

je ne sais pas non plus si c'est la bonne méthode, mais c'est comme ça que j'aborderais le pb.

Bon courage

VB
Vincent Boulanger
Ingénieur Forestier
Doctorant Cemagref/INRA/ONCFS

Eric Pagot
Messages : 195
Enregistré le : 15 Fév 2007, 17:10

Messagepar Eric Pagot » 03 Déc 2008, 11:23

C'est bien la méthode la plus appropriée, test du Chi2 de Pearson pour des critères qualitatifs
Vétérinaire CTPA

Couanais Pierre
Messages : 213
Enregistré le : 26 Fév 2007, 12:41

Messagepar Couanais Pierre » 03 Déc 2008, 11:30

D'accord merci beaucoup à vous je teste ça !

Couanais Pierre
Messages : 213
Enregistré le : 26 Fév 2007, 12:41

Messagepar Couanais Pierre » 03 Déc 2008, 15:18

Il faut cependant que les deux vecteurs testés aient la même longueur...

Pas d'alternative si ils sont de longueur différente ?

Vincent Boulanger
Messages : 76
Enregistré le : 25 Avr 2006, 11:59

Messagepar Vincent Boulanger » 03 Déc 2008, 16:18

Re-
je ne vois pas pourquoi ce serait gênant, il me semble qu'on peut faire un chi2 (ou fisher...) si les 2 échantillons n'ont pas même longueur.

VB
Vincent Boulanger

Ingénieur Forestier

Doctorant Cemagref/INRA/ONCFS

Couanais Pierre
Messages : 213
Enregistré le : 26 Fév 2007, 12:41

Messagepar Couanais Pierre » 03 Déc 2008, 17:42

j'ai peut être pas tapé le bon truc...

> vHP=vector("numeric",3160613)
> vLP=vector("numeric",2904156)
> vHP[1:784]=1
> vLP[1:404]=1
> chisq.test(vHP,vLP)
Erreur dans chisq.test(vHP, vLP) : 'x' et 'y' doivent avoir la même longueur

Vincent Boulanger
Messages : 76
Enregistré le : 25 Avr 2006, 11:59

Messagepar Vincent Boulanger » 03 Déc 2008, 18:04

ok, on ne s'était pas compris sur la présentation des données :

Code : Tout sélectionner

> mat<-matrix(c(784, 3160613-784, 404, 2904156-404), ncol=2)
>mat
        [,1]    [,2]
[1,]     784     404
[2,] 3159829 2903752

> chisq.test(mat)

        Pearson's Chi-squared test with Yates' continuity correction

data:  mat
X-squared = 91.162, df = 1, p-value < 2.2e-16

Voilà comment je voyais l'analyse !

VB
Vincent Boulanger

Ingénieur Forestier

Doctorant Cemagref/INRA/ONCFS

Couanais Pierre
Messages : 213
Enregistré le : 26 Fév 2007, 12:41

Messagepar Couanais Pierre » 04 Déc 2008, 14:14

ah oui oui ok c'est plus clair !

mais résultat très significatif ça te parait logique ?

moi pas trop vu les effectifs relativement importants

Vincent Boulanger
Messages : 76
Enregistré le : 25 Avr 2006, 11:59

Messagepar Vincent Boulanger » 04 Déc 2008, 15:26

je dois t'avouer qu'en effet, ça me parait un peu fort mais :

dans l'exemple 1 (avec les 25000 visiteurs dans chaque magasin), la statistique calculée du chi2 vaut environ 80.56, à comparer avec la valeur donnée dans la table du chi2 : avec 1ddl, la valeur critique du chi2 est de 6.63.

VB
Vincent Boulanger

Ingénieur Forestier

Doctorant Cemagref/INRA/ONCFS

Logez Maxime
Messages : 3138
Enregistré le : 26 Sep 2006, 11:35

Messagepar Logez Maxime » 04 Déc 2008, 15:37

Bonjour,

ça ne parait pas aberrant quand on regarde les fréquences et leurs intervalles de confiance :

Code : Tout sélectionner

n1 <- 3160613
p1 <- 784/n1
ICp1 <- p1+c(-1,1)*1.96*sqrt(p1*(1-p1)/n1)
[1] 0.0002306916 0.0002654147

n2 <- 2904156
p2 <- 404/n2
ICp2 <- p2+c(-1,1)*1.96*sqrt(p2*(1-p2)/n2)
[1] 0.0001255467 0.0001526753

# les intervalles exacts
require(epitools)

binom.exact(p1*n1,n1)
    x       n   proportion        lower        upper conf.level
1 784 3160613 0.0002480531 0.0002309933 0.0002660393       0.95

binom.exact(p2*n2,n2)
    x       n   proportion        lower        upper conf.level
1 404 2904156 0.0001391110 0.0001258758 0.0001533591       0.95


Maxime

Couanais Pierre
Messages : 213
Enregistré le : 26 Fév 2007, 12:41

Messagepar Couanais Pierre » 05 Déc 2008, 11:27

OK pour les intervalles de confiance.
Mais une difference de 380 sur des effectifs de plusieurs millions pourraient d'un point de vue intuituf paraitre derisoire!!


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité