EN fait j'ai collecté des données provenant d'enquête portant sur une variable continue (âge). les données sont sous frome d'intervalle d'âge ([20,30[, [30,35[, [35,45[...) et sont enregistrées dans un tableau excel avec deux colonnes (colonne intervalle d'âge, et colonne "n" effectif correspondant pour chaque intervalle d'âge). puisque R n'arrive pas à lire la colonne intervalle d'âge j'ai choisi de partager cette colonne en deux colonnes borne inférieure de l'intervalle et borne supérieure de la façon suivante:
[img]X1 X2 n
20 30 10
30 35 30
35 45 40[/img]
Pour importer les données de EXcel vers R j'ai utilisé le code suivant:
Code : Tout sélectionner
dat <- data.frame( X1 = c(20,30,35), X2 = c(30,35,45), n = c(10, 30, 40))
et j'ai passé par la suite à calculer la fréquence en appliquant le code suivant:
Code : Tout sélectionner
data.frame(X1,X2,ci=(X1+X2)/2,Eff=n,EffCum=cumsum(n),Freq=n/sum(n),FreqCum=cumsum(n/sum(n)))
le problème est au niveau de calcul des caractéristiques de la distribution tels que le mode la moyenne la variance...
en effet j'ai essayé avec ce code
Code : Tout sélectionner
summary(dat)
mais sans succès. en effet, en suivant ce code il apparait que R n'arrive pas à comprendre que X1 et X2 sont les deux bornes de l'intervalle et il les considère comme deux variables quantitatives séparées. Ainsi, il détermine les caractéristiques pour chaque variable à part (même il considère l'effectif n comme étant une variable) de la façon suivante:
[img]X1 X2 n
Min. :16.0 Min. :18.0 Min. :10.0
1st Qu.:17.5 1st Qu.:19.5 1st Qu.:17.5
Median :19.0 Median :21.0 Median :25.0
Mean :19.0 Mean :21.0 Mean :25.0
3rd Qu.:20.5 3rd Qu.:22.5 3rd Qu.:32.5
Max. :22.0 Max. :24.0 Max. :40.0[/img]
Pouvez vous svp m'aider? comment faire pour que R comprenne que X1 et X2 sont les deux bornes de l'intervalle et que n est l'effectif correspondant pour chaque intervalle?
Merci d'avance