Bonjour ,
il n'y a rien de spécial à faire. On l'importe comme un tableau quelconque. L'interprétation des variables est à charge de l'utilisateur.
Cependant, si j'ai bien compris, vous n'avez pas des observations directes de la variable X, mais un comptage résumé par intervalles. Ce qui risque d'affecter la manière dont vous calculez vos statistiques (moyenne, variance, etc.). Il faudrait d'abord définir comment vous voulez les calculer, et puis réfléchir à comment les coder en R.
Par exemple, une manière serait assumer que toutes les observations de X se trouvent dans au centre de l'intervalle correspondant. Dans ce cas, vous devriez d'abord calculer une nouvelle variable numérique avec cette valeur centralle pour chaque intervalle, et puis faire le calcul des moyennes, variances, etc. pondéré par le nombre d'observations.
Par exemple :
Code : Tout sélectionner
## Données d'exemple
(dat <- data.frame(
x = c("[1920, 1980[", "[1980, 2000[", "[2000, 2080[", "[2080, 3230["),
n = c(3, 2, 1, 4)
)
)
#> x n
#> 1 [1920, 1980[ 3
#> 2 [1980, 2000[ 2
#> 3 [2000, 2080[ 1
#> 4 [2080, 3230[ 4
## Calcul des centres
dat$xc <-
## Interpréter les valeurs numériquement et calculer la moyenne
vapply(
## Séparer les bornes de l'intervalle
strsplit(
## Supprimmer les crochets
gsub("\\[", "", dat$x),
", "
),
\(.) mean(as.numeric(.)
),
1
)
## Moyenne
sum(dat$xc * dat$n) / sum(dat$n)
#> [1] 2249
Cette procédure n'est pas cependant recommandée pour calculer la variance. En mettant tous les répétitions sur la même valeur on risque de la sous-estimer. Il faut proposer un modèle pour la distribution de X.
Cordialement,