Caractéristiques d'une distribution continues

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

imen benyahya
Messages : 14
Enregistré le : 03 Oct 2022, 12:08

Caractéristiques d'une distribution continues

Messagepar imen benyahya » 18 Nov 2022, 23:43

I have a continuous distribution comming from a survey data and summarized in a table wth three columns wheres the first column X1 is the lower bound of the interval, X2 is the upper one and n is the size of each interval.
X1 X2 n
16 18 10
18 20 30
20 22 40
22 24 20

to import data I use the following code

Code : Tout sélectionner

dat <- data.frame( X1 = c(16, 18, 20, 22), X2 = c(18, 20, 22,24), n = c(10, 30, 40,20))


and to caculate frequence I apply this code

Code : Tout sélectionner

data.frame(X1,X2,ci=(X1+X2)/2,Eff=n,EffCum=cumsum(n),Freq=n/sum(n),FreqCum=cumsum(n/sum(n)))


can you please help me how I can determine characteristics of this distribution (mode, mean, median, variance...) knowing that when I used this code

Code : Tout sélectionner

summary(dat)

it appears that R did not take into consideration that X1 and X2 are the two bounds of an interval and it considers them as discrete data. the output founded is like this:
X1 X2 n
Min. :16.0 Min. :18.0 Min. :10.0
1st Qu.:17.5 1st Qu.:19.5 1st Qu.:17.5
Median :19.0 Median :21.0 Median :25.0
Mean :19.0 Mean :21.0 Mean :25.0
3rd Qu.:20.5 3rd Qu.:22.5 3rd Qu.:32.5
Max. :22.0 Max. :24.0 Max. :40.0
can you help me please?

Maxime Deniaux
Messages : 68
Enregistré le : 11 Fév 2022, 22:49
Contact :

Re: Caractéristiques d'une distribution continues

Messagepar Maxime Deniaux » 21 Nov 2022, 09:39

Firstly..Hello,

I don't understand very well your introduction for the context of the situation, specially the description of the 'n' variable.

Also, I don't know how your second line of code can work.

You can use for example (by using your formulas) :

Code : Tout sélectionner

 library('dplyr')
 
 dat %>% mutate( ci = (X1 + X2) /2,
                 EffCum = cumsum(n),
                 Freq = n/sum(n),
                 FreqCum = cumsum(Freq))


For the rest, I do not have an answer to give. I don't understand the problem well enough to know how to calculate what you want from dat.

imen benyahya
Messages : 14
Enregistré le : 03 Oct 2022, 12:08

Re: Caractéristiques d'une distribution continues

Messagepar imen benyahya » 22 Nov 2022, 19:16

Bonsoir maxime et merci pour votre réponse. EN fait voilà mon problème j'ai collecté des données provenant d'enquête portant sur une variable continue (âge). les données sont sous frome d'intervalle d'âge ([20,30[, [30,35[, [35,45[...) et sont enregistrées dans un tableau excel avec deux colonnes (colonne intervalle d'âge, et colonne "n" effectif correspondant pour chaque intervalle d'âge). puisque R n'arrive pas à lire la colonne intervalle d'âge j'ai choisi de partager cette colonne en deux colonnes borne inférieure de l'intervalle et borne supérieure de la façon suivante:
X1 X2 n
20 30 10
30 35 30
35 45 40

Pour importer les données de EXcel vers R j'ai utilisé le code suivant:

Code : Tout sélectionner

dat <- data.frame( X1 = c(20,30,35), X2 = c(30,35,45), n = c(10, 30, 40))


et j'ai passé par la suite à calculer la fréquence en appliquant le code suivant:

Code : Tout sélectionner

data.frame(X1,X2,ci=(X1+X2)/2,Eff=n,EffCum=cumsum(n),Freq=n/sum(n),FreqCum=cumsum(n/sum(n)))


le problème est au niveau de calcul des caractéristiques de la distribution tels que le mode la moyenne la variance...
en effet j'ai essayé avec ce code

Code : Tout sélectionner

summary(dat)

mais sans succès. en effet, en suivant ce code il apparait que R n'arrive pas à comprendre que X1 et X2 sont les deux bornes de l'intervalle et il les considère comme deux variables quantitatives séparées. Ainsi, il détermine les caractéristiques pour chaque variable à part (même il considère l'effectif n comme étant une variable) de la façon suivante:

X1 X2 n
Min. :16.0 Min. :18.0 Min. :10.0
1st Qu.:17.5 1st Qu.:19.5 1st Qu.:17.5
Median :19.0 Median :21.0 Median :25.0
Mean :19.0 Mean :21.0 Mean :25.0
3rd Qu.:20.5 3rd Qu.:22.5 3rd Qu.:32.5
Max. :22.0 Max. :24.0 Max. :40.0
Pouvez vous svp m'aider? comment faire pour que R comprenne que X1 et X2 sont les deux bornes de l'intervalle et que n est l'effectif correspondant pour chaque intervalle?
Merci d'avance

Maxime Deniaux
Messages : 68
Enregistré le : 11 Fév 2022, 22:49
Contact :

Re: Caractéristiques d'une distribution continues

Messagepar Maxime Deniaux » 23 Nov 2022, 22:24

Bonsoir,

je réponds en français cette fois étant donné que vous m'avez répondu en français.

Je crois avoir mieux compris le problème. Initialement, vous devez avoir quelque chose comme :

[20,30[
[20,30[
[20,30[
[30,35[
[20,30[
[35,45[
...etc

qui peut être résumé en un tableau croisé avec pour chacune de ces catégories, le nombre d'occurrence (n) associé. Sauf que sur R, vous avez décidé de mettre les bornes inférieure et supérieure en 2 colonnes pour tenter d'obtenir des indicateurs statistiques comme la moyenne ou la variance.

Sauf que ce que vous avez ici n'est pas une variable continue mais catégorielle. Bien que l'âge en lui même soit une variable continue, sa forme ici ne l'est pas. Vous avez des intervalle d'âge et seulement ça (n'est-ce pas ? Ou est-ce vous qui avez modifié les données brutes pour obtenir ces intervalles ?).

Ici, à moins de générer aléatoirement des nombres (n = 10, n = 30, n = 40) pour chaque intervalle et donc avoir par exemple pour l'intervalle [20,30[ un vecteur comme : c(22,28,24,24,27,23,28,23,22,29), il me semble impossible de pouvoir obtenir ce que vous souhaitez.
Et même en faisant quelque chose comme ça, je ne suis pas convaincu que ce soit une très bonne idée...

Difficile de vous aider davantage. De ce que j'ai compris de vos commentaires, les données sous cette forme ne devraient pour l'instant pas vous permettre d'obtenir vos indicateurs statistiques.


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Google [Bot] et 1 invité