[RESOLU] Aide gestion base de donnée

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

Agatha Bataille
Messages : 14
Enregistré le : 06 Mar 2017, 10:31

[RESOLU] Aide gestion base de donnée

Messagepar Agatha Bataille » 07 Mar 2017, 09:24

Bonjour,
Je suis actuellement en train de réaliser un dossier de statistiques sur R pour mes cours. Dans ce cadre, on nous à fournit une base de donnée composer de nombreuse variable : Age, Sexe, Ethnie, Religion, Education, Machiavélisme (qui donne les résultats pour chaque individu à chaque question d'un test, nous devons calculer le score, idem pour deux autres variables). Mais je bloque sur plusieurs chose dans la gestion de ma base de donnée. Auriez-vous des suggestions concernant les problèmes suivant ?
1) je souhaite supprimer la variable ethnie de ma dataframe
2) je souhaite regrouper les réponses de chaque participant aux différentes questions en une seule variable (ex. créer une variable MACH-IV qui regroupe les variables / questions MACH-IV 1 à 20).
3) Parmi les réponses à ces questions, certaines réponses sont manquantes, je souhaiterais exclure / supprimer les individus ayant trop de réponse manquante de ma base de donnée, comment savoir combien de fois ils n'ont pas répondu et surtout comment supprimer un individu ?
4) idem, pour la variable sexe, les réponses sont soit 1 (femme); 2 (homme); 3 (autres); 0 (n'a pas répondu), je souhaiterais pour des raisons pratiques en lien avec mes hypothèses à tester ultérieurement supprimer les individus ayant répondu 0 ou 3, comment faire pour qu'ils n'apparaissent plus ?

En espérant avoir été claire et que vous pourrez m'aider :)

Pierre-Yves Berrard
Messages : 1029
Enregistré le : 12 Jan 2016, 23:30

Re: Aide gestion base de donnée

Messagepar Pierre-Yves Berrard » 07 Mar 2017, 10:14

Bonjour,

Quelques pistes en utilisant les fonctionnalités de base de R. Mais sachez qu'il existe des packages comme dplyr ou tidyr qui pourraient vous simplifier la vie si vous souhaitez approfondir vos connaissances en R.

  1. Code : Tout sélectionner

    ma_dataframe$Ethnie <- NULL
    ou

    Code : Tout sélectionner

    ma_dataframe <- subset(ma_dataframe, select = -Ethnie)
  2. utiliser la fonction

    Code : Tout sélectionner

    paste
  3. il faut commencer par compter le nombre de valeurs manquantes sur une ligne, utiliser pour cela la fonction

    Code : Tout sélectionner

    apply
    ensuite il faudra filtrer sur le total obtenu (voir point 4).
  4. Code : Tout sélectionner

    ma_dataframe_sexe12 <- subset(ma_dataframe, SEXE %in% c("1", "2"))
PY

Agatha Bataille
Messages : 14
Enregistré le : 06 Mar 2017, 10:31

Re: Aide gestion base de donnée

Messagepar Agatha Bataille » 07 Mar 2017, 10:20

Merci pour ces premières pistes, je vais regarder ça ainsi que les package :)


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité