Question ADD sous R + import grosses bases de données SAS

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

Julien Andryc
Messages : 4
Enregistré le : 14 Mai 2008, 13:33

Question ADD sous R + import grosses bases de données SAS

Messagepar Julien Andryc » 15 Mai 2008, 09:39

Bonjour, je suis nouveau sur votre forum
je commence un stage dans une mutuelle et la mission est d'effectuer des analyses de données sous R à partir de tables SAS.
Le hic c'est que mes tables sont ENORMES et en tant qu'étudiant je n'ai jamais manipuler d'aussi gros amas de données.

j'ai déja effectué quelques recherches et je pense me servir du package ade4 et essayer Factominer.

j'ai aussi vu sur votre forum des histoires d'enveloppes convexes que je vais creuser.

j'ai donc plusieurs questions : y a t il une méthode préférable aux autres quand à l'importation de tables SAS vu leur taille (je dois tout faire de manière automatisée de manière à ce que l'équipe stat n'ai qu'à taper quelques noms de macros ou de fonction et que tout se face, il me faut donc des méthodes robustes).

j'ai pour l'instant implémenter la méthode avec les fichiers xpt et une autre avec les csv mais je ne sais pas si elles sont aussi sures l'une que l'autre, en particulier pour les variables qualitatives.
Par ailleurs la méthode csv ne pose t elle pas de problèmes pour la relacture si les données contiennent des chiffres à virgule ?

sinon je suis preneur de tous conseils et avis si vous connaissez quelque chose sur ce sujet, et surtout sur les difficultées que je pourrais rencontrer avec de telles BDD.

merci

romain legrand
Messages : 13
Enregistré le : 25 Avr 2008, 09:19

Messagepar romain legrand » 15 Mai 2008, 09:50

Salut,
pour ma part je n'ai pas eu de problème pour importer des fichier csv de plusieurs centaines de millier de ligne (et 20 variables quanti) en configurant correctement la fonction read.csv

par contre j'ai eu quelques soucis pour faire des tableaux croisé un peu complexe.
Donc si tu as ce genre de manip à faire, je te conseillerais peut être de le faire d'abord avec SAS et ensuite de l'importer.

Nicolas Péru
Messages : 1408
Enregistré le : 07 Aoû 2006, 08:13

Messagepar Nicolas Péru » 15 Mai 2008, 10:04

bonjour,

les éventuelles problèmes peuvent survenir au niveau de la mémoire de l'ordinateur et ce qu'accepte R. Il y a pas mal de sujet sur ce forum à ce propos. Si vous rencontrer ce type de problème (un message d'erreur à propos de la "size memory") vous pourrez alors faire une recherche sur le forum..
L'histoire des virgules dans les fichiers doit être réglé en amont de l'utilisation de R dans les options windows (paramètre régionnaux sous XP) et faire utiliser le "." plutôt que la "," pour les valeurs décimales.

D'une manière générale, le type de fichier et la taille n'a pas d'influence sur la qualité de la retranscription dans R. Pour avoir manipuler pas mal de format maintenant je n'ai jamais rencontré d'erreur due à R. Il suffit de bien préparer le travail.

Il est toujours intéressant de manipuler le package RODBC quand on manipule des bases de données...à voir si ça peut vous être utile.

Bon courage,

Nicolas.

Romuald Riem
Messages : 16
Enregistré le : 18 Déc 2007, 11:09

Importation de fichiers csv

Messagepar Romuald Riem » 16 Mai 2008, 12:46

Bonjour,

Je n'ai pas l'expérience d'aussi gros fichiers mais il est possible d'importer des fichiers csv avec des nombres "français" (virgule comme séparateur décimal) en utilisant la fonction "read.csv2". Les différents champs sont alors délimités par un point virgule (";")

R. Riem

Julien Andryc
Messages : 4
Enregistré le : 14 Mai 2008, 13:33

Messagepar Julien Andryc » 19 Mai 2008, 08:12

merci pour vos réponses


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité