Les limites de R : Big Data

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

Christian Vayssier
Messages : 44
Enregistré le : 11 Mai 2009, 08:44

Les limites de R : Big Data

Messagepar Christian Vayssier » 16 Fév 2015, 15:21

Bonjour,

Je vous contacte pour avoir vos expériences sur le traitement de table très très volumineuses (plus de 30 millions d’événements).
Savez vous si cela est possible sur R, j'ai fais une recherche sur le forum et j'ai trouvé quelques questions se référant à ce sujet.
Je voulais savoir si depuis, il y a avait possibilité de traiter cela.

Que pensez de SAS ou d'autres logiciels, quelles sont les logiciels les plus performants pour le traitement de ces fichiers.
Merci pour vos suggestions et vos retours.

Cordialement,

Eric Casellas
Messages : 767
Enregistré le : 06 Jan 2009, 14:59

Messagepar Eric Casellas » 16 Fév 2015, 15:57

Bonjour,

voir la section "Large memory and out-of-memory data" de la taskview HighPerformanceComputing du CRAN http://cran.r-project.org/web/views/HighPerformanceComputing.html

sinon voici un post d'un blog suite à useR2013 (donc peut-être plus à jour?)
http://www.r-bloggers.com/five-ways-to-handle-big-data-in-r/
Eric

Mickael Canouil
Messages : 1315
Enregistré le : 04 Avr 2011, 08:53
Contact :

Messagepar Mickael Canouil » 17 Fév 2015, 07:47

R 64 bits peut avoir des éléments aussi grand.

La vrai contrainte est la machine sur laquelle est installée R, notamment la mémoire, d'où les astuces présentes dans le premier lien d'Eric.
Mickaël
mickael.canouil.fr | rlille.fr

Nicolas Péru
Messages : 1408
Enregistré le : 07 Aoû 2006, 08:13

Messagepar Nicolas Péru » 17 Fév 2015, 09:37

La vrai contrainte est la machine sur laquelle est installée R


Tout est dit. Arrivé à une certaine taille de traitement de donnée, ce qui compte ce n'est pas tant le coeur du logiciel que l'architecture machine utilisée. Donc si c'est la performance en temps de calcul qui est recherché, il est peut-être sensé de s'orienter vers des clusters ou a minima vers du calcul parallèle. Les calculs via GPU sont aussi très prometteurs.

Et non on ne repartira pas sur un débat R vs SAS and co. Le choix est fait : voir le titre du forum :).

Logez Maxime
Messages : 3138
Enregistré le : 26 Sep 2006, 11:35

Messagepar Logez Maxime » 17 Fév 2015, 12:45

Bonjour,

une autre possibilité qui avait été soulevée ici est d'utilisé le cloud moyennant finances.

Sinon rien de tel qu'un serveur linux (alors que je travaille principalement sous Windows ...) ou l'accès à une ferme de calculs (pas toujours si simple ...).

Cordialement,
Maxime

Pierre Bady
Messages : 405
Enregistré le : 02 Mai 2006, 07:46

Messagepar Pierre Bady » 24 Fév 2015, 09:06

=@===--------¬-------¬------¬-----¬
liens utiles :
http://www.gnurou.org/Writing/SmartQuestionsFr
http://neogrifter.free.fr/welcomeOnInternet.jpg
]<((((*< -------------------------------

vincent guyader
Messages : 3
Enregistré le : 10 Juin 2015, 08:44

Re: Les limites de R : Big Data

Messagepar vincent guyader » 22 Mai 2016, 12:02

Bonjour,

Pour rebondir sur ce sujet (en constante évolution) je mettrais l’accent sur 2 packages très puissants : dplyr (rapide et lisible) et data.table (tréééés rapide, moins lisible). Ces Packages + beaucoup de ram ( 1To, voire bientot 2To) et on est large pour un moment :)

Un lien vers un article que nous avons rédigé a ce sujet : http://www.thinkr.fr/r-et-le-big-data-une-histoire-damour%E2%80%89/
Bonne lecture :)


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Google [Bot] et 1 invité