Ecriture des donnees

Questions sur les objets de R et la manipulation des données

Modérateur : Groupe des modérateurs

Orianne Liet
Messages : 9
Enregistré le : 31 Aoû 2006, 03:14

Ecriture des donnees

Messagepar Orianne Liet » 01 Sep 2006, 02:08

bonjour,

Je suis en stage je dois analyser des données que j’ai collectées : j’ai compté le long d’un chemin qui se situe entre la mer et la falaise le nombre de bébé crabes. Pour ce faire, tous les 500m du chemin, je suivais un transect perpendiculaire au chemin et qui allait de la mer à la falaise. Tous les 25% de distance (la mer = 0% et la falaise = 100%) je comptais le nombre de bébé crabes en réalisant 3 répétitions. Le but est de savoir s’il existe une répartition des bébés le long du chemin et en fonction de la distance à la mer.

Avec mes données je dois donc réalisé une anova à 2 facteurs : la distance sur le chemin (facteur T) et la distance à la mer (facteur P). J’ai 3 répétitions (S) à chaque fois et ma variable est donc le nombre de bébés crabes (B).

Mais comment dois je ecrire mes donnees en lettres ou en chiffres (par exemple, 0m, 500m, 1000m, ou 0, 500, 1000)? car avec R je n'obtient pas le meme resultat en fonction de l'une ou de l'autre ecriture.

merci,

orianne

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Messagepar Renaud Lancelot » 01 Sep 2006, 10:06

Deux remarques,

1) Sur des données de comptages, la méthode la plus pertinente n'est a priori pas l'anova car la variable à expliquer n'a pas une distribution bien décrite par une loi normale (données discrètes par nature, d'allure souvent dissymétrique, de variance fonction de la moyenne,...). Il faudrait aller vers des modèles linéaires généralisés (ex régression de Poisson). A moduler selon les valeurs prises par la variable à expliquer: si les comptages sont élevés (plusieurs dizaines de crabes en moyenne), pas trop de souci pour rester en modèle linéaire.

2) Pour le codage de la variable explicative, faire une exploration graphique pour déterminer un modèle qui soit le plus simple possible. L'avantage de coder en facteurs (au sens de R, i.e., 100m, 200m,...) est de tenir compte de la possibilité d'une relation non-linéaire entre var à expliquer et var explicative. Pour ma part, j'utilise beaucoup les graphes trellis disponibles dans le package lattice. Voir le site http://cm.bell-labs.com/cm/ms/departments/sia/project/trellis/ et le doc http://cm.bell-labs.com/stat/doc/trellis.jcgs.col.ps pour une introduction.

Renaud

Samir Messad
Messages : 75
Enregistré le : 10 Jan 2005, 20:56

Messagepar Samir Messad » 01 Sep 2006, 14:01

Bonjour,

Le choix du codage qualitatif (factor) ou quantitatif (numeric) d'une variable modifie la paramétrisation du modèle d'anova. Il faut donc faire un choix explicite du type (mode dans R) des variables explicatives.

Le choix du codage est également un problème plus général en statistique. Vous devez déterminer en préalable à toute analyse et en particulier pour une anova, le codage de votre information. Dans votre étude, je dirais que c'est le protocole de recueil de l'information qui defini naturellement le codage de vos deux variables d'intérêt. Vous avez en effet fixé à l'avance fixé un nombre faibles (3) de modalités des variables distance à la mer et sur le chemin.

Enfin, j'essaye personnellement de coder les données en lettres ou en chiffres en fonction des règles de recodage automatique de R au moment de l'importation du tableau. Par exemple, utiliser au moins une lettre pour le nom des modalités permet d'éviter d'appliquer la fonction factor(). Ce qui est bien pratique lorsque l'on a des tableaux avec beaucoup de variables qualitatives. Dans tous les cas, utiliser systématiquement summary() avant toute analyse pour être certain du type de variables sur lequel vous travaillez.

Cordialement.
Samir Messad

Orianne Liet
Messages : 9
Enregistré le : 31 Aoû 2006, 03:14

Messagepar Orianne Liet » 05 Sep 2006, 07:08

Bonjour,

Merci pour ces renseignements. Par contre les liens que vous me proposez ne fonctionnent pas, et sur le site lui-même la page ne s’ouvre pas, il doit y avoir un problème.
Je vais donc suivre vos conseils, et tenter de réaliser mon analyse en partant d’un modèle linéaire.
Encore merci,

orianne

Renaud Lancelot
Messages : 2484
Enregistré le : 16 Déc 2004, 08:01
Contact :

Messagepar Renaud Lancelot » 05 Sep 2006, 08:20

Bnjour,

Il doit y avoir un pb sur le site. Je viens de mettre les documents dont je dispose sur le site GuR:

ftp://ftp.cirad.fr/pub/group-r/groupe-r/Documents/Trellis.pdf

ftp://ftp.cirad.fr/pub/group-r/groupe-r/Documents/trellis.tour.pdf

ftp://ftp.cirad.fr/pub/group-r/groupe-r/Documents/trellis.user.pdf

Par ailleurs, l'aide en ligne de la fonction principale du package lattice, xyplot, est très volumineuse et comporte de nombreux exemples. Il y a aussi de nombreux échanges sur le forum de discussion R-Help: voir dans les archives.

Renaud


Retourner vers « Archives : Manipulation de données avec R »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité