Comprendre comment R utilise les dates, dates en format 1900, les facteurs et les numériques pour faire des régréssions

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

margot julien
Messages : 46
Enregistré le : 28 Nov 2017, 12:10

Comprendre comment R utilise les dates, dates en format 1900, les facteurs et les numériques pour faire des régréssions

Messagepar margot julien » 21 Déc 2017, 09:07

Bonjour,

je fais un travail de régressions simples, puis multiples.
Je veux voir par exemple ce qui va influence le plus la dormance d'un légume parmi beaucoup de paramètres météo et parmi d'autres paramètres type "variété" ou "date" comme la date de plantation, de défanage etc.
J'ai aussi beaucoup d'année d'essai (de 90 à 2017), je déclare ces différentes colonnes pour pouvoir faire les régressions, par exemple:

-dormance --> je déclare comme numérique

-année de l'essai --> je déclare comme un facteur

-variété --> je déclare comme un facteur

-période 1 en jours entre la plantation et la récolte --> je déclare comme numérique
-période 2 en jours entre le défanage et la récolte --> je déclare comme numérique

- date de plantation (format date 10/12/1990) --> je ne sais pas trop comment déclarer cette variable? est-ce qu'il est juste de faire des régressions de la dormance en fonction d'une date? Sachant que la dormance est une durée en jours qui varie avec les années et variété entre 50 et 100 jours et que la date de plantation va varier de quelques semaines en fonction des années mais je ne suis pas sure que intégrer des dates avec des années différentes soit juste en régression. Est-ce que je ne devrais plutôt pas convertir pour chaque année la date de plantation en nombre de jour ou semaines ou mois après le 1er janvier de l'année en question?

-date de plantation en format 1900 --> je déclare comme numérique c'est correct?

Code : Tout sélectionner

fichier$plantation1900<-as.Date.numeric(fichier$plantation1900,origin="1899-12-30")


comment R va t il lire les données mises en format date ou bien en format 1900 sur Excel? (dans mon fichier de base sur excel j'ai systématiquement doublé les colonnes dates, pour chaque colonne date j'ai crée une colonne data1900 en format 1900).

Par contre pour faire les régressions de la dormance en fonction des dates sur plusieurs années, même remarque qu'au dessus je ne suis pas sure que cela fonctionne?

Pour expliquer un peu mon travail: l'idée est de voir l'influence de tous les paramètres ci-dessus (dans mon vrai fichier plus de 200 colonnes (paramètre météo, dates,etc.) sur la dormance.

Je fais donc une première boucle afin de faire des régressions simples de la dormance en fonction de chacune des autres colonnes.

Le paramètre significatif (p<0.05) et avec le plus grand R² est la variété. Donc mon étape suivante est de reprendre ce paramètre variété pour faire des régressions multiples pour savoir quel est le facteur suivant qui va influencer le plus la dormance mais toujours en combinaison avec le facteur variété. Puis avec le "facteur 2" qui sortira de cette régression multiple je continue dormance = facteur variété + "facteur 2" * tous les autres facteurs..

Mes boucles de régression fonctionnent bien mais pour certaines données comme les dates j'ai des doutes sur ce qui peut être comparé en régression et sous quel format mettre les paramètres (date, facteur, numérique) pour pouvoir comparer avec une régression avec ma variable numérique "dormance".

Merci par avance.

Mickael Canouil
Messages : 1315
Enregistré le : 04 Avr 2011, 08:53
Contact :

Re: Comprendre comment R utilise les dates, dates en format 1900, les facteurs et les numériques pour faire des régréssi

Messagepar Mickael Canouil » 22 Déc 2017, 09:49

Bonjour,

votre message sort quelque peu de l'objectif de ce forum, à savoir l'aspect programmation R et non l'aspect statistique que peu avoir R.

Votre principale problématique porte sur le format "Date" dans R depuis un fichier Excel.
Par défaut, R importe les dates au format chaîne de caractères. Chaîne de caractères que vous pouvez ensuite convertir en "Date" avec les fonction "as.Date" et "as.POSIX*", en définissant le format (p. ex. "%d-%m-%Y" pour "22-12-2017").
L'avantage du format "Date" est qu'il vous permet d'effectuer des calculs (P. ex. soustraction/addition/etc.), ce qui vous permettra de générer une variable de temps/durée que vous pourrez exploiter dans un modèle.

Pour le reste de vos interrogations, je vous suggère de vous orienter vers un forum de statistique.
Si vous avez des questions sur R à proprement parler, le mieux serait de fournir le code et un exemple reproductible pour que nous puissions vous aider (viewtopic.php?f=1&t=3302 et viewtopic.php?f=1&t=7638).

Cordialement,
Mickaël
mickael.canouil.fr | rlille.fr


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité