Exploration des données / ACP / ANOVA4

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

margot julien
Messages : 46
Enregistré le : 28 Nov 2017, 12:10

Exploration des données / ACP / ANOVA4

Messagepar margot julien » 31 Mai 2019, 15:21

Bonjour,

j'ai une base de données et j'aimerais faire le tri afin de savoir ce que je peux moyenner ou pas, je m'explique:

dans ma base de données j'ai 3 variables mesurées:
- variable 1: la taille des racines
-variable 2: le poids des racines
.variable 3: le poids des plantes

j'ai aussi des varibales qui peuvent influencer ces mesures:
-variété (N=5)
-traitement (N=3)
-période d'observation en mois (N=2)
-année de l'essai (N=3 pour variable 1 et 2 et N=2 pour variable 3)

J'aimerais faire une ANOVA 4 pour voir quels sont les variables et les interractions qui vont vraiment influencer mes variables mesurées afin de savoir ce que je vais pouvoir moyénner ou pas dans mes graphiques (par exemple si la variété n'a pas d'influence je peux faire la moyenne des 5 variété pour représenter l'influence des traitements sur les variables mesurées). Je ne sais pas comment m'y prendre pour faire celaet interpréter avec R, pourriez-vous m'aider SVP?

J'aimerais aussi faire une matrice de corrélation et également représenter tout ça sur une ACP et faire une cercle de corrélation mais je ne sais pas comment faire.

Sachant que pour le poids des plantes les mesures n'ont pu être réalisées que sur 2 années tandis que pour les autres variables mesurées elles ont été mesurées sur N=3 années, est-ce génant si il y a des "na" pour ces différentes analyses?

Voici ci-dessous mon "fichier exemple", peut-on joindre des PJ aux questions? Merci par avance pour votre aide et vos pistes.
Meilleures salutations.

[list=]Variete traitement periode annee poids_racines taille_racines poids_plantes
var1 t1 3mois an1 3.53 8.52 na
var2 t1 3mois an1 7.73 14.32 na
var3 t1 3mois an1 0.04 0.96 na
var4 t1 3mois an1 1.96 3.4 na
var5 t1 3mois an1 0.42 4.16 na
var1 t2 3mois an1 0.07 0.68 na
var2 t2 3mois an1 0 0 na
var3 t2 3mois an1 0.1 0.16 na
var4 t2 3mois an1 1.3 6.56 na
var5 t2 3mois an1 0.5 0.84 na
var1 t3 3mois an1 0.15 1.4 na
var2 t3 3mois an1 0 0.36 na
var3 t3 3mois an1 4.02 3 na
var4 t3 3mois an1 0.25 1.52 na
var5 t3 3mois an1 1.61 4.92 na
var1 t1 5mois an1 0 0.8 na
var2 t1 5mois an1 0.215 2.62 na
var3 t1 5mois an1 0.495 3.34 na
var4 t1 5mois an1 0.14 1.14 na
var5 t1 5mois an1 0.045 0.84 na
var1 t2 5mois an1 0.94 6.3 na
var2 t2 5mois an1 0.075 1.08 na
var3 t2 5mois an1 0.085 1.14 na
var4 t2 5mois an1 0.09 1.36 na
var5 t2 5mois an1 0.19 1.28 na
var1 t3 5mois an1 0 1.56 na
var2 t3 5mois an1 0 0.6 na
var3 t3 5mois an1 0 0.92 na
var4 t3 5mois an1 18.35 21.24 na
var5 t3 5mois an1 34 14.68 na
var1 t1 3mois an2 9.28 14.24 2.95
var2 t1 3mois an2 4 8.8 2.92
var3 t1 3mois an2 3.78 11.84 2775
var4 t1 3mois an2 0 1 2935.5
var5 t1 3mois an2 0 1 2605
var1 t2 3mois an2 0 0.88 2607
var2 t2 3mois an2 7.58 25.2 2885.5
var3 t2 3mois an2 0.33 2.04 2776
var4 t2 3mois an2 7.34 19.48 2892.5
var5 t2 3mois an2 0.02 1.08 2558
var1 t3 3mois an2 5.845 12.84 3.93
var2 t3 3mois an2 0.44 1.42 4.8
var3 t3 3mois an2 0.07 1.02 3.96
var4 t3 3mois an2 0.045 1.02 3.88
var5 t3 3mois an2 6.315 13.24 3.64
var1 t1 5mois an2 0.475 2.64 3.38
var2 t1 5mois an2 0.9 4.04 3.54
var3 t1 5mois an2 0.025 0.96 3.27
var4 t1 5mois an2 28.97 30.28 2872
var5 t1 5mois an2 36.1 29.84 3774.5
var1 t2 5mois an2 0.76 3.72 4442
var2 t2 5mois an2 0.32 2.32 3663
var3 t2 5mois an2 14.8 19.48 3726.5
var4 t2 5mois an2 21.7 30.92 3516.5
var5 t2 5mois an2 4.36 6.32 4081
var1 t3 5mois an2 2.3 3.72 3718
var2 t3 5mois an2 5.5 13.88 2228
var3 t3 5mois an2 0.05 1.16 1394.5
var4 t3 5mois an2 0 1.04 1997
var5 t3 5mois an2 0 0.6 1608
var1 t1 3mois an3 8.33 17.4 2004
var2 t1 3mois an3 0.31 3.92 1606
var3 t1 3mois an3 8.48 16.88 2166.5
var4 t1 3mois an3 0.01 0.52 1770
var5 t1 3mois an3 8.125 12.5 1.73
var1 t2 3mois an3 0.15 1.74 na
var2 t2 3mois an3 0.015 0.94 2.26
var3 t2 3mois an3 0.065 0.96 1.79
var4 t2 3mois an3 13.69 24.8 2.16
var5 t2 3mois an3 1.165 4.26 1.95
var1 t3 3mois an3 0.905 2.62 2.43
var2 t3 3mois an3 0 0.98 2.08
var3 t3 3mois an3 0.45 2.52 1899
var4 t3 3mois an3 11.34 20.84 1586.5
var5 t3 3mois an3 0.18 1.56 2297
var1 t1 5mois an3 0 0.8 2159.5
var2 t1 5mois an3 18.6 26.8 1818.5
var3 t1 5mois an3 0.01 1.2 2161
var4 t1 5mois an3 0.82 3.8 2120
var5 t1 5mois an3 0 0.04 2280.5
var1 t2 5mois an3 2.33 8.4 2761
var2 t2 5mois an3 0.98 6.24 3094
var3 t2 5mois an3 0 0.92 2797.5
var4 t2 5mois an3 0.01 1.12 2468.5
var5 t2 5mois an3 6.71 16.2 3009.5
var1 t3 5mois an3 0.4 4.96 2793.5
var2 t3 5mois an3 2.83 10.56 2875
var3 t3 5mois an3 0.04 12 2877
var4 t3 5mois an3 1.245 13 2.96
var5 t3 5mois an3 0.5 12 2.87
[/list]

Mickael Canouil
Messages : 1315
Enregistré le : 04 Avr 2011, 08:53
Contact :

Re: Exploration des données / ACP / ANOVA4

Messagepar Mickael Canouil » 03 Juin 2019, 11:04

Bonjour,

pour les questions portant sur R, je vous suggère quelques articles en ligne sur le sujet:
ACP => http://www.sthda.com/french/articles/38 ... -pratique/
analyse de variance => http://www.sthda.com/french/wiki/anova- ... nce-avec-r

Les "NA" ne sont pas gênant en R, mais peuvent l'être dans un test statistique (en dehors des objectifs du forum).

En mode "brute" (sans considération statistique), voici une proposition d'approche globale :

Code : Tout sélectionner

.data <- read.table(
  header = TRUE,
  na.strings = "na",
text = "Variete traitement periode annee poids_racines taille_racines poids_plantes
var1 t1 3mois an1 3.53 8.52 na
var2 t1 3mois an1 7.73 14.32 na
var3 t1 3mois an1 0.04 0.96 na
var4 t1 3mois an1 1.96 3.4 na
var5 t1 3mois an1 0.42 4.16 na
var1 t2 3mois an1 0.07 0.68 na
var2 t2 3mois an1 0 0 na
var3 t2 3mois an1 0.1 0.16 na
var4 t2 3mois an1 1.3 6.56 na
var5 t2 3mois an1 0.5 0.84 na
var1 t3 3mois an1 0.15 1.4 na
var2 t3 3mois an1 0 0.36 na
var3 t3 3mois an1 4.02 3 na
var4 t3 3mois an1 0.25 1.52 na
var5 t3 3mois an1 1.61 4.92 na
var1 t1 5mois an1 0 0.8 na
var2 t1 5mois an1 0.215 2.62 na
var3 t1 5mois an1 0.495 3.34 na
var4 t1 5mois an1 0.14 1.14 na
var5 t1 5mois an1 0.045 0.84 na
var1 t2 5mois an1 0.94 6.3 na
var2 t2 5mois an1 0.075 1.08 na
var3 t2 5mois an1 0.085 1.14 na
var4 t2 5mois an1 0.09 1.36 na
var5 t2 5mois an1 0.19 1.28 na
var1 t3 5mois an1 0 1.56 na
var2 t3 5mois an1 0 0.6 na
var3 t3 5mois an1 0 0.92 na
var4 t3 5mois an1 18.35 21.24 na
var5 t3 5mois an1 34 14.68 na
var1 t1 3mois an2 9.28 14.24 2.95
var2 t1 3mois an2 4 8.8 2.92
var3 t1 3mois an2 3.78 11.84 2775
var4 t1 3mois an2 0 1 2935.5
var5 t1 3mois an2 0 1 2605
var1 t2 3mois an2 0 0.88 2607
var2 t2 3mois an2 7.58 25.2 2885.5
var3 t2 3mois an2 0.33 2.04 2776
var4 t2 3mois an2 7.34 19.48 2892.5
var5 t2 3mois an2 0.02 1.08 2558
var1 t3 3mois an2 5.845 12.84 3.93
var2 t3 3mois an2 0.44 1.42 4.8
var3 t3 3mois an2 0.07 1.02 3.96
var4 t3 3mois an2 0.045 1.02 3.88
var5 t3 3mois an2 6.315 13.24 3.64
var1 t1 5mois an2 0.475 2.64 3.38
var2 t1 5mois an2 0.9 4.04 3.54
var3 t1 5mois an2 0.025 0.96 3.27
var4 t1 5mois an2 28.97 30.28 2872
var5 t1 5mois an2 36.1 29.84 3774.5
var1 t2 5mois an2 0.76 3.72 4442
var2 t2 5mois an2 0.32 2.32 3663
var3 t2 5mois an2 14.8 19.48 3726.5
var4 t2 5mois an2 21.7 30.92 3516.5
var5 t2 5mois an2 4.36 6.32 4081
var1 t3 5mois an2 2.3 3.72 3718
var2 t3 5mois an2 5.5 13.88 2228
var3 t3 5mois an2 0.05 1.16 1394.5
var4 t3 5mois an2 0 1.04 1997
var5 t3 5mois an2 0 0.6 1608
var1 t1 3mois an3 8.33 17.4 2004
var2 t1 3mois an3 0.31 3.92 1606
var3 t1 3mois an3 8.48 16.88 2166.5
var4 t1 3mois an3 0.01 0.52 1770
var5 t1 3mois an3 8.125 12.5 1.73
var1 t2 3mois an3 0.15 1.74 na
var2 t2 3mois an3 0.015 0.94 2.26
var3 t2 3mois an3 0.065 0.96 1.79
var4 t2 3mois an3 13.69 24.8 2.16
var5 t2 3mois an3 1.165 4.26 1.95
var1 t3 3mois an3 0.905 2.62 2.43
var2 t3 3mois an3 0 0.98 2.08
var3 t3 3mois an3 0.45 2.52 1899
var4 t3 3mois an3 11.34 20.84 1586.5
var5 t3 3mois an3 0.18 1.56 2297
var1 t1 5mois an3 0 0.8 2159.5
var2 t1 5mois an3 18.6 26.8 1818.5
var3 t1 5mois an3 0.01 1.2 2161
var4 t1 5mois an3 0.82 3.8 2120
var5 t1 5mois an3 0 0.04 2280.5
var1 t2 5mois an3 2.33 8.4 2761
var2 t2 5mois an3 0.98 6.24 3094
var3 t2 5mois an3 0 0.92 2797.5
var4 t2 5mois an3 0.01 1.12 2468.5
var5 t2 5mois an3 6.71 16.2 3009.5
var1 t3 5mois an3 0.4 4.96 2793.5
var2 t3 5mois an3 2.83 10.56 2875
var3 t3 5mois an3 0.04 12 2877
var4 t3 5mois an3 1.245 13 2.96
var5 t3 5mois an3 0.5 12 2.87")

Code : Tout sélectionner

head(.data)
#>   Variete traitement periode annee poids_racines taille_racines
#> 1    var1         t1   3mois   an1          3.53           8.52
#> 2    var2         t1   3mois   an1          7.73          14.32
#> 3    var3         t1   3mois   an1          0.04           0.96
#> 4    var4         t1   3mois   an1          1.96           3.40
#> 5    var5         t1   3mois   an1          0.42           4.16
#> 6    var1         t2   3mois   an1          0.07           0.68
#>   poids_plantes
#> 1            NA
#> 2            NA
#> 3            NA
#> 4            NA
#> 5            NA
#> 6            NA

Code : Tout sélectionner

library(tidyverse)
.data %>%
  # Regroupe les variables dans le format "tidy" ("long")
  tidyr::gather(key = "measure_name", value = "measure_value", poids_racines, taille_racines, poids_plantes) %>%
  # Découpe "virtuellement" le jeu de donnée selon la variable
  dplyr::group_by(measure_name) %>%
  # applique la fonction aov à chaque "groupe", c.-à-d., à chaque variable dans le cas présent
  dplyr::do(
    broom::tidy(stats::aov(formula = measure_value ~ Variete + traitement + periode + annee, data = .))
  ) %>%
  # Enlève le découpage par variable
  dplyr::ungroup()
#> # A tibble: 15 x 7
#>    measure_name   term          df      sumsq     meansq statistic  p.value
#>    <chr>          <chr>      <dbl>      <dbl>      <dbl>     <dbl>    <dbl>
#>  1 poids_plantes  Variete        4  1150373.    287593.      0.194  0.941 
#>  2 poids_plantes  traitement     2 15294438.   7647219.      5.15   0.00922
#>  3 poids_plantes  periode        1 17647695.  17647695.     11.9    0.00115
#>  4 poids_plantes  annee          1  1884269.   1884269.      1.27   0.265 
#>  5 poids_plantes  Residuals     50 74190171.   1483803.     NA     NA     
#>  6 poids_racines  Variete        4      287.        71.9     1.45   0.226 
#>  7 poids_racines  traitement     2       61.1       30.5     0.616  0.543 
#>  8 poids_racines  periode        1       81.1       81.1     1.63   0.205 
#>  9 poids_racines  annee          2      142.        71.0     1.43   0.245 
#> 10 poids_racines  Residuals     80     3968.        49.6    NA     NA     
#> 11 taille_racines Variete        4      349.        87.3     1.41   0.238 
#> 12 taille_racines traitement     2       39.1       19.5     0.316  0.730 
#> 13 taille_racines periode        1       27.2       27.2     0.440  0.509 
#> 14 taille_racines annee          2      448.       224.      3.62   0.0314
#> 15 taille_racines Residuals     80     4953.        61.9    NA     NA


Cordialement,
Mickaël
mickael.canouil.fr | rlille.fr

margot julien
Messages : 46
Enregistré le : 28 Nov 2017, 12:10

Re: Exploration des données / ACP / ANOVA4

Messagepar margot julien » 05 Juin 2019, 13:01

Bonjour,

je vous remercie pour la réponse. Je vais essayer. Mon facteur variété correpond à ma répétition (random factor), comment intégrer cela sur R?

Et les périodes (3 et 5 mois), correspondent à des dates d'observation différentes dans le temps, est-ce que je peux le considérer comme une variable explicatif ici dans une ANOVA?

Merci pour votre aide.
Meilleures salutations.


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité