J'ai besoin d'aide sur une erreur concernant la fonction summary.
On m'a fourni une base de donnée excel contenant des informations sur des patients ayant (ou pas) eu divers types de traitement médicaux après une chirurgie en fonction de s'ils ont récidivé leur pathologie ou pas. J'ai transformé cette base en csv que j'implémente ensuite sur RStudio.
Le tableau (très raccourci) est en gros le suivant
Code : Tout sélectionner
recidive presence_TT_2 TT_2 presence_TT_3 TT_3
5 1 1 OD 1 MP
6 1 1 CG 1 OD
7 1 1 XIEII 0
16 2 1 MP 1 CG
17 1 1 KE 1 MP
19 2 1 KE 1 CG
20 1 1 KE 1 KE
22 1 1 KE 1 RX
25 1 1 KE 1 XIEII
28 3 1 KE 1 CG
Le code reproductible est le suivant
Code : Tout sélectionner
recidive1 <- structure(list(recidive = structure(c(2L, 2L, 2L, 3L, 2L, 3L,
2L, 2L, 2L, 4L), .Label = c("0", "1", "2", "3"), class = "factor"),
presence_TT_2 = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L),
TT_2 = structure(c(6L, 2L, 9L, 5L, 3L, 3L, 3L, 3L, 3L, 3L
), .Label = c("", "CG", "KE", "MIT", "MP", "OD", "RX", "SB",
"XIEII"), class = "factor"), presence_TT_3 = c(1L, 1L, 0L,
1L, 1L, 1L, 1L, 1L, 1L, 1L), TT_3 = structure(c(5L, 7L, 1L,
2L, 5L, 2L, 3L, 8L, 11L, 2L), .Label = c("", "CG", "KE",
"KE + MP", "MP", "MP + MIT", "OD", "RX", "RX + SB", "SB",
"XIEII"), class = "factor")), row.names = c(5L, 6L, 7L, 16L,
17L, 19L, 20L, 22L, 25L, 28L), class = "data.frame")
Lorsque je fais la fonction summary j'ai un erreur car il me mets une colonne 0 sans rien.
Code : Tout sélectionner
summary(recidive1$TT_2)
CG KE MIT MP OD RX SB XIEII
0 1 6 0 1 1 0 0 1
Lorsque je retape moi-même au hasard 10 premières lignes de la base de donnée manuellement, l'erreur disparait !
Code : Tout sélectionner
recidive2 <- structure(list(TT_2 = structure(c(5L, 1L, 7L, 4L, 6L, 7L, 8L,
3L, 3L, 2L, 2L, 2L, 2L, 2L, 2L, 4L, 4L, 8L, 2L, 5L), .Label = c("CG",
"KE", "MIT", "MP", "OD", "RX", "SB", "XIEII"), class = "factor"),
TT_final = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 3L, 2L, 2L,
2L, 2L, 1L, 1L, 2L, 2L, 1L, 3L, 3L, 2L, 1L), .Label = c("SB",
"TM", "XIEII"), class = "factor"), recidive = structure(c(2L,
2L, 3L, 4L, 2L, 3L, 3L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 2L,
2L, 4L, 4L, 4L), .Label = c("0", "1", "2", "3"), class = "factor"),
presence_TT_3 = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 0L, 1L, 1L)), row.names = c(1L,
2L, 4L, 6L, 7L, 8L, 10L, 11L, 12L, 13L, 14L, 15L, 16L, 17L, 18L,
19L, 20L, 21L, 22L, 23L), class = "data.frame")
summary(recidive2$TT_2)
CG KE MIT MP OD RX SB XIEII
1 7 2 3 2 1 2 2
Je ne suis pas très à l'aise avec les structures de code, c'est la première fois que j'utilise dput() pour implémenter du code sur ce forum, mais je vois bien dans la structure de TT_2 du premier cas, il y a un label "" sans rien. Je ne vois pas d'où il peut venir puisqu'il n'y a pas de données manquantes pour cette colonne.
Cela m'embêtes car j'ai 8 colonnes de lignes de traitement à analyser, le tout sur une quarantaine de patient et cela me pose ensuite des problèmes pour générer les barplots puisqu'en faisant barplot(summary(recidive1$TT_2)), il m'affiche un colonne à 0 également...
Avez-vous une idée de ce qu'il peut se passer ?
En vous remerciant d'avance