Je cherche à déterminer la distribution de chaque mot afin de connaitre leur probabilité d'apparition et donc décider si le message est un spam ou non. Pour cela j'ai un data frame contenant un mot par cellule et je voudrais connaitre le nombre d'occurrence de chaque mot (idéalement en fonction des valeurs de "spam"). Sauf que lorsque je cherche à le calculer avec table R me renvoie 0 partout.
Voici un exemple reproductible :
Code : Tout sélectionner
df <- data.frame(spam = c(0,1,1,0),
V1 = c("salut","gagnez","voyance","tu"),
V2 = c("comment","le","gratuite","as"),
V3 = c("tu","nouvelle","appelez","fait"),
V4 = c("vas","iphone","le","le"),
V5 = c("","","2278","projet"))
Unique <- c("salut","comment","tu","vas",
"gagnez","le","nouvelle","iphone",
"voyance","gratuite","appelez","2278",
"as","fait","projet")
table(factor(df[,2:6],levels = as.factor(Unique)))
Est-ce que quelqu'un a une idée pour obtenir le résultat souhaité ?
Cordialement,
Nicolas