Bonjour,
J'aimerais avoir votre avis sur des résultats pour une enquête que j'ai eu grâce à R. J'analyse, dans la langue anglaise, la fréquence d'utilisation des pronoms indéfinis : 2 variants, ceux finissants par -body et ceux par -one (someone/somebody, anyone/anybody, everyone/everybody) dans un corpus. Dans ma recherche j'ai inclus, comme facteur pouvant influencer ce choix, le mot suivant le pronom. Grâce à un conditional random forest, j'ai pu voir que ce facteur avait bien une influence. Afin de pouvoir mieux l'étudier, j'ai ajouté un autre facteur dans mon analyse, à savoir "catégorie du mot suivant" avec les 5 propositions suivantes: verbes, noms, adjectifs, adverbes, prépositions. J'ai donc refait le même script et à ma grande surprise, bien que le facteur mot suivant soit toujours présent et significant dans mon conditional random forest, mon nouveau facteur ne l'est pas. Est-ce que quelqu'un aurait une explication? Pourquoi est ce que lorsque je fais des catégories, le facteur n'a pas d'influence alors que le "mot qui suit" en a une ? En réduisant le nombre de possibilités, en passant donc de "mot suivant" à "catégorie du mot suivant", je m'attendais à avoir des résultas montrant une influence encore plus grande (ou du moins égale mais certainement pas pas d'influence du tout!)D'avance un tout grand merci pour vos idées potentielles!