Bonjour,
Je répète mon premier message : dans aes, le x doit être votre variable quantitative, le y étant la prédiction du passage de 0 à 1 pour chaque individu donnée par fitted(model), et fill est votre variable catégorielle. Dans ce cadre là, vous visualisez en fait l'interaction entre la catégorielle et la quantitative. Ceci me semblait être une réponse pertinente à votre demande originelle, ou du moins à ce que je pensais en comprendre... Or, vous avez mis la catégorielle sur x, une constante en y (j'imagine un des coefficients de votre modèle...), et une autre catégorielle pour fill. Il n'y a pas de message d'erreur car ggplot répond à votre demande, c'est celle ci qui est dans les choux...
J'ai l'impression que l'incompréhension est plutôt d'ordre statistique que de R, on va vite glisser vers le hors sujet eu égard aux objectifs de ce forum... Bref, m'est avis que vous devriez potasser qq cours sur la régression logistique. D'ailleurs, jusqu'ici je n'avais pas regardé la sortie du modèle : première remarque, je suis assez surpris de voir que tout est significatif... Ma courte expérience m'incite à penser que c'est le signe d'un modèle mal écrit. De plus, je ne vois aucun test d'interaction entre vos variables... A moins que vous les ayez fait au préalable, il s'agit là d'un impair.
Oui les visualisations que je vous propose correspondent effectivement à regarder les effets un à un, et c'est bien le sens de la sortie du summary : chaque effet est évalué indépendamment dans ce cadre (sauf si vous testez les interactions). Du reste, je ne vois pas comment on pourrait faire ce que vous demandez : visualiser dans un espace à deux dimensions la réponse d'une variable Y en fonction de Ni variables catégorielles et Nj variables quantitatives... Vous comptez mettre quoi en abscisse sur votre graph? Vous avez mis le doigt dessus lors de votre précédent post :
...je n'arrive pas à concevoir comment je peux faire un intervalle de confiance avec "autant" de variables catégorielles..
Sauf que c'est vrai aussi sans chercher à faire des intervalles de confiance et en ne prenant que des quantitatives...
Ce que vous demandera votre mutuelle, je pense, c'est plutôt quelle est le poids de telle ou telle variable sur le nombre de consultations (d'ailleurs, une binomiale me semble bien mal adaptée à une étude pertinente de cela). Ainsi, vous pourrez dire qu'être dans la tranche de 20 à 30 ans augmente de telle valeur la probabilité de passer d'un nombre de consultation faible à élevé par rapport à la tranche 0 à 19 ans, etc. On appelle cela les
odd ratio, et ils se calculent à partir du summary... Intuitivement, c'est déjà un résultat qui permettra d'ajuster les cotisations. Personne ne vous dira comment le faire ici, les questions statistiques sont volontairement exclues de ce forum, allez en voir un de stats pour cela...
Pour obtenir une prédiction (et son intervalle de confiance) grâce à votre modèle complet, il faut encore lui dire pour quelle valeur de chaque paramètre il doit la calculer, ce que vous aviez compris dans votre premier message. C'est effectivement qqch qui intéressera votre mutuelle puisque quand un client se présentera, à la suite d'un questionnaire, vous aurez tous les paramètres pour savoir si il va beaucoup consulter et le faire payer en conséquence. Un conseil cependant, avant de vous lancer là-dedans, vérifiez que votre modèle est bon, je vous recommande le package pROC qui permet de calculer le pouvoir discriminant d'une régression logistique au travers de l'AUC. Certains préfèrent d'autres indicateurs, mais à titre personnel je trouve celui-ci plus informatif et intuitif que les autres... Là encore, à vous de faire des recherches.
Bon courage.
Cordialement.