Une matrice de taille énorme

Renaud Lancelot · Messagepar **Renaud Lancelot** » 10 Sep 2008, 06:54

Benoît Lamy a écrit :Désolé de ne pas avoir répondu plus tôt (déménagement, tout cela...); merci à tous en tout cas pour votre aide, spécialement à Renaud.

Je reprends, je détaille au maximum.

Une première source dit que le nombre de sinistres théorique suit une loi de Poisson de paramètre jours d'exposition*f(z), z étant l'ensemble des caractéristiques de l'assuré (âge, puissance du véhicule, bonus/malus, etc.).

Il y a un seul paramètre dans la loi de Poisson: la moyenne. Dans une approche de régression, la moyenne dépend de variables explicatives mais le nb de jours d'expo est un facteur "parasite" dont on élimine l'effet avec le terme offset.

Un deuxième document trouvé sur internet dit que le nombre de sinistres d'un assuré suivait plutôt une loi binomiale négative.

Ce sont deux modèles classiques pour traiter ce genre de données, le second étant une extension du premier. Le principe est exactement le même avec la binomiale négative, hormis le fait qu'il y a un second paramètre (de surdispersion) à estimer.

Je créée donc les deux modèles, et vois que ceux-ci s'ajustent mal.

Il faudrait vraiment créer un nouveau fil de discussion car on n'est plus du tout dans le sujet. Je te propose d'exposer le pb avec sorties à l'appui, pour que nous puissions voir où est le pb. Qu'est-ce qui te permet de dire que les modèles ajustent mal les données ?

Je me dis donc: il se peut que les écarts entre la répartition réelle et la répartition théorique prrévue par Poisson d'une part et les écarts entre la répartition réelle et la répartition théorique prévue par la binomiale négative puissent se compenser.

Certainement pas, car les modèles de la moyenne étant identiques dans les deux cas, les écarts seront dans le même sens avec les deux modèles.

Par exemple, si on avait comme répartition réelle de sinistres, 3 (pour la première ligne), 4 (pour la deuxième ligne), et 5 (pour la troisième ligne), comme première répartition théorique, 4, 3, 5, comme deuxième répartition théorique, 5, 3, 4, on aurait donc un modèle collant parfaitement avec Toto=T1-T2+4 (certes, reste à interpréter cette formule et tout et tout).
EN effet, on a bien: 4-5+4=3
3-3+4=4
5-4+4=5

Cf ma rque ci-dessus. Il faut évaluer le pb de mauvaise qualité de l'ajustement. Un graphe simple pour se fixer les idées est le graphe des valeurs prédites en fct des valeurs observées. Il y a aussi les stats globales, style chi2 de Pearson.

La démarche supplémentaire est de voir si les paramètres (dans notre exemple, 1 et -1) dépendent ou non des caractéristiques de chaque assuré.

Je ne comprends vraiment pas. Tu réponds à cette question en ajustant un modèle comportant des variables explicatives. Tu juges de l'importance d'une variable avec un test du rapport des vraisemblances, ou en comparant différents modèles avec et sans la variable, à l'aide de critères d'information comme AIC ou BIC (ou autres).

S'il y a un vrai pb de mauvais ajustement, les deux raisons (non mutuellement exclusives) les plus vraisemblables sont (1) l'existence d'une variable non observée expliquant les différences, ou la mauvaise paramétrisation des variables existantes, et (2) une distribution théorique pas adaptée au pb.

C'est à dire que l'on passe d'un modèle simple Toto=a*T1+b*T2+constante à Toto=f1(z)*T1+f2(z)*T2+constante avec f1 et f2 deux fonctions, et z les caractéristiques de chaque assuré.
La logique sous-jacente est qu'il se peut que pour une certaine classe d'assurés T1 soit bien meilleur que T2, et pour d'autres que ce soit l'inverse. C'est à dire que pour cette première classe, le f1(z) est en valeur absolue grand par rapport à la valeur absolue de f2(z), pour la deuxième, c'est l'inverse. Le problème est: comment modéliser un modèle pareil, où f1=FActeur1_1*alpha1_1+alpha1_2*Facteur1_2+..., où Facteur1_2 désigne la deuxième modalité prise par le facteur 1, facteur 1 qui fait partie des caractéristiques de l'assuré.
C'est là que j'ai eu l'idée avec model.matrix d'avoir deux matrice en zéros et uns, de multiplier la première par le vecteur de valeurs théoriques selon Poisson, la deuxième par le vecteur de valeurs théoriques selon la binomiale négative, et de concaténer le tout.
Il ne reste qu'à faire un simple lm avec le vecteur de vraies valeurs d'un côté et toutes les autres colonnes de l'autre, et j'ai bien: Toto=T1*f1(z)+T2*f2(z)
Et normalement cela devrait être bon.

Tu es dans une impasse. Si les données sont très hétérogènes, il est probablement plus pertinent de faire des analyses séparées sur des sous-ensembles homogènes plutôt que de tenter ce genre de cuisine.

Mais on est vraiment loin (1) du sujet initial (==> faire un autre fil de discussion) et (2) de l'utilisation de R. Il est urgent de recentrer la discussion sur ces deux points.

Renaud

Groupe des utilisateurs du logiciel R

Une matrice de taille énorme

Qui est en ligne