J'ai effectué une glm avec logit comme fonction de lien afin de déterminer une probabilité de défaut.
J'aobtiens les coefficients ci-après:
Code : Tout sélectionner
predicteurs <- -grep('(Cle|Status)', names(Edwin2))
# formule sans interactions
formule <- as.formula(paste("y ~ ",paste(names(Edwin2[,predicteurs]),collapse="+")))
# formule avec interactions
formule <- as.formula(paste("y ~ ( ",paste(names(Edwin2[,predicteurs]),collapse="+"),")^2"))
formule
# sélection de modèle ascendante
logit <- glm(Status~.,data=train,family=binomial(link = "logit"))
summary(logit)
# recherche maximale
selection <- step(logit,direction="forward",trace=TRUE,k = log(nrow(train)),
scope=list(upper=formule))
selection
summary(selection)
> summary(selection)
Call:
glm(formula = Status ~ Vintage + Employment + DTI + NHG + CLTV,
family = binomial(link = "logit"), data = train)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.4487 -0.1758 -0.1182 -0.0886 3.3930
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.9143 0.7829 -7.554 4.22e-14 ***
Vintage(7,9.5] 0.7296 0.8016 0.910 0.36275
Vintage(9.5,10.5] 0.9792 0.8149 1.202 0.22950
Vintage(10.5,Inf] 0.1614 0.7303 0.221 0.82508
Employment5 0.8912 0.7384 1.207 0.22745
Employment9 -0.4310 0.7400 -0.582 0.56028
DTI(4,4.6] 0.6321 0.3018 2.094 0.03622 *
DTI(4.6,5] 0.2156 0.4204 0.513 0.60815
DTI(5,Inf] 0.7429 0.3535 2.102 0.03557 *
NHG7 0.7927 0.2907 2.727 0.00639 **
CLTV(90,95] 0.8474 0.3566 2.376 0.01750 *
CLTV(95,100] 1.3056 0.3016 4.328 1.50e-05 ***
CLTV(100,Inf] 0.9675 0.4405 2.196 0.02807 *
Je souhaiterais savoir comment réutiliser ces coefficients pour un nouveau jeu de données afin de leur appliquer la regression et calculer la probabilité de défaut des nouvelles données.
Merci beaucoup d'avance.
Cdlt