Optimisation de formules

Francois Haie · Messagepar **Francois Haie** » 15 Mar 2018, 00:16

Bonjour,

J'ai une question d'ordre général sur le Machine Learning et sur R, mais toute réponse avec des exemples précis est la bienvenue!

J'ai souvent pu lire qu'en général il est relativement aisé d'aboutir à des Accuracy Scores de l'ordre de 70-80%, pour prendre l'exemple des modèles de classification. Ces mêmes articles montrent ensuite qu'avec "du travail" et de l'optimisation il était possible de monter ces Accuracy Scores (très) progressivement jusqu'à 85,90,95%. Ma question est donc : comment augmenter la performance ?

Avec mes lectures et essais personnels j'identifie principalement i) le data cleaning, ii) les étapes de pre-processing, iii) le modèle de ML choisi et iv) le paramétrage. Quels sont les autres moyens pour aboutir à une maximisation de la performance ?

En pratique, à mon niveau de débutant, lorsque je fit des modèles je "tourne en rond" avec toujours plus ou moins la même approche :
- traitement des NAs, outliers, etc. ;
- transformations (scaling, log, sqrt...) ;
- essai de plusieurs modèles et différents paramétrages.

Le problème c'est qu'à part cette procédure, je ne vois pas trop quoi faire si je me retrouve avec un modèle largement insuffisant.
Cela m'est notamment arrivé par le passé avec ce data set de l'UCI Machine Learning Repository https://archive.ics.uci.edu/ml/datasets/Las+Vegas+Strip pour lequel je souhaitais faire une classification binaire de la satisfaction des clients, avec à l'arrivée une matrice de confusion de la régression logistique très décevante.

Là où des Random Forests m'ont très rapidement donné un Accuracy Score de 97% pour de la reconnaissance de lettres à moindre effort sur ce data set : https://archive.ics.uci.edu/ml/datasets ... ecognition .

Les packages sur R rendent les modèles très faciles à fitter, mais au bout du compte je trouve parfois "frustrant" qu'en bout de course tout dépende seulement des quelques arguments à taper dans une formule qui tient sur une ou deux lignes. Avez-vous parfois ce même sentiment où alors j'ai encore beaucoup de choses à apprendre? ;)

Merci à tous !

Groupe des utilisateurs du logiciel R

Optimisation de formules

Optimisation de formules

Qui est en ligne