Optimisation de formules

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

Francois Haie
Messages : 1
Enregistré le : 09 Fév 2018, 16:30

Optimisation de formules

Messagepar Francois Haie » 15 Mar 2018, 00:16

Bonjour,

J'ai une question d'ordre général sur le Machine Learning et sur R, mais toute réponse avec des exemples précis est la bienvenue!

J'ai souvent pu lire qu'en général il est relativement aisé d'aboutir à des Accuracy Scores de l'ordre de 70-80%, pour prendre l'exemple des modèles de classification. Ces mêmes articles montrent ensuite qu'avec "du travail" et de l'optimisation il était possible de monter ces Accuracy Scores (très) progressivement jusqu'à 85,90,95%. Ma question est donc : comment augmenter la performance ?

Avec mes lectures et essais personnels j'identifie principalement i) le data cleaning, ii) les étapes de pre-processing, iii) le modèle de ML choisi et iv) le paramétrage. Quels sont les autres moyens pour aboutir à une maximisation de la performance ?

En pratique, à mon niveau de débutant, lorsque je fit des modèles je "tourne en rond" avec toujours plus ou moins la même approche :
- traitement des NAs, outliers, etc. ;
- transformations (scaling, log, sqrt...) ;
- essai de plusieurs modèles et différents paramétrages.

Le problème c'est qu'à part cette procédure, je ne vois pas trop quoi faire si je me retrouve avec un modèle largement insuffisant.
Cela m'est notamment arrivé par le passé avec ce data set de l'UCI Machine Learning Repository https://archive.ics.uci.edu/ml/datasets/Las+Vegas+Strip pour lequel je souhaitais faire une classification binaire de la satisfaction des clients, avec à l'arrivée une matrice de confusion de la régression logistique très décevante.

Là où des Random Forests m'ont très rapidement donné un Accuracy Score de 97% pour de la reconnaissance de lettres à moindre effort sur ce data set : https://archive.ics.uci.edu/ml/datasets ... ecognition .

Les packages sur R rendent les modèles très faciles à fitter, mais au bout du compte je trouve parfois "frustrant" qu'en bout de course tout dépende seulement des quelques arguments à taper dans une formule qui tient sur une ou deux lignes. Avez-vous parfois ce même sentiment où alors j'ai encore beaucoup de choses à apprendre? ;)

Merci à tous !

Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Pierre-Nicolas Rey et 1 invité