Skip to content

Data challenge d'entraînement

Description du sujet

Vous allez participez, seul ou par équipe de deux, à ce très célèbre data challenge d'entraînement proposé par kaggle. Ce data challenge constitue un très bon exercice pour mettre en application ce que vous avez vu jusqu'ici dans le cours

Vous devrez concevoir un modèle utilisant au moins un algorithme de machine learning pour soumettre vos prédictions et vous classer dans ce challenge.

Vous rédigerez également un cours rapport expliquant votre stratégie et vos analyses dans ce challenge, que vous présenterez à l'oral lors d'une soutenance.

Rendu & évaluations

Notation

Vous serez évalué par deux notes, chacune sur 20 points:

Une note de performance

La première note évaluera votre performance à ce data challenge et sera calculée par une formule, à partir de votre classement par rapport aux participants du challenge (après suppression un pourcentage des participants classé dans les premiers quantiles et les derniers quantiles)

Formule de calcul de la note :

\[ \frac{20}{e^{score_{min}}-e^{score_{max}}}* e^{x} + \frac{20}{1-e^{score_{min} - score_{max}}}\]

avec : \(score_{min}\) et \(score_{max}\) respectivement le score minimum et le score maximum des autres participants au challenge sur le leaderboard

Une note de description de votre stratégie

Cette seconde note qualité des explications concernant votre stratégie à propos des analyses que vous avez faites.

Vous privilégierez les commentaires de résultats (graphiques, scores des métriques d'évaluations, ...) plutôt que le code (sauf dans les cas ou vous le jugerez utile pour un traitement particulier) et résumerez, a minima, vos les paramètres et hyper paramètres de vos différentes itérations dans un tableau que vous commenterez.

Livrables

  • Pour la note de performance: afin de vous identifier dans le classement, vous devez uniquement renseigner l'identifiant kaggle de chaque membre de l'équipe (le TeamMemberUserNames). Votre note sera ensuite calculée automatiquement en fonction de votre score dans le leaderboard.

  • Pour la note concernant les explications de votre stratégie, Vous rendrez un rapport explicatif, sous forme de notebook ou pdf de longueur équivalente à 3 pages maximum (sans compter les annexes dans lesquels insérez vous pourrez insérez les parties volumineuses comme les graphiques par exemple ou du code spécifique).

Vous présenterez également ce rapport par une courte soutenance orale de 10 min + 5 min de questions

Conseils d'analyse & critères d'évaluations:

Voici quelques questions pour vous aider à traiter les points fondamentaux dans votre chaîne de traitement :

  • Quel pré-traitements avez vous utilisé pour préparer votre data set ? Pourquoi ?
  • Quels modèles avez vous utilisés ? Avez vous réalisé une optimisation des paramètres et hyper paramètres via un HalvingGridSearch (ou autres variantes) ?
  • Avez vous examiné le potentiel sur apprentissage de vos modèles avec des courbes d'apprentissages ?
  • Avez vous utilisé des méthodes pour gérer cet éventuel sur apprentissage (utiliser une stratégie cross validation avancée, de la régularisation)
  • Avez vous analysé vos erreurs pour tenter de comprendre quelles observations ou features pourraient être responsable des mauvaises performances ?
  • Pensez à modulariser votre code dans des fonctions ou classe afin de faciliter les itérations de votre chaîne de traitement !

De manière générale, j'attends que vous tentiez d'être concis et précis dans les commentaires et interprétations de vos résultats.

Ressources pour vous aider

Vous trouverez de nombreux conseils méthodologiques sur le menu Discussion du data challenge, mais également dans le menu général des notebooks de kaggle dans lequel beaucoup de participant commentent de manière détaillée leur démarche d'analyse

Bon courage à tous :)