Data challenge d'entraînement
Description du sujet & Consignes
Vous allez participez, par équipe de deux, à ce data challenge d'entraînement proposé par kaggle. Ce data challenge constitue un très bon exercice pour mettre en application ce que vous avez vu jusqu'ici dans le cours associé.
Vous devrez concevoir un modèle utilisant au moins un algorithme de machine learning pour soumettre vos prédictions et vous classer dans ce challenge. Vous rédigerez également un cours rapport expliquant votre stratégie et vos analyses dans ce challenge.
Rendu & évaluations
notation
Vous serez évalué par deux notes, chacune sur 20 points:
- La première note évaluera votre performance à ce data challenge et sera calculée à partir de votre classement par rapport aux participants du challenge (auquel j'aurais supprimé au préalable un pourcentage des participants classé dans les premiers quantiles et les derniers quantiles représentant les performances "extrêmes").
Formule de calcul de la note :
\(\frac{20}{e^{score_{min}}-e^{score_{max}}}* e^{x} + \frac{20}{1-e^{score_{min} - score_{max}}}\)
avec : \(score_{min}\) et \(score_{max}\) respectivement le score minimum et le score maximum des autres participants au challenge sur le leaderboard
- La seconde note évaluera la qualité des explications de votre stratégie et de vos analyses.
critères d'évaluations:
Voici quelques questions qui peuvent vous aider à synthétiser les éléments à mettre dans votre rapport explicatif :
- Comment avez vous organisé votre stratégie pour tenter de maximiser votre classement ?
- Quel pré-traitements avez vous utilisé pour préparer votre data set ? Pourquoi ?
- Quels traitements avez vous faits ? Pourquoi ?
- Quels modèles avez vous utilisés ? Pourquoi donnent ils de bonnes ou mauvaises performances par rapport à d'autres modèles ?
De manière générale, j'attends que vous tentiez d'être concis et précis dans les commentaires et interprétations de vos résultats.
livrables
Pour votre rapport explicatif, vous devrez rendre un pdf de 3 pages maximum (sans compter les annexes dans lesquels insérez vous pourrez insérez les parties volumineuses comme les graphiques par exemple ou du code spécifique). Privilégiez les explications et analyse critique de votre résultats, je n'attends pas nécessairement de code (sauf dans les cas ou vous le jugerez utile pour un traitement particulier pour lequel vous avez du créer du code spécifiquement).
Pour vous faciliter le travail, vous pouvez facilement exporter en pdf le résultats de vos travaux sur vos notebooks.
Ressources pour vous aider
Vous trouverez de nombreux conseils méthodologiques sur le menu Discussion du data challenge, mais également dans le menu général des notebooks de kaggle dans lequel beaucoup de participant commentent de manière détaillée leur démarche d'analyse
Bon courage à tous :)