Présentation d'algorithmes canoniques de Machine Learning

Description du sujet

Dans ce projet, vous constituerez des équipes de deux élèves. Chaque équipe choisira un algorithme de machine learning canonique et le présentera en détail devant la classe.

L'objectif de ce travail est de partager les connaissances que vous aurez acquises à l'ensemble de la classe afin que vous puissiez tous d'apprendre le fonctionnement détaillé des principaux algorithmes de machine learning.

Méthodologie et rendu

Vous présenterez votre travail devant la classe (20 min + 5 min questions) et rendrez un notebook dans lequel vous traiterez les points suivants:

description mathématique et pratique de l'algorithme: comment fonctionne t'il ? quels sont ces paramètres ?
vous dresserez le bilan de ces avantages & inconvénients, des situations dans lesquelles il est préférable ou non de l'utiliser
vous évoquerez des exemples de tâches dans lesquelles il est utilisé
vous ferez une démonstration de son fonctionnement sur au minimum un jeu de donnée simple

Jeu de données

Vous êtes libres d'utiliser les jeux de données que vous souhaitez pour illustrer les points précédents, en fonction de leur pertinence pour votre tâche. Voici quelques sources connues de jeu de données (mais non exhaustives):

Sources

Vous pouvez utilisez n'importe qu'elle sources pour vos recherches mais je vous conseille de vous intéresser en priorité à la documentation de scikit-learn et aux pages anglaises de wikipédia.

Liste des algorithmes

Vous choisirez un algorithme parmi la liste des algorithmes proposés ci-dessous, ou bien vous proposez un algorithme (soumis à validation).

Les algorithmes sont classé en fonction de leur niveau de difficulté subjective: en vert les plus faciles à travailler, en orange les algorithmes de difficulté moyenne , et en rouge les plus difficiles . La notation prendra en compte ce niveau de difficulté, en étant d'autant plus indulgente que l'algorithme choisi sera difficile à présenter.

K-NN (classification et régression)
Les arbres de décision (classification et régression)
K-Means (clustering)
La régression logistique (régression)
La régression Lasso ou Ridge
Le classifieur Naïf Bayesien, ou Naive Bayes (classification)
Les forêts d'arbres aléatoire, ou Random Forest (classification et régression)
la descente de gradient stochastique et ses variantes (optimisation)
Le Grid Search et ses variantes (optimisation)
DBSCAN (clustering)
Le perceptron multicouche (réseau de neurone)
L'Analyse en Composante Principales (ACP) (réduction de dimensionalité)

Notation

Les critères d'évaluation sont les suivants:

précision et rigueur dans les informations présentées
clarté pédagogique du discours

Bon courage !