Présentation d'algorithmes de Machine Learning
Description du sujet
Dans ce projet chaque élève choisit un algorithme de machine learning qu'il devra présenter en détail devant la classe. L'objectif de ce travail est de partager vos connaissances afin d'apprendre le fonctionnement détaillé de certains algorithmes populaires en machine learning
Méthodologie et rendu
Vous présenterez votre travail devant la classe (20 min + 5 min questions) et rendrez un notebook dans lequel vous traiterez les points suivants:
- description mathématique et pratique de l'algorithme: comment fonctionne t'il ? quels sont ces paramètres ?
- vous dresserez le bilan de ces avantages & inconvénients, des situations dans lesquelles il est préférable ou non de l'utiliser
- vous évoquerez des exemples de tâches dans lesquelles il est utilisé
- vous ferez une démonstration de son fonctionnement appliqué à un jeu de donnée simple
Jeu de données
Vous êtes libres d'utiliser les jeux de données que vous souhaitez pour illustrer les points précédents, en fonction de leur pertinence pour votre tâche. Voici quelques sources connues de jeu de données (mais non exhaustives):
Liste des algorithmes
Vous choisirez un algorithme parmi la liste des algorithmes proposés ci-dessous, ou bien vous proposez un algorithme ( choix soumis à validation).
Les algorithmes sont classé en fonction de leur niveau de difficulté subjective: en vert les plus faciles à travailler, en orange les algorithmes de difficulté moyenne , et en rouge les plus difficiles . La notation prendra en compte ce niveau de difficulté, en étant d'autant plus indulgente que l'algorithme choisi sera difficile à présenter.
- Le classifieur Naïf Bayesien, ou Naive Bayes (classification)
- Les forêts d'arbres aléatoire, ou Random Forest (classification et régression)
- Le Grid Search et ses variantes (optimisation)
- DBSCAN (clustering)
- la descente de gradient stochastique et ses variantes (optimisation)
- Le perceptron multicouche (réseau de neurone)
- L'Analyse Discriminante Linéaire (réduction de dimensionalité supervisée)
- L'Analyse en Composante Principales, ou PCA (réduction de dimensionalité non supervisée)
- L' Analyse en Valeurs Singulière ou SVD (réduction de dimensionalité non supervisée)
- Analyse en Composante Indépendantes ou ICA (réduction de dimensionalité non supervisée)
- La Régression Bayésienne (régression)
- Les Modèles de Mélanges Gaussien, ou Gaussian Mixture Model (clustering)
Notation
Vous aurez une note personnelle évaluée par les critères suivants:
- précision des informations présentées
- clarté pédagogique du discours
Bon courage !