Découverte du machine learning avec scikit-learn
Programme
Dans ce chapitre nous allons voir:
- Comment créer une chaine de traitement pour entrainer un algorithme de machine learning
- Utiliser les arbres de décision dans une tâche de régression
- Décourvrir le clustering avec K-means
- Des exercices d'application
Entraînez votre premier modèle en apprentissage supervisé
Maintenant que vous êtes familiers avec la plupart des notions et structures de données en python utiles pour la data science ainsi que les librairies numpy et pandas, nous allons pouvoir entrer dans le vif du sujet en utilisant nos premiers algorithmes de machine learning au travers d'exemples simples avec l'aide de la librairie scikit-learn.
Dans cette partie, vous allez suivre ce mini cours appliqué d'introduction au machine learning sur la plateforme kaggle et apprendre à programmer votre première chaîne de traitement pour entraîner un modèle de régression sur des données d'entraînement.
Suivez le cours jusqu'au bout en faisant les exercices associées. Si vous le pouvez soumettez votre modèle dans le data challenge proposé à la fin du cours et tentez de l'améliorer pour grimper dans le classement
Découvrez votre premier modèle en apprentissage non supervisé
Clustering de données avec K-means
Lecture
-
Commençez à vous intéresser à l'apprentissage non supervisé au travers d'une de ses applications les plus utilisées: le clustering.
-
Ensuite, allez découvrir le fonctionnement d'un des algorithmes de clustering les plus simples, K-means en lisant sa description de sur la page de documentation de scikit-learn.
-
Testez ensuite une implémenation de K-means sur des données artificielles, en utilisant le code fourni dans cet exemple.
Question
- Observez les résultats obtenus: Combien de clusters pouvez vous intuiter à l'oeil nu dans ces données ? Que pouvez vous en conclure ?
- Essayez de modifier le réglages de vos hyper-paramètres d'après la documentation de la fonction K-means pour capturer le 'bon' nombre de clusters.
Code
- Allez plus loin en testant ce code comparant les résultats de différents algorithmes de clustering sur des données artificielles avec des propriétés différentes.
Question
Que pouvez vous en conclure ?
Leçon en autonomie: Coder le machine learning avec Scikit-learn
Afin de pratiquer avec la librairie scikit-learn, suivez les courtes lessons thématiques du cours de Gael Varoquaux, qui vous apprendrons à :
- Charger des données dans scikit-learn
- Appliquer les principaux concepts du machine learning
- Pratiquer un problème de classification avec le très connu data set MNIST
- Pratiquer un problème de régression avec le très connu Boston houses prices
- Mesurer la performance de vos algorithmes en appliquant le principe de validation croisée
- Pratiquer un problème d'apprentissage non supervisé pour la réduction de dimensionalité
- Pratiquer la sélection, validation de paramètres et savoir détecter les situations de sous apprentissage et de sur-apprentissage