Découverte du machine learning avec scikit-learn

Programme

Dans ce chapitre nous allons voir:

Comment créer une chaine de traitement pour entrainer un algorithme de machine learning
Utiliser les arbres de décision dans une tâche de régression
Décourvrir le clustering avec K-means
Des exercices d'application

Entraînez votre premier modèle en apprentissage supervisé

Maintenant que vous êtes familiers avec la plupart des notions et structures de données en python utiles pour la data science ainsi que les librairies numpy et pandas, nous allons pouvoir entrer dans le vif du sujet en utilisant nos premiers algorithmes de machine learning au travers d'exemples simples avec l'aide de la librairie scikit-learn.

Dans cette partie, vous allez suivre ce mini cours appliqué d'introduction au machine learning sur la plateforme kaggle et apprendre à programmer votre première chaîne de traitement pour entraîner un modèle de régression sur des données d'entraînement.

Suivez le cours jusqu'au bout en faisant les exercices associées. Si vous le pouvez soumettez votre modèle dans le data challenge proposé à la fin du cours et tentez de l'améliorer pour grimper dans le classement

Découvrez votre premier modèle en apprentissage non supervisé

Clustering de données avec K-means

Lecture

Commençez à vous intéresser à l'apprentissage non supervisé au travers d'une de ses applications les plus utilisées: le clustering.
Ensuite, allez découvrir le fonctionnement d'un des algorithmes de clustering les plus simples, K-means en lisant sa description de sur la page de documentation de scikit-learn.
Testez ensuite une implémenation de K-means sur des données artificielles, en utilisant le code fourni dans cet exemple.

Question

Observez les résultats obtenus: Combien de clusters pouvez vous intuiter à l'oeil nu dans ces données ? Que pouvez vous en conclure ?
Essayez de modifier le réglages de vos hyper-paramètres d'après la documentation de la fonction K-means pour capturer le 'bon' nombre de clusters.

Code

Allez plus loin en testant ce code comparant les résultats de différents algorithmes de clustering sur des données artificielles avec des propriétés différentes.

Question

Que pouvez vous en conclure ?

Leçon en autonomie: Coder le machine learning avec Scikit-learn

Afin de pratiquer avec la librairie scikit-learn, suivez les courtes lessons thématiques du cours de Gael Varoquaux, qui vous apprendrons à :

Charger des données dans scikit-learn
Appliquer les principaux concepts du machine learning
Pratiquer un problème de classification avec le très connu data set MNIST
Pratiquer un problème de régression avec le très connu Boston houses prices
Mesurer la performance de vos algorithmes en appliquant le principe de validation croisée
Pratiquer un problème d'apprentissage non supervisé pour la réduction de dimensionalité
Pratiquer la sélection, validation de paramètres et savoir détecter les situations de sous apprentissage et de sur-apprentissage