Skip to content

Découverte du machine learning avec scikit-learn

Programme

Dans ce chapitre nous allons voir:

  • Comment créer une chaine de traitement pour entrainer un algorithme de machine learning
  • Utiliser les arbres de décision dans une tâche de régression
  • Décourvrir le clustering avec K-means
  • Des exercices d'application

Entraînez votre premier modèle en apprentissage supervisé

Maintenant que vous êtes familiers avec la plupart des notions et structures de données en python utiles pour la data science ainsi que les librairies numpy et pandas, nous allons pouvoir entrer dans le vif du sujet en utilisant nos premiers algorithmes de machine learning au travers d'exemples simples avec l'aide de la librairie scikit-learn.

Dans cette partie, vous allez suivre ce mini cours appliqué d'introduction au machine learning sur la plateforme kaggle et apprendre à programmer votre première chaîne de traitement pour entraîner un modèle de régression sur des données d'entraînement.

Suivez le cours jusqu'au bout en faisant les exercices associées. Si vous le pouvez soumettez votre modèle dans le data challenge proposé à la fin du cours et tentez de l'améliorer pour grimper dans le classement

Découvrez votre premier modèle en apprentissage non supervisé

Clustering de données avec K-means

Lecture
  • Commençez à vous intéresser à l'apprentissage non supervisé au travers d'une de ses applications les plus utilisées: le clustering.

  • Ensuite, allez découvrir le fonctionnement d'un des algorithmes de clustering les plus simples, K-means en lisant sa description de sur la page de documentation de scikit-learn.

  • Testez ensuite une implémenation de K-means sur des données artificielles, en utilisant le code fourni dans cet exemple.

Question

  • Observez les résultats obtenus: Combien de clusters pouvez vous intuiter à l'oeil nu dans ces données ? Que pouvez vous en conclure ?
  • Essayez de modifier le réglages de vos hyper-paramètres d'après la documentation de la fonction K-means pour capturer le 'bon' nombre de clusters.
Code
  • Allez plus loin en testant ce code comparant les résultats de différents algorithmes de clustering sur des données artificielles avec des propriétés différentes.

Question

Que pouvez vous en conclure ?

Leçon en autonomie: Coder le machine learning avec Scikit-learn

Afin de pratiquer avec la librairie scikit-learn, suivez les courtes lessons thématiques du cours de Gael Varoquaux, qui vous apprendrons à :