Skip to content

Mathématiques pour la data science et le Machine Learning

Programme

Dans cette leçon nous allons voir les un résumé des concepts mathématiques dont vous aurez le plus besoin besoin dans la suite des chapitres de cours. Nous approfondirons parfois certains de ces concepts dans d'autres chapitres, mais je vous invite à approfondir les notions que nous allons voir en consultant d'autres ressources, en particulier dans la section ressources additionnelles.

  • la notion de complexité algorithmique en temps
  • les bases des statistiques descriptives pour la data science
  • les bases (très légères) des probabilités pour la data science
  • des exercices d'application
  • les principaux outils qui nous serviront en algèbre linéaires: vecteurs, espaces vectoriels, matrices, vecteurs propres et valeurs propres
  • le concept d'analyse fonctionnelle et ses principales notions: fonctions, dérivées totales et partielles, différentielle, intégrale

Leçon : la complexité algorithmique et la notation O()

Rendez-vous dans le paragraphe dédié dans la section des Ressources additionnelles

Leçon: Statistiques descriptives & probabilités

Dans cette leçon, nous allons faire un tour d'horizon vulgarisé et minimal des statistiques descriptives et des probabilités


Statistiques & probabilités: leçons détaillées

Si vous souhaitez revoir et approfondir les notions abordées dans la leçon ci-dessus avec plus de détails, vous pouvez suivre pas à pas, les leçons d'Open Classrooms dédiées:

Notions fondamentales de probabilités

Notions fondamentales de statistiques

  • Commencez par nous familiariser avec le vocabulaire et les différents types de statistiques avec ce chapitre du cours d'OpenClassrooms Décrivez et nettoyer votre jeu de données.
  • Découvrez ensuite la notion de distribution empirique . Le terme empirique souligne le fait que l'on étudie ici les distributions d'un point de vue pratique, à partir de données dont nous disposons
  • Continuez avec la notion d'indicateur statistique ...
  • ... ainsi que celle des indicateurs de tendance centrale: moyenne & médiane.
  • Et enfin, voyez en détail (et en formules) les mesures de dispersion.
  • Il existe des indicateurs plus fins que les simples indicateurs de tendance centrale que nous avons vu plus tôt. Par exemple, lorsque ces indicateurs sont identiques, pour deux distributions différentes, vous pouvez faire appel à des indicateurs de formes pour obtenir des informations supplémentaires de votre jeu de données Vous pouvez vous contenter de regarder la vidéo proposée pour vous faire une intuition de ces concepts.
  • N'oubliez pas la notion de corrélation plus familière, mais souvent mal interprétée .
  • Ne terminez pas sans voir comment calculer et interpréter la corrélation entre deux variables .
Pour aller plus loin
  • Pour approfondir les notions abordées dans la leçon et aller plus loin vous pouvez suivre les leçons 10 à 23 de ce cours d'Open Classrooms
  • De manière générale, pour aller plus en profondeur de nombreuses notions mathématiques pour la data science, je vous conseille l'excellente page de cours de Ricco Rakotomalala

Exercices

astuce

Les data set utilisés pour les exercices sont accessibles sur un dossier en ligne à cette adresse.
Pour les charger dans un data frame vous pouvez:
- les télécharger et adapter dans votre code le chemin d'accès
- les importer directement depuis le dossier en ligne en passant son url au keyword argument filepath_or_buffer de pandas.read_csv ou io de pandas.read_excel

Niveau très facile

Exercice 1 : indiçage booleen

Commencez par vous échauffer en explorant un data set concernant des produits grâce en faisant de l'indiçage booleen (boolean indexing)

Niveau facile

Exercice 2: statistiques descriptives

Dans cet exercice, vous apprendrez à calculer des indicateurs statistiques univariés afin de tenter de résumer vos données, sur le data set connu census

Niveau intermédiaire

Exercice 3: distribution de variable et clustering

Dans cet exercice, vous allez analyser la distribution des variable d'un jeu de données très connu, le data set iris, et apprendrez à utiliser une statistique multivariée, la classifcation ascendante hierarchique

Leçon en autonomie: Algèbre linéaire

Dans cette leçon nous allons apprendre les concepts issus de l'algèbre linéaire, qui nous permettront d'appréhender principalement les notions de vecteurs, matrices et espaces vectoriels, notions dont la compréhension sera essentielle pour la suite du cours en machine learning et deep learning.

Nous allons nous baser sur la série de vidéos Essence of linear algebra de la chaîne 3Blue1Brown qui vulgarise formidablement ces concepts ! Je vous recommande fortement de regarder la totalité des 16 vidéos qui la compose , en l'étalant si besoin sur la durée de tout le module du cours de machine learning.

Nous compléterons ces vidéos avec des articles du blog d'Hadrien Jean afin d'approfondir certaines notions et de les expliciter avec du code.

Vous trouverez ci-dessous une sélection des concepts les plus importants à apprendre, prenez bien le temps de les comprendre en détail, nous passerons du temps en synthèse pour les résumer.

Scalaires, vecteurs et matrices

Opérations et transformations avec les vecteurs et matrices

  • Familiarisez vous avec les transformations linéaires applicables aux vecteurs et matrices

  • Appréhendez le concept de changement de base en commençant par cette vidéo et en la complétant par cet article. Le changement de base est concept clé sur lesquel nous nous appuierons pour évoquer, par exemple, la décomposition de matrices et les méthodes de plongements

  • Essayez d'appréhender le concept d'espace vectoriel en regardant cette vidéo il s'agit d'un concept important dont nous rediscuterons plus tard
  • Enfin, attardez vous sur la notion de vecteurs propres et valeurs propres (eigen vectors et eigen values) qui est une notion fondamentale indispensable à maîtriser pour la suite ! Regardez d'abord en regardant cette vidéo et en la complétant par cet article expliquant comment on peut l'appliquer à l'Analyse en Composante Principale
Chapitres pour aller plus loin

Les chapitres ci dessous sont un peu plus avancés et leur connaissance est moins essentielle pour la suite du cours. Néanmoins si vous êtes curieux, il vous permettront d'approfondir vos connaissances générales

Leçon de Synthèse

Dans cette leçon de synthèse, nous allons synthétiser les notions les plus essentielles d'algèbre linéaire pour notre pratique en data science.


Leçon en autonomie: Analyse fonctionnelle & calcul

Dans cette leçon nous allons apprendre les concepts d'analyse et de calcul qui nous permettra d'appréhender en particulier les notions de fonctions, de dérivées totales et partielles, de différenciation. Ce sont des notions importantes car elle servent de briques de base de plusieurs autres concepts ou méthodes mathématiques que nous seront amenés à voir !

Nous allons encore nous appuyer sur des vidéos de la chaîne 3Blue1Brown, mais cette fois ci, nous allons utiliser les vidéos de la série Essence of calculus ! Encore une fois, je vous recommande fortement de regarder la totalité des 12 vidéos qui la compose, en l'étalant si besoin sur la durée de tout le module du cours de machine learning.

sinon, vous trouverez ci-dessous une sélection des concepts à apprendre à minima, prenez bien le temps de les comprendre en détail, nous passerons du temps en synthèse pour les résumer.

  • Familiarisez vous avec les concepts issus de l'analyse avec cette introduction qui vous donnera un aperçu de leur utilité et une mécanique de pensée à adopter pour la suite des notions à voir.

  • Plongez dans les dérivées de fonctions afin de maîtriser leur signification au travers de cette vidéo et en développer une intuition plus fine au travers de cette vidéo

Pour appréhender visuellement l'interprétation des dérivées d'ordre supérieur à 1, vous pouvez éventuellement regarder cette courte vidéo

  • Essayer d'appréhender finement la notion d'intégrale au travers de cette vidéo

  • Enfin, (re)découvrez la notion de systèmes d'équations linéaire et comment elles peuvent être traitées de manière vectorielle, en lisant cet article

Chapitres pour aller plus loin

Les chapitres ci dessous sont un peu plus avancés et/ou leur connaissance est moins essentielle pour la suite du cours. Néanmoins si vous êtes curieux, il vous permettront d'approfondir vos connaissances générales

  • Même si la notion de la limite est assez intuitive, réfléchir à définition précise et détaillée permet de comprendre une manière de raisonnée qui vous sera utile.
  • La décomposition en série de Taylor est très utile dans de nombreux domaines scientifiques pour approximer une fonction

Leçon d'application : Méthodes de plongement (a venir)

  • PCA & SVD
  • manifold learning

à venir :)

Leçon d'application : Méthodes d'optimisation (à venir)

  • Ordinary Least Squared
  • Maximum à Posteriori

Synthèse participative

Dans cette synthèse, nous faisons le point ensemble, au tableau, un récapitulatif des notions importantes pour vérifier que vous les avez bien comprises et vous aider à mieux les assimiler. N'hésitez pas à participer au maximum !

Voici les points que nous allons aborder:

Statistiques & Probabilité

  • Les notions de variables aléatoires et d'échantillonage
  • Les indicateurs statistiques univariés et multi variés
  • La notion de probabilité conditionnelle
  • Comprendre les conséquences du théorème central limite

Algèbre

  • Notion de vecteur et de matrices

  • opérations sur les vecteurs

  • vecteurs colinéaires
  • vecteurs comme combinaison de vecteurs de base
  • les matrices vues comme des transformations linéaires de vecteurs
  • Opérations sur les vecteurs et matrices: produit scalaire et produit matriciel

  • Appliquer une matrice \(A\) sur un vecteur \(v\) donne un vecteur transformé: Attention aux propriétés de non commutativité de ce produit !

  • Bases et espace vectoriel

  • vecteurs de bases: linéairement indépendants
  • Décomposition de matrice en vecteurs propres et valeurs propres

Analyse et calcul

  • Fonctions multi-variées
  • Fonctions linéaires & non-linéaires
  • Dérivées totales, partielles et différentiation
  • Intégrale
  • Formulation d'équation de manière vectorielle