Skip to content

Mathématiques de base pour la data science

Programme

Dans ce chapitre nous allons voir:

  • la notion de complexité algorithmique en temps
  • les bases des statistiques descriptives pour la data science
  • les bases (très légères) des probabilités pour la data science
  • des exercices d'application
Attention

Dans les leçons abordées dans ce cours, nous abordons les bases minimales indispensables (qui seront parfois des révisions) pour votre compréhension des mathématiques plus poussées que nous aborderons dans d'autres chapitres. De manière générale, je vous invite à vous former en continu tout au long de ce cours sur les mathématiques fondamentales nécessaires à la bonne pratique de la data science, dont nous n'aborderons pas tous les aspects en détails. Vous pouvez suivre les sections additionnelles de ce chapitre ou consulter la rubrique dédiée de la section des ressources additionnelles pour combler ce manque ;)

Leçon : la complexité algorithmique et la notation O()

Rendez-vous dans le paragraphe dédié dans la section des Ressources additionnelles

Leçon : découverte de quelques principes de l'algèbre linéaire pour l'informatique

Pour cette découverte, nous allons nous contenter de voir les définitions de vecteurs, matrices ainsi que certaines de leur opérations :

  • La définition mathématique et informatique d'un vecteur

  • La définition mathématique et informatique d'une matrice multi-dimensionnelle

Leçon: Statistiques descriptives & probabilités

Dans cette leçon, nous allons faire un tour d'horizon vulgarisé et minimal des statistiques descriptives et des probabilités


Statistiques & probabilités: leçons détaillées

Si vous souhaitez revoir et approfondir les notions abordées dans la leçon ci-dessus avec plus de détails, vous pouvez suivre pas à pas, les leçons d'Open Classrooms dédiées:

Notions fondamentales de probabilités

Notions fondamentales de statistiques

  • Commencez par nous familiariser avec le vocabulaire et les différents types de statistiques avec ce chapitre du cours d'OpenClassrooms Décrivez et nettoyer votre jeu de données.
  • Découvrez ensuite la notion de distribution empirique . Le terme empirique souligne le fait que l'on étudie ici les distributions d'un point de vue pratique, à partir de données dont nous disposons
  • Continuez avec la notion d'indicateur statistique ...
  • ... ainsi que celle des indicateurs de tendance centrale: moyenne & médiane.
  • Et enfin, voyez en détail (et en formules) les mesures de dispersion.
  • Il existe des indicateurs plus fins que les simples indicateurs de tendance centrale que nous avons vu plus tôt. Par exemple, lorsque ces indicateurs sont identiques, pour deux distributions différentes, vous pouvez faire appel à des indicateurs de formes pour obtenir des informations supplémentaires de votre jeu de données Vous pouvez vous contenter de regarder la vidéo proposée pour vous faire une intuition de ces concepts.
  • N'oubliez pas la notion de corrélation plus familière, mais souvent mal interprétée .
  • Ne terminez pas sans voir comment calculer et interpréter la corrélation entre deux variables .
Pour aller plus loin

Pour approfondir les notions abordées dans la leçon et aller plus loin vous pouvez suivre les leçons 10 à 23 de ce cours d'Open Classrooms

Exercices

astuce

Les data set utilisés pour les exercices sont accessibles sur un dossier en ligne à cette adresse.
Pour les charger dans un data frame vous pouvez:
- les télécharger et adapter dans votre code le chemin d'accès
- les importer directement depuis le dossier en ligne en passant son url au keyword argument filepath_or_buffer de pandas.read_csv ou io de pandas.read_excel

Niveau très facile

Exercice 1 : indiçage booleen

Commencez par vous échauffer en explorant un data set concernant des produits grâce en faisant de l'indiçage booleen (boolean indexing)

Niveau facile

Exercice 2: statistiques descriptives

Dans cet exercice, vous apprendrez à calculer des indicateurs statistiques univariés afin de tenter de résumer vos données, sur le data set connu census

Niveau intermédiaire

Exercice 3: distribution de variable et clustering

Dans cet exercice, vous allez analyser la distribution des variable d'un jeu de données très connu, le data set iris, et apprendrez à utiliser une statistique multivariée, la classifcation ascendante hierarchique