Mathématiques de base pour la data science
Programme
Dans ce chapitre nous allons voir:
- la notion de complexité algorithmique en temps
- les bases des statistiques descriptives pour la data science
- les bases (très légères) des probabilités pour la data science
- des exercices d'application
Attention
Dans les leçons abordées dans ce cours, nous abordons les bases minimales indispensables (qui seront parfois des révisions) pour votre compréhension des mathématiques plus poussées que nous aborderons dans d'autres chapitres. De manière générale, je vous invite à vous former en continu tout au long de ce cours sur les mathématiques fondamentales nécessaires à la bonne pratique de la data science, dont nous n'aborderons pas tous les aspects en détails. Vous pouvez suivre les sections additionnelles de ce chapitre ou consulter la rubrique dédiée de la section des ressources additionnelles pour combler ce manque ;)
Leçon : la complexité algorithmique et la notation O()
Rendez-vous dans le paragraphe dédié dans la section des Ressources additionnelles
Leçon : découverte de quelques principes de l'algèbre linéaire pour l'informatique
Pour cette découverte, nous allons nous contenter de voir les définitions de vecteurs, matrices ainsi que certaines de leur opérations :
-
La définition mathématique et informatique d'un vecteur
-
La définition mathématique et informatique d'une matrice multi-dimensionnelle
Leçon: Statistiques descriptives & probabilités
Dans cette leçon, nous allons faire un tour d'horizon vulgarisé et minimal des statistiques descriptives et des probabilités
Statistiques & probabilités: leçons détaillées
Si vous souhaitez revoir et approfondir les notions abordées dans la leçon ci-dessus avec plus de détails, vous pouvez suivre pas à pas, les leçons d'Open Classrooms dédiées:
Notions fondamentales de probabilités
- Commencez par voir ou revoir en détail la notion de variable aléatoire
- Continuez leur étude en voyant les lois de probabilités pour des variables discrètes et des variables continues
- Pour illustration, prenez quelques minutes pour vous maîtriser la loi normale, qui joue un rôle privilégié dans les probabilités du fait du théorème centrale limite
Notions fondamentales de statistiques
- Commencez par nous familiariser avec le vocabulaire et les différents types de statistiques avec ce chapitre du cours d'OpenClassrooms Décrivez et nettoyer votre jeu de données.
- Découvrez ensuite la notion de distribution empirique . Le terme empirique souligne le fait que l'on étudie ici les distributions d'un point de vue pratique, à partir de données dont nous disposons
- Continuez avec la notion d'indicateur statistique ...
- ... ainsi que celle des indicateurs de tendance centrale: moyenne & médiane.
- Et enfin, voyez en détail (et en formules) les mesures de dispersion.
- Il existe des indicateurs plus fins que les simples indicateurs de tendance centrale que nous avons vu plus tôt. Par exemple, lorsque ces indicateurs sont identiques, pour deux distributions différentes, vous pouvez faire appel à des indicateurs de formes pour obtenir des informations supplémentaires de votre jeu de données Vous pouvez vous contenter de regarder la vidéo proposée pour vous faire une intuition de ces concepts.
- N'oubliez pas la notion de corrélation plus familière, mais souvent mal interprétée .
- Ne terminez pas sans voir comment calculer et interpréter la corrélation entre deux variables .
Pour aller plus loin
Pour approfondir les notions abordées dans la leçon et aller plus loin vous pouvez suivre les leçons 10 à 23 de ce cours d'Open Classrooms
Exercices
astuce
Les data set utilisés pour les exercices sont accessibles sur un dossier en ligne à cette adresse.
Pour les charger dans un data frame vous pouvez:
- les télécharger et adapter dans votre code le chemin d'accès
- les importer directement depuis le dossier en ligne en passant son url au keyword argument filepath_or_buffer
de pandas.read_csv ou io
de pandas.read_excel
Niveau très facile
Exercice 1 : indiçage booleen
Commencez par vous échauffer en explorant un data set concernant des produits grâce en faisant de l'indiçage booleen (boolean indexing)
Niveau facile
Exercice 2: statistiques descriptives
Dans cet exercice, vous apprendrez à calculer des indicateurs statistiques univariés afin de tenter de résumer vos données, sur le data set connu census
Niveau intermédiaire
Exercice 3: distribution de variable et clustering
Dans cet exercice, vous allez analyser la distribution des variable d'un jeu de données très connu, le data set iris, et apprendrez à utiliser une statistique multivariée, la classifcation ascendante hierarchique