Préparation de données
Programme
Dans ce chapitre nous allons voir:
- Comprendre la nécessité et le fonctionnement des différentes étapes de préparation des données
- Savoir appliquer les traitements nécessaires pour préparer vos données, en fonction de votre problème
Apprenez à nettoyer vos données
L'étape de préparation des données est une étape quasi indispensable dans tout processus de traitement de la données. Cette étape commence elle même par une étape de nettoyage des données qui consiste à appliquer des traitements (en général statistiques) pour comprendre les données et éventuellement les transformer pour les rendre exploitables par des méthodes d'analyse.
Les principales étapes de nettoyage des données
Avant de pouvoir appliquer des méthodes d'analyses poussés à vos données, comme des algorithmes de machine learning, vous aurez besoin d'appliquer au préalable quelques étapes indispensables de préparation des données comme la gestion des données manquantes ou dupliquées et la gestion des outliers. Sans ces étapes indispensables, les méthodes d'analyses que vous tenterez d'appliquer à votre data set risquent d'être soient impossibles, soient d'être de mauvaise qualité.
- Commencez par comprendre quelles sont les différents types d'erreurs que vous pouvez rencontrer dans un dataset en lisant cette leçon
- Découvrez ensuite comment gérer les plus courantes de ces erreurs: les valeurs manquantes, les outliers et les doublons en lisant cette leçon
- Optionnel: Afin de comparer différentes méthodes d'imputation, faire varier leur paramètres, et mesurer leur impact sur la performance; vous pouvez consulter cet exemple interactif sur scikit-learn
Application
- Voyez maintenant au travers de ce mini cours de kaggle accompagné d'exercices, comment coder avec python et pandas, les étapes de nettoyage de données évoquées plus haut. Privilgiez en particulier les leçons 1, 2 et 5.
- Pour aller plus loin, vous pouvez également suivre cet exercice pratique qui vous permet d'explorer les capacités des méthodes
dataframe.apply
etdataframe.map
Démo : automatisation de la préparation de données avec data prep
Avec l'évolution de l'écosystème python pour la data science certains paquets python dédiés vous proposent d'automatiser la préparation de vos données. Il peut s'agir d'un bon outil pour vous accompagner dans votre travail, mais en aucun cas le remplacer complètement. Explorons ensemble une démonstration de data prep, un package vous permettant de réaliser facilement certains aspect de la préparation de données
Synthèse
Dans cette leçon, voyons un résumé des différents traitements possibles pour la préparation des données en data science: