Préparation de données
Programme
Dans ce chapitre nous allons voir:
- Comprendre la nécessité et le fonctionnement des différentes étapes de préparation des données
- Savoir appliquer les traitements nécessaires pour préparer vos données, en fonction de votre problème
Appendre à nettoyer vos données
L'étape de préparation des données est une étape quasi indispensable dans tout processus de traitement des données. Cette étape commence, elle-même, par une étape de nettoyage des données qui consiste à appliquer des traitements (en général statistiques) pour comprendre les données et éventuellement les transformer pour les rendre exploitables par des méthodes d'analyse.
Les principales étapes de nettoyage des données
Avant de pouvoir appliquer des méthodes d'analyses poussées à vos données, comme des algorithmes de machine learning, vous aurez besoin d'appliquer au préalable quelques étapes indispensables de préparation des données, comme la gestion des données manquantes ou dupliquées et la gestion des outliers. Sans ces étapes indispensables, les méthodes d'analyse que vous tenterez d'appliquer à votre dataset risquent d'être soit impossibles, soit d'être de mauvaise qualité.
- Commencez par comprendre quels sont les différents types d'erreurs que vous pouvez rencontrer dans un dataset en lisant cette leçon
- Découvrez ensuite comment gérer les plus courantes de ces erreurs: les valeurs manquantes, les outliers et les doublons en lisant cette leçon
- Optionnel: Afin de comparer différentes méthodes d'imputation, de faire varier leur paramètres et d'en mesurer leur impact sur la performance; vous pouvez consulter cet exemple interactif sur scikit-learn
Application
- Voyez maintenant, au travers de ce mini cours de kaggle accompagné d'exercices, comment coder avec python et pandas, les étapes de nettoyage de données évoquées plus haut. Privilégiez en particulier les leçons 1, 2 et 5.
- Pour aller plus loin, vous pouvez également suivre cet exercice pratique qui vous permet d'explorer les capacités des méthodes
dataframe.applyetdataframe.map
Démo : automatisation de la préparation de données avec data prep
Avec l'évolution de l'écosystème python pour la data science, certains paquets python dédiés vous proposent d'automatiser la préparation de vos données. Il peut s'agir d'un bon outil pour vous accompagner dans votre travail, mais en aucun cas de le remplacer complètement. Explorons ensemble une démonstration de DataPrep, un package vous permettant de réaliser facilement certains aspects de la préparation de données
Synthèse
Dans cette leçon, voyons un résumé des différents traitements possibles pour la préparation des données en data science: