Skip to content

Analyse de données

Programme

Dans ce chapitre nous allons voir:

  • l'intérêt de l'analyse exploratoire de donnée et les méthodes pour la pratiquer
  • les étapes génériques d'analyse de données et leur description mathématique
  • un aperçu de différents types d'analyses génériques de données

Leçon introductive : Tour d'horizon des méthodes d'analyse de données

Faisons un tour d'horizon plus large des méthodes d'analyse de donnée :

Leçon en autonomie: Analyse exploratoire de données

Introduction

Dans cette leçon, vous allez apprendre les bases de l'art de l'analyse exploratoire de donnée (Exploratory Data Analysis ou EDA). Il s'agit d'une étape très importante de votre chaîne de traitement des données car elle consiste à déployer un ensemble de méthodes mathématiques et de visualisations indispensables pour :

Vérifier la qualité de la préparation de données

La pratique de l'analyse exploratoire, vous permet de vous assurez que la préparation des données réalisées jusqu'ici est qualitative:

  • Identifier des erreurs restantes dans les données
  • Repérer les éventuelles valeurs aberrantes restantes
  • ... revenir sur la préparation de données pour l'affiner si besoin

Comprendre ses données

  • Identifier des variables importantes dans les données
  • Comprendre les relations entre les variables
  • Tester des hypothèses
  • Développer de nouvelles connaissances des données

Identifier les méthodes d'analyses ultérieures

Pratique une bonne analyse exploratoire vous permet, avec de l'expérience, d'identifier les méthodes d'analyses (modèles mathématiques, algorithmes, ...) semblent les plus pertinentes pour analyser vos données et répondre au problème que vous vous posez.

C'est en forgeant que l'on devient forgeron.

C'est une étape qui demande à la fois de bonnes connaissance des mathématiques (en particulier les statistiques et probabilités) mais aussi et surtout beaucoup de pratique pour s'en faire une bonne expérience. Je vous conseille de travailler en faisant des allez-retour entre la théorie et la pratique, afin d'affiner progressivement vos analyses

Découvrez les grands principes de l'analyse exploratoire (EDA)

Apprenez les questions à vous poser anisi que les différentes étapes canoniques de l'EDA en lisant ce très bon article que vous pourrez consever comme pense bête dans la suite de votre pratique !

Approfondissez l'art de l'analyse exploratoire de données

Vous allez vous baser sur ce très bon cours d'Open Classroom spécialisé sur ce sujet. Dans l'idéal je vous invite à prendre le temps de suivre ce cours en intégralité car il vous donnera une bonne expérience. Vous pouvez vous organiser pour étalez sur plusieurs séances, en faisant des allez-retour entre avec votre travail sur les projets. A minima, vous devez maîtriser aux moins ces chapitres:

Pour aller plus loin : approfondissez la réduction de dimension et le clustering

Si vous maîtrisez déjà les notions abordées plus haut, vous pouvez compléter votre apprentissage avec les contenus plus complets et plus détaillés ci-dessous:

Pour aller plus loin: méthodes d'analyse exploratoire automatisée

Avec le développement de l'écosystème python, il existe plusieurs packages qui se spécialisent dans l'EDA. Vous pouvez consulter cet article pour vous faire un aperçu de certains d'entre eux : pandas-profiling, sweetviz, autoviz et D-tale
Pour des demos, vous pouvez revoir la demo faite en classe du module data prep ou regarder une demo du module pandas-profiling

Un vivier d'exemples d'analyses exploratoires

L'art de l'EDA ne s'arrête pas aux méthodes d'analyses présentées plus tot. Afin découvrir des méthodes plus avancées, je vous conseille la lecture de cet excellent article qui recense un grand nombre de ressources de qualité provenant de concours en data science.

Démo de synthèse : Exemple d'EDA sur un jeu de données simple

Voir le notebook présenté en cours