Analyse de données
Programme
Dans ce chapitre nous allons voir:
- l'intérêt de l'analyse exploratoire de donnée et les méthodes pour la pratiquer
- les étapes génériques d'analyse de données et leur description mathématique
- un aperçu de différents types d'analyses génériques de données
Leçon introductive : Tour d'horizon des méthodes d'analyse de données
Faisons un tour d'horizon plus large des méthodes d'analyse de donnée :
Leçon en autonomie: Analyse exploratoire de données
Introduction
Dans cette leçon, vous allez apprendre les bases de l'art de l'analyse exploratoire de donnée (Exploratory Data Analysis ou EDA). Il s'agit d'une étape très importante de votre chaîne de traitement des données car elle consiste à déployer un ensemble de méthodes mathématiques et de visualisations indispensables pour :
Vérifier la qualité de la préparation de données
La pratique de l'analyse exploratoire, vous permet de vous assurez que la préparation des données réalisées jusqu'ici est qualitative:
- Identifier des erreurs restantes dans les données
- Repérer les éventuelles valeurs aberrantes restantes
- ... revenir sur la préparation de données pour l'affiner si besoin
Comprendre ses données
- Identifier des variables importantes dans les données
- Comprendre les relations entre les variables
- Tester des hypothèses
- Développer de nouvelles connaissances des données
Identifier les méthodes d'analyses ultérieures
Pratique une bonne analyse exploratoire vous permet, avec de l'expérience, d'identifier les méthodes d'analyses (modèles mathématiques, algorithmes, ...) semblent les plus pertinentes pour analyser vos données et répondre au problème que vous vous posez.
C'est en forgeant que l'on devient forgeron.
C'est une étape qui demande à la fois de bonnes connaissance des mathématiques (en particulier les statistiques et probabilités) mais aussi et surtout beaucoup de pratique pour s'en faire une bonne expérience. Je vous conseille de travailler en faisant des allez-retour entre la théorie et la pratique, afin d'affiner progressivement vos analyses
Découvrez les grands principes de l'analyse exploratoire (EDA)
Apprenez les questions à vous poser anisi que les différentes étapes canoniques de l'EDA en lisant ce très bon article que vous pourrez consever comme pense bête dans la suite de votre pratique !
Approfondissez l'art de l'analyse exploratoire de données
Vous allez vous baser sur ce très bon cours d'Open Classroom spécialisé sur ce sujet. Dans l'idéal je vous invite à prendre le temps de suivre ce cours en intégralité car il vous donnera une bonne expérience. Vous pouvez vous organiser pour étalez sur plusieurs séances, en faisant des allez-retour entre avec votre travail sur les projets. A minima, vous devez maîtriser aux moins ces chapitres:
- Comprendre le vocabulaire et les notions de statistiques descriptives pour l'analyse d'une population
- Comprendre le principe de l'analyse multi-dimensionnelle (ou multi variée)
- Connaître deux des grandes familles de méthodes, les méthodes factorielles et les méhodes de clustering
- Vous familiariser avec la notion d'espace vectoriel et ses représentations
- Vous familiariser avec les principes de base de l'Analyse en Composante Principale (ACP), les espaces vectoriels qu'elle fait intervenir, l'interprétation de ses résultats, ainsi que le choix de son nombre de composantes
- Vous familiariser avec les principes théoriques du clustering.
- Vous familiarisez avec K-means un exemple très connu d'algorithme de clustering, apprendre a effectuer une classification hiérarchique et de a appréhender la manière d'interpréter vos partitions
Pour aller plus loin : approfondissez la réduction de dimension et le clustering
Si vous maîtrisez déjà les notions abordées plus haut, vous pouvez compléter votre apprentissage avec les contenus plus complets et plus détaillés ci-dessous:
-
Vous pouvez suivre les premiers chapitres de chaque partie de ce cours dédié aux algorithmes non supervisé sur OpenClassroom. Ne vous inquiétez pas, nous reviendrons en détail sur l'apprentissage non supervisé dans le cours sur le machine learning.
-
Explorez la documentation du framework sckit-learn concernant les principales méthodes de décomposition de variables ainsi que des méthodes de clustering
Pour aller plus loin: méthodes d'analyse exploratoire automatisée
Avec le développement de l'écosystème python, il existe plusieurs packages qui se spécialisent dans l'EDA. Vous pouvez consulter cet article pour vous faire un aperçu de certains d'entre eux : pandas-profiling
, sweetviz
, autoviz
et D-tale
Pour des demos, vous pouvez revoir la demo faite en classe du module data prep ou regarder une demo du module pandas-profiling
Un vivier d'exemples d'analyses exploratoires
L'art de l'EDA ne s'arrête pas aux méthodes d'analyses présentées plus tot. Afin découvrir des méthodes plus avancées, je vous conseille la lecture de cet excellent article qui recense un grand nombre de ressources de qualité provenant de concours en data science.
Démo de synthèse : Exemple d'EDA sur un jeu de données simple
Voir le notebook présenté en cours