Projet : Data storytelling en production sur la pandémie du Covid-19
Description du sujet
Dans ce projet, votre tâche consiste à récolter, structurer et analyser brièvement un jeu de données le plus vaste et varié possible afin de répondre à une des deux problématiques au choix, concernant le covid-19. Vous présenterez à la classe un dashboard, mis en production sous forme de page web résumant, raçontant sous forme de data storytelling, vos analyses et conclusions.
Vous choisirez parmi un des ces deux sujets:
Sujet A: Dresser un état des lieux de l'évolution de la pandémie de Covid-19 dans le monde
Sujet B: Présenter les conséquences de la pandémie de Covid-19 en considérant différents aspects au choix (économique, social, opinions, impact sur le bien être, ...)
Les thématiques proposées sont volontairement très vastes afin que vous puissiez choisir une sujet plus précis dans ces thématiques en fonction des données que vous serez capable de récolter, et les analyses que vous pourrez effectuer à partir de ces données.
**Le défi de ce projet réside dans le fait de récolter des données le plus variées, volumineuses et qualitatives possibles, afin de produire un travail de synthèse le plus complet possible sur le sujet que vous aurez choisi de développer. **
Constitution des équipes
Pour ce travail d'équipe, vous constituerez des groupes de 3 data scientists dans lesquels vous vous répartirez les rôles suivant les trois postes suivants :
- Une personne responsable d'organiser la récolte des données
- Une personne responsable d'organiser la préparation et la structuration des données
- Une personne en charge de l'analyse des données et la communication des résultats
Bien entendu, je vous invite à collaborer le plus possible, vous pouvez travailler à plusieurs sur ces chacun des postes cités, mais nommez une personne qui sera responsable d'organiser cette tâche (organiser des réunions, faire le point des avancées, gérez ou effectuer les tâches à accomplir ... )
Données
Vous êtes libre d'utiliser des données provenant de n'importe quelle source à condition qu'elle soient partagées sous une licence qui autorise son exploitation.
Vous devrez faire en sorte que les données que vous utilisez soient mises à jour dans votre application, dans la mesure du possible.
Rendu & évaluations
livrables
Vous devrez fournir les éléments suivants :
- une
url
sur laquelle est accessible votre dashboard déployé sur un serveur, que vous présenterez lors de la soutenance - un document expliquant votre démarche globale au format
notebook
, unpdf
oupage web
- un lien vers un
dépôt git
bien documenté expliquant en détail le fonctionnement de votre infrastructure
Dans ce document explicatif, vous exposerez le détail du travail effectué pour choisir et récolter les données, les choix que vous avez faits pour les structurer et organiser votre chaîne de traitement, les résultats et interprétations de vos analyses ainsi que la manière dont vous avez structuré votre infrastructure de mise en production.
Vous n'êtes pas limité par la longueur du document à rendre, cependant je vous invite à toujours rester le plus précis et concis possible et à ne pas rentrer dans trop de détails concernant le code et les détails techniques qui concerne les basiques de la data science. Le document est censé s'adresser à une communauté de data scientist.
Soutenance
Chaque groupe présentera son travail à la classe pendant un créneau de 20 min maximum (présentations et questions comprises). Vous mettrez principalement en avant deux aspects:
- le détail des méthodes utiliisée lors du choix des données, de leur structuration, de leur visualisation
- vos analyses et résultats : quelle histoire pouvez vous raconter ?
Notation
Vous serez évalué par trois notes, chacune sur 20 :
- Une note de groupe évaluant la qualité de votre travail de data storytelling
- Une note de groupe évaluant la pertinence de votre infrastructure pour la mise en production.
- Une note de groupe évaluant la qualité de la soutenance orale de votre projet.
Critères d'évaluations:
Pour chacune des deux notes les critères généraux d'évaluation sont les suivants:
-
la variété, la quantité et la qualité des données que vous avez acquises pour le projet: Quelle nature de données différentes avez vous extraites ? Avez vous réussi à acquérir un volume de données conséquent ? Avez examiné la qualité de vos données ?
-
la structuration de vos données: Quelle démarche/outils avez vous mis en place pour structurer vos données ? Comment avez vous organisé votre chaîne de traitement de données ?
-
la qualité de la documentation de votre dépôt git: Comment un utilisateur externe de votre dépôt pourrait il comprendre et utiliser facilement votre projet ?
-
la pertinence de vos analyse et la qualité de vos explications: Quels analyses avez vous faites et pourquoi ? En quoi illustrent elle votre propos ? Avez vous commenté vos résultats ?
-
la qualité de votre data story telling:
A quel point l'utilisateur peut facilement recréer une histoire à partir de votre dashboard ?