Skip to content

Projet : Data storytelling en production sur la pandémie du Covid-19

Description du sujet

Dans ce projet, votre tâche consiste à récolter, structurer et analyser brièvement un jeu de données le plus vaste et varié possible afin de répondre à une des deux problématiques au choix, concernant le covid-19. Vous présenterez à la classe un dashboard, mis en production sous forme de page web résumant, raçontant sous forme de data storytelling, vos analyses et conclusions.

Vous choisirez parmi un des ces deux sujets:

Sujet A: Dresser un état des lieux de l'évolution de la pandémie de Covid-19 dans le monde

Sujet B: Présenter les conséquences de la pandémie de Covid-19 en considérant différents aspects au choix (économique, social, opinions, impact sur le bien être, ...)

Les thématiques proposées sont volontairement très vastes afin que vous puissiez choisir une sujet plus précis dans ces thématiques en fonction des données que vous serez capable de récolter, et les analyses que vous pourrez effectuer à partir de ces données.

**Le défi de ce projet réside dans le fait de récolter des données le plus variées, volumineuses et qualitatives possibles, afin de produire un travail de synthèse le plus complet possible sur le sujet que vous aurez choisi de développer. **

Constitution des équipes

Pour ce travail d'équipe, vous constituerez des groupes de 3 data scientists dans lesquels vous vous répartirez les rôles suivant les trois postes suivants :

  • Une personne responsable d'organiser la récolte des données
  • Une personne responsable d'organiser la préparation et la structuration des données
  • Une personne en charge de l'analyse des données et la communication des résultats

Bien entendu, je vous invite à collaborer le plus possible, vous pouvez travailler à plusieurs sur ces chacun des postes cités, mais nommez une personne qui sera responsable d'organiser cette tâche (organiser des réunions, faire le point des avancées, gérez ou effectuer les tâches à accomplir ... )

Données

Vous êtes libre d'utiliser des données provenant de n'importe quelle source à condition qu'elle soient partagées sous une licence qui autorise son exploitation.

Vous devrez faire en sorte que les données que vous utilisez soient mises à jour dans votre application, dans la mesure du possible.

Rendu & évaluations

livrables

Vous devrez fournir les éléments suivants :

  • une url sur laquelle est accessible votre dashboard déployé sur un serveur, que vous présenterez lors de la soutenance
  • un document expliquant votre démarche globale au format notebook, un pdf ou page web
  • un lien vers un dépôt git bien documenté expliquant en détail le fonctionnement de votre infrastructure

Dans ce document explicatif, vous exposerez le détail du travail effectué pour choisir et récolter les données, les choix que vous avez faits pour les structurer et organiser votre chaîne de traitement, les résultats et interprétations de vos analyses ainsi que la manière dont vous avez structuré votre infrastructure de mise en production.

Vous n'êtes pas limité par la longueur du document à rendre, cependant je vous invite à toujours rester le plus précis et concis possible et à ne pas rentrer dans trop de détails concernant le code et les détails techniques qui concerne les basiques de la data science. Le document est censé s'adresser à une communauté de data scientist.

Soutenance

Chaque groupe présentera son travail à la classe pendant un créneau de 20 min maximum (présentations et questions comprises). Vous mettrez principalement en avant deux aspects:

  • le détail des méthodes utiliisée lors du choix des données, de leur structuration, de leur visualisation
  • vos analyses et résultats : quelle histoire pouvez vous raconter ?

Notation

Vous serez évalué par trois notes, chacune sur 20 :

  • Une note de groupe évaluant la qualité de votre travail de data storytelling
  • Une note de groupe évaluant la pertinence de votre infrastructure pour la mise en production.
  • Une note de groupe évaluant la qualité de la soutenance orale de votre projet.

Critères d'évaluations:

Pour chacune des deux notes les critères généraux d'évaluation sont les suivants:

  • la variété, la quantité et la qualité des données que vous avez acquises pour le projet: Quelle nature de données différentes avez vous extraites ? Avez vous réussi à acquérir un volume de données conséquent ? Avez examiné la qualité de vos données ?

  • la structuration de vos données: Quelle démarche/outils avez vous mis en place pour structurer vos données ? Comment avez vous organisé votre chaîne de traitement de données ?

  • la qualité de la documentation de votre dépôt git: Comment un utilisateur externe de votre dépôt pourrait il comprendre et utiliser facilement votre projet ?

  • la pertinence de vos analyse et la qualité de vos explications: Quels analyses avez vous faites et pourquoi ? En quoi illustrent elle votre propos ? Avez vous commenté vos résultats ?

  • la qualité de votre data story telling:

A quel point l'utilisateur peut facilement recréer une histoire à partir de votre dashboard ?

Bon travail à tous