Skip to content

Projet 2: Analyse de séquences

Description des sujets

Dans ce projet, choisissez entre plusieurs les sujets proposés :

Classification de données audios

Pour ce sujet, votre tâche consiste à construire un modèle capable de classer des séries audio (voix, sons environnement, instruments de musiques, ...) en catégories (type de voix, nature de sons, instruments, ...)

Analyse de sentiment multilingue

Pour ce sujet, votre tâche consiste à construire un modèle capable de classer les sentiments à partir de de données textuelles, au moins sur deux niveaux (positif, négatif) et capable de fonctionner à minima sur des textes sur deux langues différentes.

Reconnaissance automatique du langage

Pour ce sujet, votre tâche consiste à construire un modèle capable d'effectuer une tâche de speech-to-text, à savoir retranscrire automatiquement la parole en texte.

Il s'agit d'une tâche difficile, votre défi va consister à proposer le modèle le plus perfectionné possible dans le temps imparti.

Par exemple:

  • retranscrire des mots clés en texte, en vous inspirant de ce tutoriel de tensorflow
  • plus difficile, retranscrire des phrases complètes, en vous inspirant de méthodes utilisant à la fois CNN et RNN, comme dans cet article

Modèles

Vous êtes libre d'utiliser toutes les méthodes et modèles que vous souhaitez, mais vous devez utiliser au moins un réseau de neurone profond pour répondre au problème

Données

Vous êtes libre d'utiliser le(s) dataset(s) de votre choix qui vous paraissent pertinents pour répondre au problème posé

Rendu & évaluations

livrables

  • Vous devez rendre notebook jupyter exécuté (format.ipynb ou un lien vers un notebook en ligne) exposant vos différentes étapes de traitement, le code utilisé, et vos commentaires et conclusions.
  • Vous devrez rendre un document de présentation (au format web, notebook ou pdf) que vous aurez utilisé pour la soutenance

notation

Vous serez évalué en deux notes de groupes et un note individuelle. La tâche d'identification étant plus difficile, elle rapportera un bonus de points.

notes de groupes

  • une note sur 20 pour le rendu de votre projet
  • une note sur 20 pour votre soutenance

note individuelle

Vous essayerez de découper en fonction de différents rôles, pour lesquelles vous désignerez une personne en charge de :

  • piloter le projet : définir et organiser les tâches à faire, orienter la stratégie des analyses, coordonner les contributions de code (sur le dépot git)
  • la préparation des données (récolte des data set, pré-traitements, augmentation, ...)
  • la modélisation et de l'apprentissage du modèle
  • l'interprétation des résultats obtenus et de formuler des conclusions

Chaque membre du projet choisit un rôle pour lequel il aura un responsabilité privilégiée qui sera évalué par cette note individuelle

critères d'évaluations:

concernant le rendu

  • la pertinence des recherches que vous avez faites pour répondre au problème posé

  • la performance de votre modèle pour résoudre la tâche: suivant une ou plusieurs métriques adaptées, commentez la performance de votre modèle. Pouvez-vous comparer votre performance avec celle rapportée par d'autres data scientist sur ce dataset ?

Analysez et commentez vos erreurs: Dans quel cas le modèle fait il des erreurs ? Pouvez-vous donnez des exemples de cas caractéristiques ? Quels sont les axes d'améliorations que vous pourriez apporter si vous aviez plus de temps ? ...

  • la qualité de vos explications: Quels jeux de données avez vous utilisé ? Quels traitements avez vous faits ? Quels modèles ? ...

J'accorderais une attention particulière à l'interprétation et les conclusions que vous tirerez de vos résultats ! En particulier, les efforts visant à tenter d'expliquer les features apprises par votre classifieur seront récompensés.s

concernant la soutenance

  • la précision et justesse des informations présentées
  • la clarté et la pédagogie de votre soutenance

Ressources pour vous aider

Mots clés

Voici les mots clés qui vous seront utiles dans vos recherches concernant les modèles qui pourraient vous être utiles. - Recurrent Neural Network (RNN) - Long Short Term Memory network (LSTM) - Gated Recurrent Neural network (GRU) - Word embedding - Automatic Speech Recognition

Bon courage à tous !