Skip to content

Projet 1 : Classification d'images & identification d'objets

Description

Dans ce projet, vous avez le choix entre deux sujets:

  • une tâche de classification d'images qui consiste à prédire le label correspondant à l'objet dans l'image  (tâche facile)

  • une tâche d'identification d'objet qui consiste à prédire la bounding box entourant l'objet à identifier dans l'image, en plus de sa classe (tâche plus difficile)

Votre modèle final doit être capable d'avoir de bonnes performances sur deux types de données, au choix:

  • des données concernant la thématique de la santé et de la médecine (par exemple des radios, scanners, ...)
  • des données concernant la thématique de la nature (par exemple des images d'animaux ou de plantes, ...).

Modèles

Vous êtes libre d'utiliser toutes les méthodes et modèles que vous souhaitez, mais vous devez utiliser au moins un réseau de neurone profond pour répondre au problème. Vous êtes encouragés à utiliser des modèles pré-entrainés en utilisant l'apprentissage par transfert et/ou le fine-tuning

Données

Vous êtes libre d'utiliser le(s) dataset(s) de votre choix qui vous paraissent pertinents pour répondre au problème posé

Vous trouverez assez facilement de nombreux dataset d'image pour répondre au problème posé, mais faites attention, ils sont souvent de taille importante (quelques Go à des centaines de Go) !

Je vous conseille de faire attention au temps pour les télécharger et/ou les uploader sur un cloud (en particulier si vous utilisez des ressources de calcul en ligne)

Voici quelques exemples de dataset que vous pourriez utiliser :

Pour la tâche de classification d'image

  • Le très connu dataset CIFAR-10, également disponible par défaut dans les dataset proposé dans les sections dataset de TensorFlow
  • Un dataset sur les maladies des plantes, Plant_leaf_diseases_dataset_with_augmentation
  • le dataset i_naturalist2018, qui est un petit échantillon du dataset i naturalist contient des images d'animaux dans la nature. Ce dataset fait partie de la compétition iWildCam et il sera plus difficile d'avoir de bonnes performances

Pour la classe d'identification d'objets

  • le très connu dataset COCO, qui est la référence pour ce type de tâche

Rendu & évaluations

livrables

  • Vous devez rendre notebook jupyter exécuté (format.ipynb ou un lien vers un notebook en ligne) exposant vos différentes étapes de traitement, le code utilisé, et vos commentaires et conclusions.
  • Vous devrez rendre un document de présentation (au format web, notebook ou pdf) que vous aurez utilisé pour la soutenance

notation

Vous serez évalué en deux notes de groupes et un note individuelle. La tâche d'idetification étant plus difficile, elle rapportera un bonus de points.

notes de groupes

  • une note sur 20 pour le rendu de votre projet
  • une note sur 20 pour votre soutenance

note individuelle

Vous essayerez de découper en fonction de différents rôles, pour lesquelles vous désignerez une personne en charge de :

  • piloter le projet : définir et organiser les tâches à faire, orienter la stratégie des analyses, coordonner les contributions de code (sur le dépot git)
  • la préparation des données (récolte des data set, pré-traitements, augmentation, ...)
  • la modélisation et de l'apprentissage du modèle
  • l'interprétation des résultats obtenus et de formuler des conclusions

Chaque membre du projet choisit un rôle pour lequel il aura un responsabilité privilégiée qui sera évalué par cette note individuelle

critères d'évaluations:

concernant le rendu

  • la performance de votre modèle pour résoudre la tâche: suivant une ou plusieurs métriques adaptées, commentez la performance de votre modèle. Pouvez-vous comparer votre performance avec celle rapportée par d'autres data scientist sur ce dataset ? Analysez et commentez vos erreurs: Dans quel cas le modèle fait il des erreurs ? Pouvez-vous donnez des exemples de cas caractéristiques ? Quels sont les axes d'améliorations que vous pourriez apporter si vous aviez plus de temps ? ...

  • la qualité de vos explications: Quels jeux de données avez vous utilisé ? Quels traitements avez vous faits ? Quels modèles ? ...

J'accorderais une attention particulière à l'interprétation et les conclusions que vous tirerez de vos résultats ! En particulier, les efforts visant à tenter d'expliquer les features apprises par votre classifieur seront récompensés.s

concernant la soutenance

  • la précision et justesse des informationsprésentées
  • la clarté et la pédagogie de votre soutenance

Bon courage à tous !