Dr. Nicolas Rochet

Data Scientist sénior

Qui suis-je ?

La science, les technologies, et plus généralement la connaissance ont le pouvoir de changer le monde !

Je fais de cette maxime un engagement dans l’utilisation de mes compétences pour des projets à portée durablement et quasi incontestablement positif pour l’ensemble du vivant. Quid du piège de l’aveuglement techno-optimisme me direz-vous ? Vous aurez raison : j’essaie d’appliquer les principes d’exigence scientifique et de sobriété technologique pour réaliser des projets et savoir quand il est raisonnable de se passer de technologie ...

Praticien de la Science des Données et de l'IA depuis quelques années, je m’intéresse tout particulièrement à leur applications dans les domaines de l’éthique appliquée à l’IA, l’écologie et la santé.

Si ces quelques lignes vous parlent, discutons et voyons comment je pourrais apporter mes compétences dans vos activités de R&D, de formation ou de conseil.

Langues

Français
Langue natale
Anglais
Niveau courant: Lu, parlé et écrit
Espagnol
Niveau intermédiaire: Lu, parlé et écrit
Esperanto
Niveau débutant

Compétences

Data Science

Python
Expert
Pandas
Expert
Numpy
Expert
Scipy
Expert
Matlab
Expert
R
Intermédiaire
statsmodels
Intermédiaire
SQL
Intermédiaire
PySpark
Initié

Intelligence Artificielle

Machine Learning
Scikit-learn
Expert
Deep Learning
Tensorflow
Expert
PyTorch
Intermédiaire
Traitement du langage
NLTK
Intermédiaire
Gensim
Intermédiaire
Spacy
Initié
IA générative
hugging face
Initié
Mistral AI
Intermédiaire>
Perplexity AI
Intermédiaire>
Claude
Intermédiaire
Ollama
Initié

Visualisation & data storytelling

Statique
Matplotlib
Expert
Seaborn
Expert
Interactive
Plotly (python)
Intermédiaire
Bokeh
Intermédiaire
Gephi
Intermédiaire
D3.js
Initié
Interface graphique
Streamlit
Intermédiaire
HTML5/Bootstrap5/CSS
Intermédiaire

Ingénieurie de données

Monitoring
Mlflow
Intermédiaire
Intégration & déploiement continus (CI/CD)
Git/Github/Gitlab
Expert
Docker
Intermédiaire
FastAPI
Initié
Flask
Initié
Deploiement
Google Cloud Platform
Intermédiaire
Heroku
Initié

Data & IA responsable

Empreinte carbone
Ecologits
Expert
Code carbon
Expert

Data & IA responsable

Redteaming / sécurité des modèles
Promptfoo
Intermédiaire
Giskard AI
Expert

Portfolio (résumé)

Recherche & Développement

J"employe mes compétences scientifiques et techniques et de gestion d'équipes et de projets pour différents types de projets et de structures.
En voici un échantillon que j'espère représentatif :

  • Etat de l'art scientifique et technique pour différents projets en data science & IA
    • Simulations d'interactions de particules dans des détecteurs
      Contexte

      Participation à plusieurs expériences de simulations d'interactions de particules au Laboratoire de Physique Nucléaire des Hautes Energies.

      Methodologie

      Simulation de trajectoires et calcul d'interactions de particules à partir de modèles physiques

      Traitement et fouille de données électro-physiologiques multivariées
      Contexte

      Participation à différents travaux de recherches au sein du Laboratoire de Neurosciences Cognitives

      Données

      Données physiologiques multimodales: électroencéphalographie, électromyographie, comportement chez un grand nombre de sujets

      Methodologie
    • Veille scientifique et technique
    • Participation à la constitution de protocoles expérimentaux et à la mise en place matériel d'acquisition
    • Acquisition de données à haute fréquence d'échantillonnage
    • Pré traitement de données : rejet d'artefact, et exploration des données
    • Application de méthodes de traitement du signal pour le débruitage des données:
        Analyses temps-fréquence, Analyse de Canonique de Corrélation, Analyse en Composante Indépendantes, ...
    • Modélisation statistiques et analyse de résultats
    • Classification d'états cognitifs à partir de différents physiologiques
      Contexte

      Classification d'états de relaxation de sujets plongés dans différentes simulations en réalité virtuelle chez Mind Innovation

      Données

      Données physiologiques multi-modales (EEG, frequence cardiaque, conductance de la peau, respiration) d'une centaine de sujets

      Methodologie

      Modèles de classification en Machine Learning: gradient boosting et LSTM

      Classification de stades épileptiques pour la prédiction de crises
      Contexte

      Classification de périodes ictale et interictale de patients pour la prédiction de crises d'épilepsie et identification des plus petits segments de donnée pour l'identification visuelle de motifs dans le signal.

      Données

      Données élecro encéphalographique (EEG) de surface et interne d'une vingtaine de patients enregistrée en haute fréquence d'échantillonage

      Methodologie

      Modèles de classification en Deep Learning: entrainement de réseaux profond CNN à une dimension et Resnet sur des données segmentées avec des tailles et recouvrement variables.

      Benchmark et tests de modèles de reconnaissance du locuteur sur des données audio
      Contexte

      Direction scientifique d'un projet de R&D chez LICA visant à appliquer la reconnaissance du locuteur en temps réel pendant les réunions d'équipes. J'ai dirigé le benchmark de modèles de machine learning et deep learning à l'état de l'art pour identifier les modèles les plus pertinents et leurs principales faiblesses.

      Données

      Données audio réelles d'une dizaine d'enregistrements de réunions d'équipes en visio-conférence

      Methodologie

    • Nettoyage et annotations des données
    • Veille scientifique et technique pour identifier les modèles à tester. Discussions avec des chercheurs pour conseil
    • Benchmark de performance des modèles sélectionnés et audit de leur comportements
    • Accompagement scientifique d'un projet pour la détection d'arbres
      Contexte

      Direction de deux d'étudiants sur un projet de détection d'arbres pour aider à l'inventaire de la canopée régionale (projet Hack4Nature et Data for good)

      Données

      Données d'images satellites de la région de marseille receuillies par requête avec les APIs de services dédiés (Google Street View et Mapbox)

      Methodologie

    • Annotations des données
    • Veille scientifique pour identifier les solutions existantes
    • Fine tuning du réseau de neurone profond DeepForest
    • Construction d'un logiciel de recommandation d'équivalence de médicament
      Contexte

      Constitution et co-direction d'une équipe pour répondre à un un concours pour la Haute Autorité de Santé pour construire un prototype de logiciel pour assister les pharmaciens dans la recherche d'équivalence de médicaments.

      Données

      Données textuelles semi-structurées scrappées à partir de la base de données publiques de médicaments.

      Methodologie

    • Discussions et définition du projet avec des professionnels de santé et responsable du concours
    • Organisation et suivi des tâches suivant les principes méthodologie agile
    • Scraping et structuration des données
    • Préparation des données suivant les méthodes de traitement du langage naturel: Tokenisation, Lemmatisation, Name Entity Recognition, Vectorisation
    • Entraînement de modèles simples de classification et de word embedding
    • Extraction de données de santé multi-document
      Contexte

      Accompagnement et développement d'algorithmes pour l'extraction d'information dans différents types de documents en respectant une démarche éthique pour l'association Resodys

      Données

      Analyse et extraction préliminaire de différents types de documents (doc, pdf, tableurs,) de données de patients d'un volume d'environ 30Go

      Methodologie

    • Mise en place d'un cadre de travail respectant une approche éthique (hébergement des données dans un cloud chiffré de bout en bout, anoymisation des données, utilisation d'algorithmes uniquement en local)
    • Exploration préalable des données
    • Veille et développement d'algorithmes robustes pour l'extraction d'information
    • Stucturation préliminaire des résultats extraits
    • Développement d'un moteur de prédiction de thématique de vidéos pour la plateforme Tournesol
      Contexte

      Constitution d'une équipe pour la cellule provencale de Data for Good pour développer un moteur de prédiction de thématiques des vidéos présentes dans la base de données de la plateforme Tourneol.

      Données

      Requête via l'api de youtube des transcription automatique des vidéos notées par la communauté de la plateforme Tournesol.

      Methodologie

    • Découpage et gestion des tâches sous gitlab
    • Mise en place d'une chaîne de prétraitement de données
    • entrainement et comparaison d'algorithme de topic modeling

Formation

J'exerce régulièrement en tant que formateur et accompagnateur de projets, pour différentes organisations:

  • (Octobre 2018 - Maintenant) Masters Data Science et Master IA chez Ynov Aix
  • (Mai 2022 - maintenant) Ateliers (Bootcamp) de découverte à la Data Science & l'IA pour Social Builder
  • (Sept 2022 - maintenant) Formation au machine learning pour les personnels de laboratoires et d'entreprises, chez ATP formation
  • (Juillet 2022 - maintenant) DESU data science pour Aix Marseille Université,
  • (2020 - 2023) Bootcamp Data Science et formations en B2B pour Le Wagon Marseille

Management - Conseil - Vulgarisation

    J'emploie mes compétences managériales et de conseil pour des entreprises, associations, collectifs, groupes d'étudiants :

  • Direction scientifique et technique de projets chez adalab
  • Accompagnement à la transition numérique, le traitement et l'éthique de la donnée et de l'IA
  • Encadrement d'équipes chez adalab et data for good provence
  • Co-pilote et gestionnaire de projets pour la cellule provence de Data for Good et de la branche informatique de Super cafoutch
  • Encadrement de stages de licence, masters et d'alternance
  • J'interviens également dans divers évènements:

  • Participant et co-organisateur pour divers hackathons privés et publics
  • Intervenant dans des jurys de projets et de hackathons
  • Intervenant dans différentes conférences et colloques de vulgarisations

Expérience

Lead data scientist & Co-fondateur de Adalab
Janvier 2022 - Maintenant

J'ai co-crée et co-dirige le collectif de data scientists Adalab spécialisé dans la data science & l'intelligence artificielle pour la santé et l'environnement.

Chez Adalab, j'accompagne les clients dans la définition de leur besoin, je forme et constitue les équipes d'experts data, participe à la R&D et assure la gestion des équipes.

Co-fondateur & Président de Data for Good Provence
Juillet 2019 - Maintenant

Data for Good est une communauté de bénévole oeuvrant à développer de projets citoyen d'intérêt général. Initialement basée à Paris, cette communauté se développe dans toute la France.

Je co-dirige la cellule provencale, basée à Marseille, avec laquelle nous animons une communauté d'acteurs locaux (data scientist, organisations) et développons des projets data ouverts à impact positifs.

Data scientist en freelance
Octobre 2020 - Mars 2024
En tant que praticien de la science des données et de l'intelligence artificielle, j'interviens dans des projets de R&D, de formation et de conseil pour différents types d'organisations, avec un focus sur l'éthique de l'IA, l'écologie et la santé.
A titre bénévole, j'emploie mes compétences scientifiques, techniques et organisationnelles au sein de deux collectifs: Data for good provence et le Super cafoutch .
Data scientist & Co-fondateur chez LICA
Mars 2017 - Octobre 2020
J'ai co-crée le Laboratoire d'Intelligence Collective et Artificielle (LICA) afin d'expérimenter une hybridation des méthodes de gouvernance partagée, d'intelligence collective, de science collaborative et de technologies numériques émergentes (science des données, intelligence artificielle, blockchain, ...). J'y ai exercé mes compétences dans le domaine de la direction scientifique de projets, la formation et la vulgarisation scientifique.
Data scientist & Neuroscientifique chez Open Mind Innovation
Septembre 2017 - Septembre 2018
J'ai travaillé principalement à la gestion et l'analyse de données physiologiques humaines (cardiaque, conductance de la peau, cérébrale) provenant simulations en réalité virtuelle sur des tâches gamifiées adaptées d'expériences en neurosciences cognitives
Data scientist en freelance
Mai 2015 - Septembre 2017
J'ai travaillé sur différents projets personnels et professionnels impliquant de la recherche & développement ainsi que du conseil scientifique, principalement sur les thématiques de la santé et la gestion du gaspillage alimentaire.
Chercheur junior au CNRS
Janvier 2010 - Juillet 2014
Chercheur doctorant puis ingénieur de recherche en neurosciences cognitives au pôle 3C (CNRS - Université Aix-Marseille), j'ai travaillé sur les mécanismes de contrôle de l'action et leur lien avec la conscience en utilisant des méthodes d'imagerie cérébrale humaine (électroencéphalographie, magnétoencéphalographie, IRM)

Formation

Doctorat en Neurosciences Cognitives à Université Aix-Marseille
2010 - 2014
Veille scientifique. Analyse de données. Statistiques & modélisation. Imagerie cérébrale. Sciences cognitives. Gestion de projet.
Master de Neuroscience à Université Aix-Marseille
2007 - 2009
Veille scientifique. Design de protocoles experimentaux en sciences cognitives. Analyse de données.
Maîtrise de Physique Fondamentale à Université Paris 7
2007
Physique des particules. Physique quantique. Algèbre. Traitement du signal. Statistiques. Equations différentielles. Systèmes dynamiques.

Contact

Marseille 13005, France
Transfert de style appliqué sur une photo de la plage du prado a Marseille