Introduction au Traitement Automatique de Langage Naturel (TALN) ou NLP

Programme

Dans cette leçon nous allons voir :

Les principes généraux du TALN
Le principe de la représentation Bag of Word
La notion de word embedding

Rappel des fondamentaux du Machine Learning

Dans ce cours, nous allons aborder le TALN sous l'angle quasi exclusif des algorithmes de Machine Learning et Deep Learning, étant donné leur prépondérance de plus en plus grande dans le domaine.

Si nous n'avez pas suivi le cours de Machine Learning

Vous pouvez suivre mon cours sur le Machine Learning et voir en détail en particulier le chapitre 1 (Tour d'horizond des fondamentaux) et le chapitre 5 (Chaîne de traitement)

Leçon: Briève introduction au TALN

Traitement du langage écrit

Le word embedding

Pour traiter, le langage écrit, il faut transformer les données d'entrées afin qu'elle soit exploitables par des modèles de machine learning généralistes, ou des modèles de langages, en utilisant des méthodes de word embedding

l'embedding va consister à encoder vos données textuelles en vecteurs dans un nouvel espace de représentation (en général à haute dimension). L'idée générale est de pouvoir encoder la proximité sémantique dans données d'entrée : des notions proches devraient être encodées par des vecteurs proches dans cet espace.

On distingue principalement 3 granularités d'embedding:
- le word embedding : chaque mot est encodé par un vecteur
- le sentence embedding : chaque phrase est encodée par un vecteur
- le document embedding: chaque document est encodée par un vecteur

La qualité de votre embedding va souvent influencer ves résulats (performances, interprétabilité). Vous pouvez utiliser des benchmark, comme MTEB pour décider de quel embedding utiliser en fonction de votre tâche ou du modèle que vous allez utiliser.

Tutoriels

Voici quelques tutoriels sur différents cas d'usages afin de vous servir de base pour vos travaux:

Cas d'usage : classification de texte

Tutoriel de tensorflow sur les word embedding
le tutoriel pour la classification de texte avec un RNN
le tutoriel pour l'analyse de sentiment en utilisant l'apprentissage par transfert avec le transformer BERT

Traitement du langage parlé

Pour le traitement des sons

Dans le domaine du traitement des sons, on travaille souvent sur le contenu fréquentiel d'un signal sonore en transformant le signal en spectrogramme. En particulier, dans les sons d'origine naturelle, on utilise transforme souvent les spectrogramme en utilisant l'échelle Mel et les Mel Frequency Cepstral Coefficients(MFCCs)

Ces prétraitements sont souvent utilisés avec succès en machine learning, dans certaines tâches reliées à la reconnaissance audio, et génèrent des spectrogrammes prenant la forme d'images. Il est donc courant dans ce domaine d'utiliser des CNN plutôt que des RNN.

Tutoriels

Cas d'usages : reconnaissance audio

le tutoriel pour la reconnaissance de mots clés
tutoriel pour la classification audio en utilisant la couche de spectrogramme STFTS
le tutoriel de transfert learning pour la classification de sons provenant de l'environnement

Synthèse

Revoyons ensemble une synthèse de ces principes fondamentaux