Introduction au Traitement Automatique de Langage Naturel (TALN) ou NLP
Programme
Dans cette leçon nous allons voir :
- Les principes généraux du TALN
- Le principe de la représentation Bag of Word
- La notion de word embedding
Rappel des fondamentaux du Machine Learning
Dans ce cours, nous allons aborder le TALN sous l'angle quasi exclusif des algorithmes de Machine Learning et Deep Learning, étant donné leur prépondérance de plus en plus grande dans le domaine.
Si nous n'avez pas suivi le cours de Machine Learning
Vous pouvez suivre mon cours sur le Machine Learning et voir en détail en particulier le chapitre 1 (Tour d'horizond des fondamentaux) et le chapitre 5 (Chaîne de traitement)
Leçon: Briève introduction au TALN
Traitement du langage écrit
Le word embedding
Pour traiter, le langage écrit, il faut transformer les données d'entrées afin qu'elle soit exploitables par des modèles de machine learning généralistes, ou des modèles de langages, en utilisant des méthodes de word embedding
l'embedding va consister à encoder vos données textuelles en vecteurs dans un nouvel espace de représentation (en général à haute dimension). L'idée générale est de pouvoir encoder la proximité sémantique dans données d'entrée : des notions proches devraient être encodées par des vecteurs proches dans cet espace.
On distingue principalement 3 granularités d'embedding:
- le word embedding : chaque mot est encodé par un vecteur
- le sentence embedding : chaque phrase est encodée par un vecteur
- le document embedding: chaque document est encodée par un vecteur
La qualité de votre embedding va souvent influencer ves résulats (performances, interprétabilité). Vous pouvez utiliser des benchmark, comme MTEB pour décider de quel embedding utiliser en fonction de votre tâche ou du modèle que vous allez utiliser.
Tutoriels
Voici quelques tutoriels sur différents cas d'usages afin de vous servir de base pour vos travaux:
Cas d'usage : classification de texte
Traitement du langage parlé
Pour le traitement des sons
Dans le domaine du traitement des sons, on travaille souvent sur le contenu fréquentiel d'un signal sonore en transformant le signal en spectrogramme. En particulier, dans les sons d'origine naturelle, on utilise transforme souvent les spectrogramme en utilisant l'échelle Mel et les Mel Frequency Cepstral Coefficients(MFCCs)
Ces prétraitements sont souvent utilisés avec succès en machine learning, dans certaines tâches reliées à la reconnaissance audio, et génèrent des spectrogrammes prenant la forme d'images. Il est donc courant dans ce domaine d'utiliser des CNN plutôt que des RNN.
Tutoriels
Cas d'usages : reconnaissance audio
- le tutoriel pour la reconnaissance de mots clés
- tutoriel pour la classification audio en utilisant la couche de spectrogramme STFTS
- le tutoriel de transfert learning pour la classification de sons provenant de l'environnement
Synthèse
Revoyons ensemble une synthèse de ces principes fondamentaux