Skip to content

Introduction au Traitement Automatique de Langage Naturel (TALN) ou NLP

Programme

Dans cette leçon nous allons voir :

  • Les principes généraux du TALN
  • Le principe de la représentation Bag of Word
  • La notion de word embedding

Rappel des fondamentaux du Machine Learning

Dans ce cours, nous allons aborder le TALN sous l'angle quasi exclusif des algorithmes de Machine Learning et Deep Learning, étant donné leur prépondérance de plus en plus grande dans le domaine.

Si nous n'avez pas suivi le cours de Machine Learning

Vous pouvez suivre mon cours sur le Machine Learning et voir en détail en particulier le chapitre 1 (Tour d'horizond des fondamentaux) et le chapitre 5 (Chaîne de traitement)

Leçon: Briève introduction au TALN

Traitement du langage écrit

Le word embedding

Pour traiter, le langage écrit, il faut transformer les données d'entrées afin qu'elle soit exploitables par des modèles de machine learning généralistes, ou des modèles de langages, en utilisant des méthodes de word embedding

l'embedding va consister à encoder vos données textuelles en vecteurs dans un nouvel espace de représentation (en général à haute dimension). L'idée générale est de pouvoir encoder la proximité sémantique dans données d'entrée : des notions proches devraient être encodées par des vecteurs proches dans cet espace.

On distingue principalement 3 granularités d'embedding:
- le word embedding : chaque mot est encodé par un vecteur
- le sentence embedding : chaque phrase est encodée par un vecteur
- le document embedding: chaque document est encodée par un vecteur

La qualité de votre embedding va souvent influencer ves résulats (performances, interprétabilité). Vous pouvez utiliser des benchmark, comme MTEB pour décider de quel embedding utiliser en fonction de votre tâche ou du modèle que vous allez utiliser.

Tutoriels

Voici quelques tutoriels sur différents cas d'usages afin de vous servir de base pour vos travaux:

Cas d'usage : classification de texte

Traitement du langage parlé

Pour le traitement des sons

Dans le domaine du traitement des sons, on travaille souvent sur le contenu fréquentiel d'un signal sonore en transformant le signal en spectrogramme. En particulier, dans les sons d'origine naturelle, on utilise transforme souvent les spectrogramme en utilisant l'échelle Mel et les Mel Frequency Cepstral Coefficients(MFCCs)

Ces prétraitements sont souvent utilisés avec succès en machine learning, dans certaines tâches reliées à la reconnaissance audio, et génèrent des spectrogrammes prenant la forme d'images. Il est donc courant dans ce domaine d'utiliser des CNN plutôt que des RNN.

Tutoriels

Cas d'usages : reconnaissance audio

Synthèse

Revoyons ensemble une synthèse de ces principes fondamentaux