La reconnaissance vocale

La reconnaissance vocale

Parmi toutes les applications liées au langage, on peut rattacher la reconnaissance vocale à la partie dite de la « perception orale », c’est-à-dire au sens de l’ouïe, tout comme la reconnaissance d’images est rattachée au sens de la vue.

En effet, avant de savoir lire, pour « comprendre » (domaine de l’intelligence), il faut pouvoir « entendre » (« j’entends bien » est d’ailleurs parfois synonymes de « je comprends bien »). L’intelligence digère d’une certaine façon ce qu’elle ingère en amont : via des images ou via des mots. La reconnaissance vocale est donc une pierre angulaire de l’intelligence artificielle.

Les études sur ces technologies remontent au début du XXe siècle. Les premiers résultats concluants sont publiés en 1952 pour aboutir au premier système considéré comme faisant de la reconnaissance vocale. Il permettait d’accélérer le traitement des rapports et des comptes rendus.

Ce n’est d’ailleurs pas surprenant que l’une des premières applications business modernes ait été développée pour digitaliser le vieux principe du dictaphone et de sa prise de notes orales.

Aujourd’hui, les domaines d’applications en sont très vastes. On peut citer la sécurité nationale (renseignements généraux et défense avec les fameuses « écoutes »), le domaine professionnel (dictaphones pour les avocats) et tous ceux qui utilisent au quotidien leur téléphone portable pour prononcer le nom d’un contact afin que l’appareil compose automatiquement le numéro.

Définition

La reconnaissance vocale est un ensemble de techniques informatiques qui analysent la voix humaine à partir d’un microphone pour la retranscrire sous la forme d’un texte exploitable par une machine. Plus simplement, il suffit de parler à son ordinateur ou à son Smartphone pour que l’appareil comprenne les paroles à travers les mots prononcés. Les techniques utilisées se basent sur l’analyse du spectre, les fréquences ou le mouvement des lèvres (dans ce dernier cas, il s’agit de reconnaissance d’images).

L’approche «compositionnelle» utilisée en reconnaissance d’images est aussi valable en reconnaissance vocale. De la même manière qu’un ordinateur peut « additionner » les pixels trouvés dans à une image pour recomposer la moustache d’un chat, on peut recomposer des syllabes à partir de sons, puis des mots et enfin des phrases complètes.

La cousine germaine de la reconnaissance vocale est la synthèse vocale qui permet cette fois non plus de transformer une parole en phrase écrite mais de transformer une phrase écrite en énoncé vocal.

Techniques de reconnaissance vocale

Comment fonctionne la reconnaissance vocale ?

Il existe deux systèmes :

La reconnaissance mono locuteur

C’est une solution qui est généralement stockée en local et qui nécessite d’enregistrer au préalable la voix du user pour que le logiciel s’en serve comme référence. Cette technique s’utilise pour dicter un texte à retranscrire à un dictaphone numérique.

On peut citer par exemple le logiciel Dragon NaturallySpeaking. Ces produits sont plutôt destinés à des usages précis B to B.

Démo du logiciel Dragon Naturally Speaking 11

La reconnaissance multi locuteurs

Ce système fonctionne avec n’importe quelle voix, mais nécessite une connexion internet pour comparer la requête avec une base de données.
Ces produits sont plutôt grand public, pour des commandes simples et dans plusieurs langues. Par exemple, on peut citer la commande à la voix de la XboxOne ou le contrôle du SmartHub des téléviseurs connectés Samsung.

Démo de la commande vocale de la XboxOne

Le principe reste le même : la voix est numérisée et associée à des sons basés dans son lexique, appelé aussi la «grammaire». Le logiciel d’IA reconnaît ensuite les sons, les syllabes, les mots et enfin la phrase pour adresser une requête à un serveur.

Il existe 2 types de lexiques :

  • La grammaire de règles : la phrase est traitée comme un seul ensemble
  • La grammaire statistique : seuls certains mots clefs sont reconnus

L’applicatif SIRI d’Apple combine subtilement les deux grammaires.

A noter : les meilleures systèmes ont des taux d’erreurs de 8 à 12% quand l’homme a un taux d’erreur à 4% (retranscription d’une conversation téléphonique).

Démo Apple iPhone 4S Siri

La marge d’erreurs

Les meilleurs systèmes plafonnent en ce moment à 10% de taux d’erreurs contre 3% pour un être humain. La différence entre l’homme et la machine vient essentiellement de la non désambiguïsation des mots, car le robot ne COMPREND pas ce qui est dit. Seul le mot dans son acception «son» est entendu. Deux mots de même prononciation (homonyme, voire un groupe de mots au(x) sens radicalement différent(s)), peuvent parfois conduire à de curieux quiproquos.

La marge d’erreurs