Sophia : la reconnaissance vocale en vedette

Jean-Pierre Largillet·7 juin 2001·3 min de lecture

Une réunion scientifique fin août à Eurécom pour faire le point sur les méthodes d'adaption à la reconnaissance vocale. Explications d'un spécialiste, le professeur Christian J. Wellekens.

S'il y a beaucoup de réunions de nature technico commerciale sur Sophia Antipolis, les colloques véritablement scientifiques restent rares. Il faut aussi saluer l'initiative du professeur Christian J. Wellekens, de l'Institut Eurécom, qui s'est lancé dans l'organisation les 29 et 30 août à l'Institut Eurécom du work shop de l'ISCA (International Speech Communication Association) sur le thème des "Méthodes d'adaptation à la reconnaissance vocale".

Cette réunion de deux jours, dont le programme final est en cours d'élaboration, réunira des scientifiques du monde entier. Une cinquantaine de contributions seront proposées soit par des chercheurs universitaires soit par des membres de laboratoires de sociétés telles que Nokia, Panasonic, Intel, Apple, Sony, France Telecom, INRIA, Lucent, Nuance, Compaq et Swisscom. Spécialiste de la reconnaissance vocale, et professeur à l'Institut Eurécom, Christian J. Wellekens explique comment fonctionne le processus de reconnaissance vocale et ce qu'apportent les méthodes d'adaptation.

La base de la reconnaissance vocale

"La reconnaissance de la parole moderne est basée sur la construction de modèles statistiques de phonèmes à partir de grandes bases de données contenant de la parole multilocuteur lue ou spontanée. Ces bases sont étiquetées par des linguistes c'est-à-dire que le contenu exact des phrases est connu.

L'entrainement des modèles consiste à estimer leurs paramètres à partir de ces données. Cette phase est très lente et peut demander plus de 30 heures de temps de calcul sur une machine très performante.Une fois les modèles de phonèmes connus, il est possible en utilisant un dictionnaire phonétique de construire un modèle de n'importe quel mot à partir de sa transcription phonétique.

Lors de la reconnaissance, on recherche la suite de modèles de mots qui justifie le mieux le signal de parole prononcé, c'est-à-dire la plus probable compte tenu du signal de parole reçu. La reconnaissance exige des méthodes sophistiquées de programmation pour pouvoir se faire en temps réel. Les taux de reconnaissance sont accrus par l'usage de grammaires qui interdisent n'importe quelle suite de mots. Ils sont détériorés si les prononciations à reconnaitre sont bruitées.

Améliorer les taux de reconnaissance

Enfin la langue, les accents, les canaux de transmission (sur ligne téléphonique ou GSM) affectent très sérieusement les résultats. Afin de les améliorer, on pourrait demander un réentrainement des modèles de phonèmes dans les conditions d'application. Mais non seulement cela exigerait de l'utilisateur la prononciation fastidieuse de nombreuses phrases connues pour l'entrainement et un temps long de réentrainement.

L'adaptation consiste à modifier les paramètres des modèles pour améliorer les taux de reconnaissance en n'utilisant qu'un nombre réduit de phrases ou de mots prononcés par l'utilisateur pour le lequel le taux de reconnaissance deviendra supérieur à celui obtenu avec un reconnaisseur tous-locuteurs."

Renseignements et contacts
- Programme sur le site Web d' Eurécom.
- Professeur Christian J. Wellekens, Tel: +33 (0) 4 93 00 26 28; Département Multimedia Communications Eurécom, Secrétariat :+33 (0) 4 93 00 26 33; Fax: +33 (0) 4 93 00 26 28; e-mail : Christian.Wellekens@eurecom.fr

Newsletter

Restez connecté

Newsletter

Restez connecté

Newsletter

Restez connecté

Sophia : la reconnaissance vocale en vedette

Ne manquez rien

Newsletter

Restez connecté