Sophia : pour que l'ordinateur puisse vous entendre

Jean-Pierre Largillet·27 août 2001·3 min de lecture

Les spécialistes de la reconnaissance vocale réunis les 29 et 30 août au CICA pour le work shop de l'International Speech Communication Association. Les explications du professeur Wellekens.

C'est un thème technologique fort : la reconnaissance vocale. Et les principaux spécialistes mondiaux en la matière seront à Sophia Antipolis, au CICA, les 29 et 30 août pour le work shop de l'ISCA (International Speech Communication Association) qui se fera sur le thème de "Méthodes d'adaptation à la reconnaissance vocale". Ce colloque, organisé par l'institut Eurécom avec le professeur Christian J. Wellekens, a pu réunir des sommités venues du monde entier, car il s'est inscrit juste avant le congrès mondial "Eurospeech" qui a lieu au Danemark du 3 au 7 septembre. Beaucoup de spécialistes feront donc un petit crochet par Sophia avant la grand messe annuelle de la discipline.

Cette réunion de deux jours, permet de regrouper une cinquantaine de contributions, proposées soit par des chercheurs universitaires soit par des membres de laboratoires de sociétés telles que Nokia, Panasonic, Intel, Apple, Sony, France Telecom, INRIA, Lucent, Nuance, Compaq et Swisscom (voir le programme complet sur le site Web d'Eurécom). Spécialiste de la reconnaissance vocale, et professeur à l'Institut Eurécom, Christian J. Wellekens explique comment fonctionne le processus de reconnaissance vocale et ce qu'apportent les méthodes d'adaptation.

La base de la reconnaissance vocale

"La reconnaissance de la parole moderne est basée sur la construction de modèles statistiques de phonèmes à partir de grandes bases de données contenant de la parole multilocuteur lue ou spontanée. Ces bases sont étiquetées par des linguistes c'est-à-dire que le contenu exact des phrases est connu.

L'entrainement des modèles consiste à estimer leurs paramètres à partir de ces données. Cette phase est très lente et peut demander plus de 30 heures de temps de calcul sur une machine très performante.Une fois les modèles de phonèmes connus, il est possible en utilisant un dictionnaire phonétique de construire un modèle de n'importe quel mot à partir de sa transcription phonétique.

Lors de la reconnaissance, on recherche la suite de modèles de mots qui justifie le mieux le signal de parole prononcé, c'est-à-dire la plus probable compte tenu du signal de parole reçu. La reconnaissance exige des méthodes sophistiquées de programmation pour pouvoir se faire en temps réel. Les taux de reconnaissance sont accrus par l'usage de grammaires qui interdisent n'importe quelle suite de mots. Ils sont détériorés si les prononciations à reconnaitre sont bruitées.

Améliorer les taux de reconnaissance

Enfin la langue, les accents, les canaux de transmission (sur ligne téléphonique ou GSM) affectent très sérieusement les résultats. Afin de les améliorer, on pourrait demander un réentrainement des modèles de phonèmes dans les conditions d'application. Mais non seulement cela exigerait de l'utilisateur la prononciation fastidieuse de nombreuses phrases connues pour l'entrainement et un temps long de réentrainement.

L'adaptation consiste à modifier les paramètres des modèles pour améliorer les taux de reconnaissance en n'utilisant qu'un nombre réduit de phrases ou de mots prononcés par l'utilisateur pour le lequel le taux de reconnaissance deviendra supérieur à celui obtenu avec un reconnaisseur tous-locuteurs."

Renseignements et contacts
- Professeur Christian J. Wellekens, Tel: +33 (0) 4 93 00 26 28; Département Multimedia Communications Eurécom, Secrétariat :+33 (0) 4 93 00 26 33; Fax: +33 (0) 4 93 00 26 28; e-mail : Christian.Wellekens@eurecom.fr

Newsletter

Restez connecté

Newsletter

Restez connecté

Newsletter

Restez connecté

Sophia : pour que l'ordinateur puisse vous entendre

Ne manquez rien

Newsletter

Restez connecté