Applications vocales sur le Web : de nouveaux standards confirmés par le W3C

Le groupe "Navigateur Vocal" du W3C a terminé son travail sur les spécifications du langage VoiceXML 2.1 et de l’interprétation sémantique pour la reconnaissance de la parole SISR 1.0 ("Semantic Interpretation for Speech Recognition"). Il s'agit là de deux composantes fondamentales de la plate-forme d’interface vocale du W3C. Aujourd’hui, ainsi, le World Wide Web Consortium publie des standards qui étendent les fonctionnalités et l’interopérabilité des navigateurs vocaux et systèmes de reconnaissance vocale. Les témoignages apportés par les entreprises et les organisations révèlent une forte adhésion à ces nouveaux standards, ce qui devrait permettre un nouveau développement des technologies vocales et l'arrivée d'applications innovantes autour entre autre du téléphone.

La possibilité d'applications plus puissantes

Voice XML 2.1 normalise les pratiques d’interopérabilité de l’industrie; VoiceXML 2.1 étend le langage VoiceXML 2.0 largement répandu pour inclure des fonctionnalités couramment implémentées : références dynamiques aux syntaxes et scripts, détection de l’interaction utilisateur au cours d’une annonce vocale et traitement d’ensembles de données multiples depuis le serveur en accès unique. Toutes les applications VoiceXML 2.0 fonctionneront sous VoiceXML 2.1 sans modification aucune, d’où une interopérabilité optimisée.

D'autre part, SISR se charge d'optimiser la conversion entre voix et balises. SISR 1.0, spécification d’interprétation sémantique pour la reconnaissance de la parole permet aux développeurs d’extraire et de traduire des représentations textuelles de mots identifiés par un système de reconnaissance vocale et d’en structurer le résultat dans un format adapté au traitement par une application vocale. Par exemple, avec SISR, il est possible de définir des instructions pour convertir la phrase orale "Je veux voler de Los Angeles à Seattle" en une structure de données contenant "départ : LAX" et "destination : SEA".

Une plate-forme d'interface vocale

La plate-forme d’interface vocale est créée par les acteurs clés internationaux de la recherche et de l’industrie. Le Groupe de travail Navigateur vocal du W3C est composé en effet de chefs de file du développement d’application Web et de la téléphonie, dont France Telecom, Comverse Technology, Deutsche Telecom, Toshiba Corporation, etc.

La plate-forme d’interface vocale du W3C intègre les standards finalisés du langage VoiceXML 2.1, de l'interprétation sémantique pour la reconnaissance de la parole ("Semantic Interpretation for Speech Recognition" en Version 1.0 ou SISR 1.0), de la grammaire de reconnaissance de la parole ("Speech Recognition Grammar Specification 1.0" ou SRGS 1.0) et du langage de synthèse vocale SSML 1.0 ("Speech Synthesis Markup Language 1.0").

Selon les prévisions du W3C, les spécifications CCXML (Contrôle d'appel de navigateur vocal), PLS 1.0 (Lexique de prononciation version 1.0) et SSML 1.1 (Langage de synthèse vocale version 1.1) devraient venir compléter cette plate-forme et devenir des recommandations du W3C. Le Groupe de travail Navigateur vocal s’attache par ailleurs à développer les standards State Chart XML (SCXML) et VoiceXML 3.0.