W3C : SSML 1.0, nouveau standard de la voix sur le Web

Jean-Pierre Largillet·9 septembre 2004·5 min de lecture

Le Speech Synthesis Markup Language, porté au rang de recommandation consolide le rôle de la voix sur le Web. En améliorant les fonctions de la synthèse de la parole, il ouvre un meilleur accès aux services téléphoniques par l'utilisation de technologies Web.

Une nouvelle recommandation du W3C (Consortium World Wide Web) publiée cette semaine vient consolider le rôle de la voix sur le Web. L'institution de standardisation du Web a ainsi porté au titre de standard le langage de synthèse vocale SSML 1.0 (Speech Synthesis Markup Language). Spécification centrale de la plate-forme Interface Vocale du W3C, SSML 1.0 valorise la voix synthétisée de haute qualité dans les interactions Web. Les applications pour téléphones mobiles et assistant personnels (PDAs), ainsi qu'une multitude de technologies émergentes utilisent SSML 1.0 pour réaliser un contrôle à la fois détaillé et général des aspects importants de la synthèse de la parole tels que prononciation, volume et ton.

Utiliser le téléphone pour interagir avec des services Web

A l'instar des deux autres recommandations publiées par le groupe de travail Navigateur Vocal du W3C (VoiceXML 2.0 et Grammaire de Reconnaissance de la Parole -SRGS), SSML 1.0 est conçue pour s'intégrer avec les autres technologies Web, et est interopérable sur toutes les structures capables de synthétiser des données sur le Web. "J'applaudis les progrès réalisés par le groupe de travail car ils ont rendu possible un meilleur accès aux services téléphoniques par l'utilisation de technologies Web" déclare Tim Berners-Lee, directeur du W3C, qui donnera une conférence plénière au congrès SpeechTEK la semaine prochaine. Il ajoute, "Les sociétés peuvent maintenant offrir un accès Web à leurs clients à la fois par téléphone et à partir d'un ordinateur."

Avec un nombre de lignes téléphoniques et de téléphones portables estimé à plus d'un milliard dans le monde entier, les spécifications de la plate-forme Interface Vocale du W3C vont permettre à un nombre considérable de personnes d'utiliser n'importe quel téléphone pour interagir avec des services Web spécialement conçus, à partir d'un clavier téléphonique, de commandes vocales, d'annonces préenregistrées, et de voix et musiques synthétisées.

Un vocabulaire riche pour une synthèse de parole de bonne qualité

La prononciation est l'un des principaux défis relevé par SSML pour améliorer l'utilisation de la voix sur le Web. Par exemple, comment prononcer « 1/2 » ? Sans contexte supplémentaire, personne ne sait s'il faut dire "une moitié" ou "2 janvier" ou "premier février" ou encore "un sur deux". La spécification SSML 1.0 utilise cet exemple simple pour illustrer les quelques défis survenant lors de la transformation d'un texte général en une conversation synthétisée qui a du sens. Le vocabulaire SSML permet un contrôle de la prononciation de phonèmes, de mots, ou de phrases entières. Ce type de contrôle est nécessaire pour satisfaire les exigences des applications vocales, ainsi que les demandes des éditeurs de dialogues.

"SSML a été développée à partir des travaux réalisés par les pionniers de la synthèse de parole. Elle offre aux développeurs d'applications vocales des moyens à la fois puissants et souples pour créer des applications combinant voix de synthèse de très bonne qualité et annonces préenregistrées," explique Dave Raggett, responsable de l'activité W3C sur les navigateurs vocaux, et ingénieur chez Canon. Il ajoute, "SSML permet à des services fondés sur VoiceXML d'être accessibles à partir de téléscripteurs pour les personnes souffrant d'handicap oral ou auditif. De plus, SSML promet d'autres utilisations au delà de VoiceXML dans des domaines de standardisation futurs tel que l'interaction multimodale. "

Permettre aux personnes souffrant d'handicap auditif d'utiliser des téléscripteurs

Tout comme XHTML, SSML est un langage de balises fondé sur le standard XML. Un document SSML peut être utilisé en soi ou alors être inclus dans un autre document XML de manière à mieux traduire la voix synthétisée. Bien sûr, SSML est particulièrement bien adaptée pour être utilisée dans une application interactive de voix contrôlée par VoiceXML.

SSML 1.0 a été formulée pour s'intégrer dans d'autres applications Web. Le groupe Navigateur Vocal a travaillé étroitement avec les autres groupes du W3C pour s'assurer que la conception de SSML 1.0 soit cohérente avec les principes d'accessibilité, d'internationalisation, et de l'architecture Web en général. De fait, une des applications importantes de SSML est de permettre aux personnes souffrant d'handicap auditif d'utiliser des téléscripteurs, sachant que le même contenu peut aussi être entendu sur un téléphone ordinaire. SSML 1.0 est également compatible avec les autres travaux du W3C sur la prononciation des pages Web avec les feuilles de style (CSS). Le groupe de travail CSS développe actuellement un module de la spécification CSS3 définissant les méthodes de synthèse vocale des documents XML à l'aide du langage SSML.

D'autres langages en cours de finalisation

Les efforts du groupe de travail vont maintenant se porter sur les spécifications restantes de la plate-forme Interface Vocale. "Après VoiceXML 2.0 et la grammaire de reconnaissance de la parole (SRGS), SSML est le troisième langage de la plate-forme Interface Vocale à devenir une recommandation W3C", reprend Jim Larson, responsable chez Intel de l'interaction homme-machine et également responsable du groupe de travail Navigateur Vocal. "Nous finalisons actuellement les autres langages de cette plate-forme tels que VoiceXML 2.1, l'Interprétation Sémantique pour la Reconnaissance de la Parole, et le Contrôle d'Appel de Navigateur Vocal (CCXML). "

Newsletter

Restez connecté

Newsletter

Restez connecté

Newsletter

Restez connecté

W3C : SSML 1.0, nouveau standard de la voix sur le Web

Ne manquez rien

Newsletter

Restez connecté