9.3.2 Les sorties 'parole'

9.3.2 Les sorties 'parole'

Les paroles émises par le système peuvent être stockées de façon analogique ou digitale. Authorware permet de produire des sons préenregistrés. C'est également le cas de nombreux logiciels embarqués (voitures, cockpits, photocopieuses, ...). Certains systèmes, par exemple les systèmes qui gèrent les changements de numéros de téléphone, composent un message vocal à partir d'un jeu de mots préenregistrés: "Vous avez formé le 364.33.33 ..." . La construction de messages à partir de morceaux préenregistrés produit des phrases 'heurtées', sans liaison.. Pour composer vraiment un message en cours d'interaction, il faut travailler sur une représentation textuelle, plus manipulable, à partir de laquelle sera produit le message sonore. Cette représentation est d'abord traduite en représentation phonétique, au moyen de règles de transformation ("ph" -> /f/) et de dictionnaires de mots ou de morphèmes. Les éléments de la représentation phonétique sont ensuite regroupés (en phonèmes, diphones, demi-syllabes, syllabes ou mots) afin d'être traduits en sons. Enfin, le système intègre des paramètres propres à la phrase: intonation, ponctuation, ... Ces techniques de synthèse de la parole (génération) sont plus performantes que les techniques d'analyse (reconnaissance). Elles posent cependant encore des problèmes, en particulier pour les liaisons, les intonations, les noms propres, etc. On ne confond pas encore les voix synthétiques avec de véritables humaines.

Le langage oral rend l'ordinateur plus familier. Il permet à l'utilisateur se s'éloigner quelque peu de la machine et de répartir l'activité cognitive sur plusieurs registres, comme expliqué ci-dessus. Toutefois, le langage oral souffre également de certains inconvénients. Le premier concerne les exigences en mémoire: sans compression, une seconde de parole exige entre 80 000 et 160 000 bits alors qu'une chaîne de caractères correspondante n'occupe que 100 bits. Le second inconvénient concerne la vitesse de perception. On écoute environ 120 mots par minute alors qu'on en lit entre 200 et 300 dans le même laps de temps (Streeter, 1988). On arrive à survoler un texte à la vitesse de 1000 mots par minute, alors que la vitesse maximale au-delà de laquelle un discours devient inaudible est de 200 à 300 mots par minute. Le handicap de l'oral sur l'écrit s'accentue encore lorsque la voix du système s'éloigne d'une voix humaine. Enfin, l'usage de messages sonores peut s'avérer ennuyeux. Ces messages qui furent il y a quelques années populaires dans les tableaux de bord de certaines voitures ("Mettez votre ceinture", "La porte est ouverte",...) ont aujourd'hui presque disparus.