9.3.2 Les sorties 'parole'
Les paroles émises par le système peuvent être
stockées de façon analogique ou digitale. Authorware permet de
produire des sons préenregistrés. C'est également le cas
de nombreux logiciels embarqués (voitures, cockpits, photocopieuses,
...). Certains systèmes, par exemple les systèmes qui
gèrent les changements de numéros de téléphone,
composent un message vocal à partir d'un jeu de mots
préenregistrés: "Vous avez formé le 364.33.33 ..." . La
construction de messages à partir de morceaux
préenregistrés produit des phrases 'heurtées', sans
liaison.. Pour composer vraiment un message en cours d'interaction, il faut
travailler sur une représentation textuelle, plus manipulable, à
partir de laquelle sera produit le message sonore. Cette représentation
est d'abord traduite en représentation phonétique, au moyen de
règles de transformation ("ph" -> /f/) et de dictionnaires de mots ou
de morphèmes. Les éléments de la représentation
phonétique sont ensuite regroupés (en phonèmes, diphones,
demi-syllabes, syllabes ou mots) afin d'être traduits en sons. Enfin, le
système intègre des paramètres propres à la phrase:
intonation, ponctuation, ... Ces techniques de synthèse de la
parole (génération) sont plus performantes que les techniques
d'analyse (reconnaissance). Elles posent cependant encore des problèmes,
en particulier pour les liaisons, les intonations, les noms propres, etc. On ne
confond pas encore les voix synthétiques avec de véritables
humaines.
Le langage oral rend l'ordinateur plus familier. Il permet à
l'utilisateur se s'éloigner quelque peu de la machine et de
répartir l'activité cognitive sur plusieurs registres, comme
expliqué ci-dessus. Toutefois, le langage oral souffre également
de certains inconvénients. Le premier concerne les exigences en
mémoire: sans compression, une seconde de parole exige entre 80 000 et
160 000 bits alors qu'une chaîne de caractères correspondante
n'occupe que 100 bits. Le second inconvénient concerne la vitesse de
perception. On écoute environ 120 mots par minute alors qu'on en lit
entre 200 et 300 dans le même laps de temps (Streeter, 1988). On arrive
à survoler un texte à la vitesse de 1000 mots par minute, alors
que la vitesse maximale au-delà de laquelle un discours devient
inaudible est de 200 à 300 mots par minute. Le handicap de l'oral sur
l'écrit s'accentue encore lorsque la voix du système
s'éloigne d'une voix humaine. Enfin, l'usage de messages sonores peut
s'avérer ennuyeux. Ces messages qui furent il y a quelques années
populaires dans les tableaux de bord de certaines voitures ("Mettez votre
ceinture", "La porte est ouverte",...) ont aujourd'hui presque disparus.