9.3.3 Les entrées 'parole'
Comme pour les sorties sonores, le message sonore que l'utilisateur communique
au système peut-être soit simplement enregistré (et
retransmis ultérieurement), soit analysé en vue d'une
réponse du système. Le simple enregistrement de message est utile
dans les messageries. Les messages vocaux combinent certains avantages du
courrier électronique (par exemple, l'envoi d'un message à des
destinataires multiples) et du téléphone (plus convivial que le
texte). Le stockage de messages verbaux permet en outre d'annoter des textes,
de compléter des systèmes d'aide. Ces messages sont simplement
stockés tels quels. Par contre, si le système doit
répondre à un message vocal, il doit pouvoir 'comprendre'
celui-ci. A l'heure actuelle, les systèmes se contentent plus
modestement d'identifier un message, c'est-à-dire retrouver le son
(généralement un mot) au sein d'un ensemble
prédéfini (lexique). Les systèmes de reconnaissance de la
parole s'avèrent efficaces lorsqu'il est possible de circonscrire le
vocabulaire. Ils sont peu appropriés au traitement continu de la parole
car, non seulement, le vocabulaire est énorme, mais surtout l'analyse
d'une phrase soulève des problèmes sémantiques complexes
dont nous avons déjà parlé dans le module 4.
Aussi, ces systèmes ont été utilisés pour permettre
de transmettre oralement les commandes composées d'un ou de quelques
mots. Ces commandes vocales sont intéressantes dans plusieurs cas:
- l'utilisateur souffrant d'un handicap des membres supérieurs
commande une chaise, un équipement spécial ou un ordinateur;
- l'utilisateur commande un système à distance par le
téléphone, par exemple un logiciel domotique;
- l'utilisateur se déplace et interroge au fur et à mesure un
logiciel (système de gestion de stock, aide à la maintenance des
avions, ...);
- l'utilisateur travaille dans un environnement trop sombre pour utiliser un
clavier;
- l'utilisateur a les mains occupées (dentiste) ou sales (garagiste,
politicien);
- l'utilisateur ne peut détacher son regard, par exemple s'il
tétécommande un bras robotique réalisant une
opération délicate.
Ces catégories semblent
réserver l'usage de commandes vocales à des systèmes bien
particuliers. Ce n'est pourtant pas le cas. Par exemple, l'utilisateur d'un
simple traitement de texte se retrouve dans les deux dernières
catégories. Lorsqu'il tape un texte au clavier et désire
sélectionner une commande figurant dans un menu, une de ses mains doit
quitter la position qu'elle occupe au clavier pour manipuler la souris. De
même, son oeil doit quitter le point d'insertion des caractères
dans le texte afin de trouver la commande dans le menu. La commande vocale lui
permet de garder ses mains et ses yeux au bon endroit. Un autre avantage de la
commande vocale sur le menu est que le déroulement du menu cache parfois
l'objet sur lequel on travaille. En remplaçant les commandes
sélectionnées par la souris par des commandes vocales, Karl,
Pettey et Schneiderman (1993) observent une réduction de 18,7% du temps
nécessaire à des petites tâches de traitement de texte. Cet
effet est particulièrement important lorsque le texte doit être
formaté au fur et à mesure qu'il est entré, comme dans
l'écriture de formules mathématiques comprenant des exposants,
des indices, ... Le taux d'erreur est équivalent dans les deux
situations. Selon Helander, Moody & Joost (1988), l'avantage des commandes
vocales sur les autres commandes varie selon la tâche. Les seules
généralisations qui peuvent être faites découlent
des hypothèses présentées précédemment: les
systèmes de commandes vocales seraient efficaces s'ils permettent de
distribuer la charge cognitive sur des processus différents (Helander,
Moody & Joost, 1988). En particulier, les aspects spatiaux sont mieux
traités par le système perception visuelle - réponse
motrice, alors que les tâches verbales sont mieux gérées
par le système perception auditive - réponse vocale. Notons enfin
que l'utilisation de commandes vocales semble interférer avec la
mémoire à court terme (Karl et al. (1993): il serait par
exemple difficile de planifier une tâche complexe tout en communiquant
oralement ses commandes. Ces résultats semblent conformes aux recherches
sur le fonctinnement de la mémoire de travail.
Les langages de commandes vocales, comme les autres langages de commandes (voir
module 6), imposent des contraintes mnémoniques supérieures aux
systèmes de menus. Selon Karl et al. (1993), les sujets commettent de
nombreuses erreurs de mémorisation des commandes. La conception du
langage de commandes doit non seulement tenir compte des aspects cités
dans le module 6 (cohérence, ...), mais également de la
spécificité du traitement de messages sonores. Ainsi, les
systèmes commettent moins d'erreur avec les mots longs car ceux-ci
contiennent plus d'information (Helander, Moody & Joost, 1988). Dans la
mesure du possible, le concepteur évitera des commandes qui sont
phonétiquement semblables.
Le système prend parfois plusieurs secondes pour réagir à
la commande. Les sujets ont alors tendance à penser que la commande n'a
pas été reconnue et à répéter celle-ci. Il
est donc nécessaire de prévoir un bref signal de réception
de la réponse du sujet (voir module 3), qui permette au sujet de savoir
que sa réponse a été reçue et qu'un feed-back va
suivre.
Les commandes vocales soulèvent d'autres problèmes, tels que le
bruit de fond, la confidentialité ou la nécessité de
marquer une pause (de 50 à 200 millisecondes) entre deux mots (afin de
permettre au système de segmenter le message sonore). Bien que les taux
de reconnaissance des mots s'améliorent de jour en jour (pour un
même champ lexical) et se rapprochent des 100%, cela représente
encore un nombre d'erreurs non négligeable. Le nombre d'erreurs augmente
pour les utilisateurs qui sont moins constants dans la prononciation d'un mot,
tels que les enfants, pour les utilisateurs ne s'exprimant pas dans leur langue
naturelle et pour les sujets en situation de stress.
Enfin, la plupart des systèmes sont paramétrés par rapport
à l'utilisateur: celui-ci doit prononcer une certain nombres de mots
(parfois tous les mots du lexique) à de multiples reprises, afin que le
système s'adapte à sa locution. Dans certains cas, cela peut
représenter une heure de travail. Or certains systèmes sont par
définition destinés à plusieurs utilisateurs (par exemple,
une caisse dans un restaurant, une borne interactive, ...). Néanmoins,
certains systèmes sont capables de reconnaître un mot, quel que
soit l'interlocuteur. Ils travaillent avec un lexique très restreint
(par exemples, les chiffres plus 'oui' et 'non').