9.3.3 Les entrées 'parole'

9.3.3 Les entrées 'parole'

Comme pour les sorties sonores, le message sonore que l'utilisateur communique au système peut-être soit simplement enregistré (et retransmis ultérieurement), soit analysé en vue d'une réponse du système. Le simple enregistrement de message est utile dans les messageries. Les messages vocaux combinent certains avantages du courrier électronique (par exemple, l'envoi d'un message à des destinataires multiples) et du téléphone (plus convivial que le texte). Le stockage de messages verbaux permet en outre d'annoter des textes, de compléter des systèmes d'aide. Ces messages sont simplement stockés tels quels. Par contre, si le système doit répondre à un message vocal, il doit pouvoir 'comprendre' celui-ci. A l'heure actuelle, les systèmes se contentent plus modestement d'identifier un message, c'est-à-dire retrouver le son (généralement un mot) au sein d'un ensemble prédéfini (lexique). Les systèmes de reconnaissance de la parole s'avèrent efficaces lorsqu'il est possible de circonscrire le vocabulaire. Ils sont peu appropriés au traitement continu de la parole car, non seulement, le vocabulaire est énorme, mais surtout l'analyse d'une phrase soulève des problèmes sémantiques complexes dont nous avons déjà parlé dans le module 4.

Aussi, ces systèmes ont été utilisés pour permettre de transmettre oralement les commandes composées d'un ou de quelques mots. Ces commandes vocales sont intéressantes dans plusieurs cas:

l'utilisateur souffrant d'un handicap des membres supérieurs commande une chaise, un équipement spécial ou un ordinateur;
l'utilisateur commande un système à distance par le téléphone, par exemple un logiciel domotique;
l'utilisateur se déplace et interroge au fur et à mesure un logiciel (système de gestion de stock, aide à la maintenance des avions, ...);
l'utilisateur travaille dans un environnement trop sombre pour utiliser un clavier;
l'utilisateur a les mains occupées (dentiste) ou sales (garagiste, politicien);
l'utilisateur ne peut détacher son regard, par exemple s'il tétécommande un bras robotique réalisant une opération délicate.

Ces catégories semblent réserver l'usage de commandes vocales à des systèmes bien particuliers. Ce n'est pourtant pas le cas. Par exemple, l'utilisateur d'un simple traitement de texte se retrouve dans les deux dernières catégories. Lorsqu'il tape un texte au clavier et désire sélectionner une commande figurant dans un menu, une de ses mains doit quitter la position qu'elle occupe au clavier pour manipuler la souris. De même, son oeil doit quitter le point d'insertion des caractères dans le texte afin de trouver la commande dans le menu. La commande vocale lui permet de garder ses mains et ses yeux au bon endroit. Un autre avantage de la commande vocale sur le menu est que le déroulement du menu cache parfois l'objet sur lequel on travaille. En remplaçant les commandes sélectionnées par la souris par des commandes vocales, Karl, Pettey et Schneiderman (1993) observent une réduction de 18,7% du temps nécessaire à des petites tâches de traitement de texte. Cet effet est particulièrement important lorsque le texte doit être formaté au fur et à mesure qu'il est entré, comme dans l'écriture de formules mathématiques comprenant des exposants, des indices, ... Le taux d'erreur est équivalent dans les deux situations. Selon Helander, Moody & Joost (1988), l'avantage des commandes vocales sur les autres commandes varie selon la tâche. Les seules généralisations qui peuvent être faites découlent des hypothèses présentées précédemment: les systèmes de commandes vocales seraient efficaces s'ils permettent de distribuer la charge cognitive sur des processus différents (Helander, Moody & Joost, 1988). En particulier, les aspects spatiaux sont mieux traités par le système perception visuelle - réponse motrice, alors que les tâches verbales sont mieux gérées par le système perception auditive - réponse vocale. Notons enfin que l'utilisation de commandes vocales semble interférer avec la mémoire à court terme (Karl et al. (1993): il serait par exemple difficile de planifier une tâche complexe tout en communiquant oralement ses commandes. Ces résultats semblent conformes aux recherches sur le fonctinnement de la mémoire de travail.

Les langages de commandes vocales, comme les autres langages de commandes (voir module 6), imposent des contraintes mnémoniques supérieures aux systèmes de menus. Selon Karl et al. (1993), les sujets commettent de nombreuses erreurs de mémorisation des commandes. La conception du langage de commandes doit non seulement tenir compte des aspects cités dans le module 6 (cohérence, ...), mais également de la spécificité du traitement de messages sonores. Ainsi, les systèmes commettent moins d'erreur avec les mots longs car ceux-ci contiennent plus d'information (Helander, Moody & Joost, 1988). Dans la mesure du possible, le concepteur évitera des commandes qui sont phonétiquement semblables.

Le système prend parfois plusieurs secondes pour réagir à la commande. Les sujets ont alors tendance à penser que la commande n'a pas été reconnue et à répéter celle-ci. Il est donc nécessaire de prévoir un bref signal de réception de la réponse du sujet (voir module 3), qui permette au sujet de savoir que sa réponse a été reçue et qu'un feed-back va suivre.

Les commandes vocales soulèvent d'autres problèmes, tels que le bruit de fond, la confidentialité ou la nécessité de marquer une pause (de 50 à 200 millisecondes) entre deux mots (afin de permettre au système de segmenter le message sonore). Bien que les taux de reconnaissance des mots s'améliorent de jour en jour (pour un même champ lexical) et se rapprochent des 100%, cela représente encore un nombre d'erreurs non négligeable. Le nombre d'erreurs augmente pour les utilisateurs qui sont moins constants dans la prononciation d'un mot, tels que les enfants, pour les utilisateurs ne s'exprimant pas dans leur langue naturelle et pour les sujets en situation de stress.

Enfin, la plupart des systèmes sont paramétrés par rapport à l'utilisateur: celui-ci doit prononcer une certain nombres de mots (parfois tous les mots du lexique) à de multiples reprises, afin que le système s'adapte à sa locution. Dans certains cas, cela peut représenter une heure de travail. Or certains systèmes sont par définition destinés à plusieurs utilisateurs (par exemple, une caisse dans un restaurant, une borne interactive, ...). Néanmoins, certains systèmes sont capables de reconnaître un mot, quel que soit l'interlocuteur. Ils travaillent avec un lexique très restreint (par exemples, les chiffres plus 'oui' et 'non').