Les principes concernant la présentation d'informations visuelles (cfr. module 2) s'appliquent à toute communication d'information, quel que soit le média. Comme nous avons surtout parlé d'information visuelle, nous considérons ici leur application aux messages sonores. En réalité le son est considéré dans la plupart des logiciels comme un complément par rapport à l'image.
La quantité globale d'information est un paramètre important. Nielsen & Schaefer (1993) montrent que l'ajout d'informations sonores peut se faire au détriment de l'utilisateur. Ils ont testé auprès de personnes âgées (de 70 à 75 ans) un programme de dessin enrichi de sons. Chaque outil de dessin était associé à un son particulier. Les utilisateurs ont jugé le programme avec sons plus complexe que celui sans sons, alors que leurs activités (choisir un outil avec la souris et dessiner) étaient identique dans les deux systèmes. L'information sonore, bien que redondante par rapport à l'information visuelle (l'icône de l'outil), a semble-t-il conduit à un effet de surcharge.
Dans le module 2, nous avons également parlé du problème de la fréquence des informations. Si un stimulus sonore est rare, il interrompt une activité visuelle. Par contre, s'il a la même fréquence ou importance que les stimuli visuels, ces derniers sont perçus en priorité (Wickens, 1987). Un 'bip' fréquent n'attire plus l'attention, il devient partie du bruit ambiant.
Le principe du focus s'applique aux animations comme au texte: l'utilisateur ne peut suivre un animation dans un coin de l'écran et lire en même temps les messages qui s'affichent à un autre endroit. Rieber et Kini (1991) soulignent que les animations peuvent parfois nuire à l'interaction dans la mesure où elles distraient l'utilisateur d'autres informations pertinentes. De même, un son mal placé peut conduire l'utilisateur à négliger une information visuelle présentée simultanément. Néanmoins, notre perception sonore n'exige pas le même focus que la perception visuelle. L'oreille peut discriminer des changements subtiles et reconnaître des sons familiers sans se concentrer sur la source sonore (Dix et al., 1993). Le meilleur exemple en est le fameux 'effect cocktail': nous sommes capables, dans une soirée bruyante, de conduire une conversation avec quelqu'un et d'entendre notre nom prononcé dans une autre conversation.
La question la plus complexe concerne l'intégration image-son. Comment l'utilisateur soit traite-t-il en parallèle ces deux types d'informations. On a pu penser que notre cerveau disposait d'une unité prenant en charge les stimuli visuels et d'une autre prenant en charge les sons. Il semble aujourd'hui - mais il s'agit d'un domain de recherche où les interprétations sont très controversées - que le parallélisme de traitement ne concernerait pas la nature des stimuli, mais la nature du traitement: les traitements de type verbal et de type spatial seraient pris en charge par des unités différentes. L'information visuelle peut être verbale (texte) ou spatiale (images, schémas, position respective des éléments du texte, ...). L'information sonore peut être verbale (voix enregistrée ou synthétique) ou spatiale (localisation par rapport à un bruit, description vocale d'une image telle que sa maison). L'utilisateur pourrait donc réaliser simultanément une tâche de nature spatiale et une tâche verbale. Par contre, il est plus difficile de conduire en parallèle deux tâches verbales (c'est-à-dire faisant appel aux même 'processeur'). Il semble préférable qu'il n'y ait pas d'interférence entre la modalité d'encodage et la modalité de rappel, c'est-à-dire que les sujets sont meilleurs pour se souvenir verbalement d'une image visuelle ou de pointer spatialement des souvenirs verbaux (Klapp, 1987). Selon la théorie du double codage (Paivio, 1986), les images qui supportent un double codage, visuel et spatial, seraient mieux mémorisées (Rieber et Kini, 1991), notamment parce qu'on peut alors accéder à l'information par des mécanismes différents.