STAF 13, Module 1, Document 1

Entendre, voir, comprendre

Des mécanismes perceptifs aux mécanismes cognitifs

Daniel Peraya

En guise d'exergue

"L'oeil est l'organe de la vision, mais le regard est acte de prévision et il est commandé par tout ce qui peut être ou, doit être vu et les négations correspondantes." (P. Valéry)

"On s'accorde souvent à dire qu'une image (et on ne pense guère qu'à l'image visuelle) ressemble à un objet. Or là encore, l'analyse des processus de signification, indique bien que les relations de ressemblance (et celles de dissemblance) ne s'établissent pas entre deux objets: l'objet imagé et l'objet imageant, ou encore entre l'objet photographié et l'objet photographique, mais entre l'image mentale durable que nous gardons comme trace d'une expérience antérieure et l'image immédiate que nous avons d'un signal aperçu. L'image est vécue comme reflet d'une expérience que nous avons des choses et non comme reflet des choses." (La Borderie R. (1972), Thesaurus de la communication, CRDP, Bordeaux, p. 8)

"Il est communément admis que le sens est inhérent au message, que là est son lieu et que donc un message a un sens. Les cas aberrants, et ils sont nombreux, sont alors soit, ou pratiquement considérés comme indiquant l'erreur commise par celui qui reçoit le message, soit, dans quelques théories identifiées comme phénomène de polysémie (un signifiant vers plusieurs signifiés). Il s'agit là d'un point de vue purement gratuit que l'observation des faits dément. Le sens résulte en réalité d'une activité de l'individu à l'occasion de la réception d'un message, selon, certes, les impulsions que ce message déterminent, mais aussi surtout selon les connaissances préalables, les compétences, les motivations de l'individu récepteur." (Ibidem).


Table des matières


Introduction

1. Remarque préliminaire

2. Problématique

3. Objectifs


La perception

1. Généralités

1.1. Une appréhension sélective de la réalité

1.2. Mono et plurisensorialité

1.3. Multimodalité, multimédia

2. L'audition

2.1. Notions de physiologie

2.1.1. La voie aérienne

2.1.2. La conduction osseuse

2.1.3. La conduction vibrotactile

2.2. Acoustique de l'audition

2.2.1. Perception des sons simples

2.2.2. Perception des sons complexes

2.3. Caractéristiques des sons du langage

2.3.1. La durée

2.3.2. La hauteur

2.3.3. L'intensité

2.3.4. Le timbre

2.4. Les paramètres de la perception de la parole et du langage articulé

2.5. Les contours mélodiques du français standard

3. La vision

3.1. Réduire l'information

3.2. Les primitives visuelles

3.3. De quelques réflexes d'exploration visuelle


Du perceptif au cognitif

1. Les deux modes de traitement de l'information

1.1. Première hypothèse: traitement dirigé par les données

1.2. Seconde hypothèse : traitement dirigé par les concepts

2. Voir les formes

2.1. La figure et le fond

2.2. La discrimination des formes et les regroupements

2.2.1. La bonne forme

2.2.2. La proximité

2.2.3. La similarité

2.2.4. La clôture

2.2.5. La continuité

2.3.6. Le destin commun

3. De la forme aux objets

3.1. Les primitives de niveau supérieur

3.2. L'effet de superiorité de l'objet

3.3. Le prototype

3.4.Les facteurs subjectifs d'interprétation

4. Le Groupe µ


Les pièges de l'image

1. Les images ambiguës et paradoxales

2. Les illusions d'optique


Bibliographie


Introduction

1. Remarque préliminaire

Parler de textes, d'images et de sons en termes de langage de l'image et de langage verbal, de " communication audio-scripto-visuelle " (Cloutier, 1973) nous place d'emblée dans une perspective sémiotique, discipline qui a pour objet l'étude des systèmes de signes. S'il est vrai que l'homme est un animal symbolique (Cassirer, 1972), il faut en accepter pour première conséquence l'importance du processus de sémiosis: le monde naturel n'a de sens que dans la mesure où il est pris en charge dans ce processus, dans la mesure où l'homme le transforme en un univers de signes interprétables par d'autres signes. La première quête de l'homme serait donc cette quête du sens. Ce processus de sémiotisation, rappellent les membres du Groupe µ, fait de l'homme L'animal signé (Van Lier, 1980): " Notre réflexion ne le [l'homme] montre-t-il pas engagé dans une constante et anxieuse recherche du sémiosis ? ".

Producteurs de symboles, l'homme est aussi producteurs de représentations: représentations matérielles - des premières peintures rupestres au " Carré blanc " de Malevitch - mais aussi représentations mentales, cognitives. La première tâche sera donc de penser l'articulation entre plusieurs disciplines distinctes qui portent sur notre objet des regards différents quoique complémentaires: la physiologie et la psychologie de la perception, les sciences cognitives et la sémiotique. Ce premier module ne constitue en aucun cas un cours d'introduction à la psychologie de la perception. Il présente quelques faits et informations indispensables pour fonder l'analyse sémiotique sur une double base perceptive et cognitive, préalable à toute réflexion portant sur les langages audio-scripto-visuels.

Notons enfin que le cours portera cette année essentiellement sur l'image dite fonctionnelle et sur le signe visuel. Les informations relatives à l'audition et aux sons seront donc peu développées dans ce document.

2. Problématique

On a souvent justifié l'utilisation de l'image, puis des médias, par son statut d'analgon. Parce qu'elle ressemble à l'objet qu'elle représente, l'image est réputée compréhensible "naturellement" par tout le monde; elle serait en conséquence le facilitateur de compréhension et de mémorisation par excellence et de plus un outil cognitif particulièrement adéquat pour résoudre de nombreux types de problèmes.

Il est vrai que l'image jouit d'un statut particulier, ce qu'atteste son utilisation persuasive et/ou éducative fort ancienne. On connaît les ouvrages classiques de Jean Amos Comenius (1592-1671), parfois désigné comme le " père de l'audiovisuel en pédagogie ”: La grande didactique ou son Orbis Pictus, sont la préfiguration de nos manuels illustrés. Cet auteur écrivait : “ Associer toujours l'ouïe à la vue, la langue à la main. Je veux dire que tout ce que l'on peut faire apprendre ne doit pas seulement être raconté pour que les oreilles le reçoivent mais aussi dépeint pour qu'il soit imprimé dans l'imagination par l'intermédiaire des yeux. ” (La grande didactique, cité par La Borderie : 1972).

Pourtant ce ne sont là que deux exemples, des ouvrages récents consacrés à l'histoire des formes figuratives et aux modes de représentation tant pré-technologiques que technologiques (par exemple, Perriault, 1981 et 1989; Chesnais, 1990) soulignent combien, depuis la plus haute antiquité, la catoptrique a suscité de l'intérêt et comment les jeux de miroirs étaient déjà utilisés aux fins d'illusion et de simulation. La magie parastatique, l'art des spectacles d'ombres et de lumières, dont le développement a été rendu possible par l'invention et le perfectionnement de la lanterne magique aux 17 ème et 18 ème siècles, sont à l'origine de l'utilisation aux fins persuasives ou didactiques des illusions et des représentations figurées. Jacques Perriault (1989 : 30 et st.) rappelle que, si l'on en croit l'iconographie de l'époque, le Père Kircher, ayant remplacé la source lumineuse artificielle par une source naturelle et caché la lanterne dans un lieu sacré, pouvait y faire apparaître Dieu, les saints ou la Mort : “ la monstration a ici force de démonstration, ce qui permet à Kircher d'affirmer que si l'on dispose de quelques plaques, on peut démontrer ce que l'on veut. ” (op. cit. : 32). Enfin, sans aucun souci d'exhaustivité, rappelons le Père Nollet, précepteur de Louis XV, connu pour avoir perfectionné l'invention du Père Kircher, et le Comte de Paroy qui avait fait le projet, accepté par la reine Marie-Antoinette, d'utiliser les projections lumineuses pour l'éducation du Dauphin.

L'intuition de la force et de la prégnance de la vision, et donc de l'image, ne peut se concevoir sans une référence implicite au langage verbal et à la perception auditive On connaît par ailleurs ces chiffres cités dans un rapport de l'Industrial Audiovisuel Association (1962, cité in Rigg 1974) et repris par Treichler (1967); selon ces sources, on apprendrait : 1% par le goût, 1.5% par le toucher, 3.5% par l'odorat, 11% par l'ouïe et enfin 83% par la vue. Quant à la mémorisation des informations, nous retiendrions environ 10% de ce que nous lisons, 20% de ce que nous entendons, 30% de ce que nous voyons, 50% de ce que nous voyons et entendons, 70% de ce que nous disons et 90% de ce que nous disons en faisant. Quelle que soit leur validité, ces statistiques traduisent fort bien le sentiment naïf selon lequel les spectacles visuels sont, du point de vue de leur perception, bien plus efficaces que le langage verbal. Celui-ci introduirait au sens tandis que les représentations visuelles naturalisantes, les simulacres, donneraient accès au monde, ou en tous cas à certains de ses aspects.

Il y aurait à cela une première raison : la perception et la décodification de spectacles artificiels (la représentationde personnes, d'objets, de paysages, etc.) recourent à des mécanismes identiques à ceux qui gouvernent la contemplation et la compréhension de spectacles naturels (personnes, objets, paysages, etc.). Un bon exemple de cette identité de décodage est celui des objets réels qui deviennent le support d'une mise en abîme sui-référentielle. Nous connaissons tous la boîte du fromage "La vache qui rit" dessinée par B. Rabier, l'auteur du canard Gédéon. Sur le couvercle de la boîte on voit l'image d'une vache qui rit, portant comme boucles d'oreilles des boîtes de fromage "La vache qui rit" représentant sur le couvercle l'image d'une vache qui porte comme boucles d'oreilles des boîtes de fromage, etc. Le lecteur, le spectateur, oscillerait entre l'objet réel et sa représentation, attribuant à la boîte tantôt le statut d'énonciateur tantôt celui d'énoncé. En effet, la boîte se présente à la fois objet réel (la première) et représentation (les boîtes-signes représentées sur la boîte). Mais l'objet réel supporte, véhicule, un message: elle est donc en positon d'énonciateur d'un énoncé, la boîte-signe qui devient à son tour énonciateur d'une boîte-signe-énoncé. Et ainsi de suite. Nous reviendrons de façon détaillée sur ce point essentiel dans les modules suivants de ce cours.

Traditionnellement, l'image a donc été utilisée, d'une part en raison de son pouvoir de conviction et de désignation et, d'autre part, à cause de sa capacité supposée à faciliter les apprentissages. Mais il est une autre raison de l'intérêt des éducateurs pour l'image : sa fonction vicariale. En effet, l'école souvent organise ses classes en s'excluant du monde, mais elle permet cependant au monde d'entrer dans ses classes, sous la forme d'images. Tel est aussi le mythe fondateur de la télévision, cette “ fenêtre ouverte sur le monde ” qui projette chaque foyer, chaque famille, chaque individu au centre des événements et de l'Histoire.

En réalité, le sens d'un message et particulièrement d'une image, n'est ni évident ni immédiat; il ne constitue pas un donné a priori et n'a rien d'immanent. Il est tout au contraire le produit d'un processus complexe '"perception, interprétation, compréhension" dans lequel intervient un nombre important de facteurs tels que les caractéristiques propres du stimulus, les données de l'expérience, le contexte, les caractéristiques et les lois de la perception, nos attentes et nos motivations, nos connaissances préalables, etc. Il paraît donc justifié d'affirmer que le sens est toujours le résultat d'une activité du récepteur. J.S. Brunner (circa 1950) a été le premier à donner une orientation cognitive à la perception, indiquant que celle-ci est toujours déterminée par nos expériences antérieures et les événements qui suscitent notre perception: les unes et les autres orientent le traitement de l'information et le sujet sur base d'indices se livre à des inférences.

3. Objectifs

Compte tenu de l'ensemble de ces éléments, nous tenterons dans ce premier module de:

Retour à Introduction,

Retour à la Table des matières


La perception

1. Généralités

1.1. Une appréhension sélective de la réalité

Il est trivial de souligner l'importance de nos organes sensoriels puisque c'est grâce à eux que nous entrons en relations avec le monde extérieur, que nous nous forgeons une image du monde ainsi que l'ensemble de nos connaissances, de nos représentations du monde. Celles-ci sont donc directement liées aux capacités de nos capteurs sensoriels. Or, ceux-ci possèdent des facultés de réception limitées et sélectives: le nombre de stimuli qui nous sollicitent est énorme mais nous ne pouvons en capter, en capturer, qu'un nombre restreint correspondant aux caractéristiques spécifiques de nos organes sensoriels.

La vision humaine est, par exemple, insensible aux rayons infrarouges. S'il en était autrement, notre perception du monde, des paysages naturels et artificiels, bref de notre environnement serait bien étrange. Les nombreuses images de la guerre du Golfe nous ont donné une idée de ce que serait notre réalité vue à travers une vision sensible aux infrarouges. Mais sait-on par exemple, que si l'aspect des choses et des personnes varie en fonction de leur température, le contour de nos proches nous paraîtrait plus net, plus défini en hiver ou encore que le corps humain serait plus volumineux après un violent effort physique. Notre oreille aussi est sélective: nous n'entendons ni les ultrasons ni les infrasons et seul le chien entend le sifflet de rappel que nous utilisons. Quant à la note la plus basse d'un orgue qui correspond à la fréquence de 16 Hz, elle n'est pas audible pour tout le monde !

Enfin, chacun de nos sens possède des caractéristiques spécifiques qui nous donnent un accès au monde différent: si l'ouïe et la vue nous permettent de percevoir à distance, le toucher et le goût demandent un contact physique avec le stimulus.

1.2. Mono et plurisensorialité

Chaque situation perceptive particulière met en jeu un grand nombre de stimulations visuelles, tactiles, auditives, olfactives... et nous les percevons toutes simultanément dans une perception que l'on nomme synésthésique. Un exemple particulièrement intriguant est celui de l'influence de la couleur sur la perception de la température. En effet l'opposition chaud/froid donne lieu à des réponses subjectives que l'on peu quantifier. On a pu montrer expérimentalement "qu'un local bleu-vert donne la même impression de chaleur qu'un local rouge orangé qui serait objectivement 3 à 4 ° C plus froid" '(Groupe µ, 1992:238).

Tout acte perceptif sollicite donc simultanément plusieurs de nos capteurs sensoriels et il est parfois bien difficile d'attribuer à l'un des nos sens l'origine de notre perception.

Certes, l'ouïe est notre organe sensoriel pour la réception et la perception des informations sonores. Pourtant, l'audition utilise, parallèlement à la conduction aérienne, à la transmission des sons (des ondes sonores) à travers l'air ambiant, la conduction osseuse qui peut quant à elle renforcer les fréquences comprises entre 250 et 4.000 Hz: la conduction osseuse joue un rôle essentiel pour la perception de notre voix. Nous avons tous fait cette expérience: lorsque nous réécoutons un enregistrement de notre voix, elle nous semble étrange, elle "sonne" d'une façon qui nous surprend. C'est que, privée de notre propre conduction osseuse (chacun de nous est seul à pouvoir percevoir la sienne puisque la conduction osseuse fait intervenir la résonance interne de notre propre corps), son timbre nous paraît transformé. Enfin, nous avons tous fait l'expérience de la perception physique, "par notre corps entier" de certaines basses fréquences face à un haut-parleur.

Notre sensibilité vibrotactile est faible, elle se limite aux fréquences inférieures à 600 Hz, et elle est donc de peu d'importance pour les bien entendants. Cependant, elle peut devenir essentielle dans la rééducation de la surdité.

Une des conséquences de la plurisensorialité de notre perception réside dans le fait que toute diminution de l'intensité du message dans un registre sensoriel accroît d'autant notre réceptivité dans les autres registres. Notre vie quotidienne est pleine d'expériences de ce type.

Il est intéressant de faire deux remarques à ce propos. Tout d'abord, les audio-scripto-visuels aujourd'hui ne mettent en cause que deux de nos sens sur cinq: les expériences de cinéma fragrant sont rares et sont encore fort artificielles puisqu'il faut sur commande ouvrir les petites enveloppes parfumées dans l'ordre indiqué, conformément au déroulement de l'action et de son contexte; il existe des expériences de cinéma tactile, pour les aveugles notamment, où une partie des stimulations sont diffusées à travers un dossier vibrotactile; enfin, les expériences des mondes virtuels font intervenir la perception sensori-motrice, etc. Mais, globalement, les outils actuels à dominante informatique continuent à solliciter principalement la vision, l'audition demeurant le parent pauvre des ces productions didactiques. En principe, le pédagogue pourrait donc favoriser et polariser l'attention des élèves vers l'un ou l'autre domaine sensoriel en réduisant les stimulations secondaires ou en faisant interagir ces deux domaines de façon consciente et stratégiquement organisée, c'est-à-dire finalisée.

1.3. Multimodalité, multimédia

A construire

Retour en tête de section "La perception"

Retour à la Table des matières


2. L'audition

2.1. Notions de physiologie

Le cours portant cette année essentiellement sur l'image, l'information relative au son, à la perception du langage, à l'acoustique de la phonation et l'audition seront limitées à quelques notions essentielles.

L'oreille a pour fonction de transformer des signaux physiques, des vibrations acoustiques, en signaux nerveux qui sont décodés par le cerveau. Les sons du langages sont en effet des phénomènes physiques ondulatoires analysables à travers différents paramètres acoustiques (fréquence, hauteur, intensité, timbre, rythme, etc.).

Figure 1. Coupe de l'oreille (d'après Landercy et Renard, p. 141)

L'oreille humaine ne peut percevoir ni les infrasons (inférieurs à 16 Hz) ni les ultrasons (supérieurs à 16.000 Hz) auxquels sont sensibles de nombreuses espèces animales. Cependant, dans les limites des fréquences perçues, l'oreille humaine se révèle un instrument d'analyse extrêmement précis puisqu'elle est capable de discerner 1.400 hauteurs musicales différentes et 280 niveaux différents d'intensité. En combinant ces deux seules variables, on obtient près de 400.000 sensations différentes susceptibles d'être différenciées par l'oreille. Mais, en réalité, il est bien évident que le cerveau n'utilise qu'une partie de ces possibilités. Pour demeurer dans le domaine de l'acoustique, on sait que la capacité de discrimination phonétique et d'articulation linguistique d'un enfant se voit progressivement réduite par ce que les linguistes ont appelé le "crible phonologique": la multiplicité de sons et de bruits qu'articule le jeune enfant se transforme progressivement en une série limitée de sons constitués en un système, les phonèmes de la langue ou du milieu acoustico-linguistique dont il s'imprègne progressivement. L'oreille d'ailleurs est bien moins puissante (sept fois moins) que la vue qui permet quant à elle d'acheminer 107 bits/secondes. La perception des sons passe par trois voies particulières: la voie aérienne, de loin la plus importante pour les sujets normaux, la conduction osseuse et la sensibilité vibrotactile.

2.1.1. La voie aérienne

C'est la voie privilégiée de la perception auditive. Elle fait intervenir les trois systèmes propres de l'oreille qui possèdent chacun une fonction précise: l'oreille externe qui constitue le capteur, l'oreille moyenne qui transforme les variations de pressions en vibrations mécaniques et l'oreille interne, le labyrinthe, qui transforme ces vibrations mécaniques en influx nerveux envoyés vers le cerveau.

L'oreille externe

Elle est elle-même constituée par le pavillon de l'oreille qui, à la manière du cornet acoustique du professeur Tournesol, capte les ondes et les dirige vers le conduit auditif. Ce dernier est un résonateur (25 mm de long et 6 à 8 mm de diamètre) qui amplifie les pressions sonores de façon importante, près de deux fois pour les fréquences de 2.000 à 5.000 Hz.

L'oreille moyenne

Elle est constituée par la cavité tympanique (1 à 2 cm3) qui comprend le tympan, les osselets et les muscles du marteau et de l'étrier.

  1. Le tympan est une membrane élastique (30 à 60 mm de section et 0,1 mm d'épaisseur) qui n'a pas de fréquence propre, mais elle peut entrer en vibrations forcées pour toutes les fréquences de 16 à 16.000 Hz; elle est donc sensible aux variations de pression acoustique. Notons que la trompe d'Eustache qui est reliée au pharynx assure une égalisation de la pression aérienne des deux cotés du tympan.
  2. Les osselets sont une chaîne de trois osselets (marteau, enclume, étrier) reliés entre eux par des articulations peu mobiles. Cette chaîne est fixée par des ligaments, d'un côté au tympan et de l'autre à la fenêtre ovale. Ces osselets, dont la fonction est celle d'un levier, multiplient par près de trois fois l'énergie reçue par le tympan. Par ailleurs, la surface de la fenêtre ovale est de 30 fois inférieure à celle du tympan. Aussi l'amplification totale de l'énergie perçue est de 180 fois.... (2 par le conduit, 3 fois par la chaîne des osselets et 30 fois pour la réduction de surface. Le passage des vibrations d'un milieu aérien au milieu aqueux de l'oreille interne rend cette amplification indispensable.
  3. Les muscles du marteau et de l'étrier peuvent modifier les caractéristiques de la chaîne osseuse et donc celles de la transmission du son. En particulier, ils peuvent inhiber la transmission lors de la réception de sons trop intenses.
L'oreille interne

Elle est contenue dans une partie de l'os temporal, le rocher, et est constituée par l'organe d'équilibration et par l'appareil auditif proprement dit. Le premier comprend deux cavités (l'utricule et le sacule) ainsi que les canaux semi-circulaires. Quant à l'appareil auditif, il est composé de la colchée, le limaçon, dont l'une des trois membranes, la membrane basilaire est le siège de l'organe de Corti: quelques 20.000 cellules ciliées d'où partent les fibres du nerf auditif et où les pressions hydrauliques sont converties en impulsions électriques.

2.1.2. La conduction osseuse

Les vibrations peuvent être communiquées aux os du crâne et, en conséquence, impressionner la membrane basilaire. La fréquence naturelle de résonance de l'os crânien varie entre 800 et 1.600 Hz mais la conduction osseuse renforce les fréquences de 250 à 4.000 Hz. Si cette forme de conduction est importante pour le diagnostic des surdités (elle permet de différencier les surdités de transmission des surdités de perception), elle joue peu de rôle pour les sujets à audition normale. Elle permet cependant d'expliquer un phénomène d'auto-écoute auquel nous avons tous été confrontés: nous ne reconnaissons pas notre propre voix enregistrée. C'est que, lorsque nous parlons, nous nous entendons à travers les conductions aérienne et osseuse. Nous sommes donc les seuls à avoir de notre voix cette perception privilégiée. Or, nous percevons un enregistrement de notre voix par la seule conduction aérienne, comme n'importe lequel de nos interlocuteurs. Le timbre de notre voix a donc été modifié par rapport à notre perception naturelle. Enfin, l'importance de la conduction osseuse pour l'apprentissage linguistique a été mise en évidence par l'utilisation du casque dans les laboratoires de langues.

2.1.3. La conduction vibrotactile

La perception des vibrations ne passe pas seulement par des voies mécaniques. Elle peut emprunter une voie nerveuse à travers les récepteurs sensoriels de la sensibilité somatique générale. Il existe plusieurs types de capteurs sensibles à des fréquences différentes: pour les fréquences basses inférieures à 60 Hz, les corpuscules de Pacini pour les fréquences de 100 Hz à 600-800 Hz et d'autres enfin pour les fréquences supérieures à 1.000 Hz, à condition qu'elles soient de très forte intensité.

La sensibilité de la perception vibrotactile est la meilleure pour les fréquences comprises entre 250 et 300 Hz, par contre les seuils différentiels d'intensité et de durée seraient aussi bons que ceux de l'oreille. On sait aussi que c'est la pulpe des doigts qui est la région du corps la plus sensible à ce type de variations de pression.

Retour à la sous-section "2.1. Notions de physiologie"

Retour à la section "2. L'audition"

Retour à la Table des matières

2.2. Acoustique de l'audition

L'acoustique de l'audition a pour objet la mise en rapport des paramètres acoustiques et perceptifs. Elle prend pour objet logiquement les sons simples et les sons composés. Les expériences montrent par exemple que l'intensité sonore subjective dépend certes de l'intensité physique (niveau de pression sonore) mais aussi de la fréquence, du spectre et de sa durée... Il a donc fallu créer des unités spécifiques qui puissent rendre compte de ces relations complexes. Mais pour pouvoir mesurer ou mieux étalonner les sensations auditives, les références et les instruments de mesure ne peuvent être que les personnes elles-mêmes. Aussi, toutes les recherches se fondent sur des expériences où l'on demande aux sujets de comparer des sons entre eux, de modifier un son, jusqu'à ce qu'il soit perçu comme deux fois plus fort que le son de référence, etc.

2.2.1. Perception des sons simples

Hauteur subjective

La notion musicale d'octave se fonde dans le fait que la différence entre toute vibration et une vibration deux fois plus rapide est ressentie comme sensiblement un même intervalle: la sensation différentielle de hauteur est la même pour des sons simples possédant une fréquence deux fois plus élevée, quelle que soit cette dernière.

On a donc pu décomposer les fréquences audibles (16-16.000 Hz) en 10 octaves sur une échelle logarithmique de base 2: 16-32, 32-64, 64-128, 125-250, 250-500, 500-1000, 1.000-2.000, 2.000-4.000, 4.000-8000,8.00-16.000 Hz. Cependant cette échelle est artificielle et ne correspond pas à la perception de la majorité des gens qui n'a pas l'impression d'entendre un son à l'octave comme deux fois plus haut. On a donc produit, à partir d'un son de 1.000 Hz, une échelle d'intervalles subjectifs égaux mesurés en Mels (Stevens et Volkman, 1940).

Figure 2. Relation mel/hertz

(Stevens et Volkmann, d'après Landercy, Renard, p. 150)

Par convention, un son de 1.000 Hz a une hauteur subjective de 1.000 Mels. Mais en moyenne, pour obtenir un son qui subjectivement soit deux fois plus aigu que le son de référence, il faut un son de 3.120 Hz.

Intensité subjective : phones et sones

Les méthodes expérimentales ont conduit les chercheurs Stevens (1959) et Flechter (1961) à proposer deux échelles d'intensité sonore subjective: l'échelle des sones et celle des phones.

La première représente le niveau d'intensité sonore subjective qui désigne le niveau de pression sonore d'un son de référence (1.000 Hz) mesuré en dB SL (dB absolu) tel qu'il produise la même sensation d'intensité que le son inconnu. Pour cette raison, on dit de cette échelle qu'elle est qualitative. L'unité de mesure est le phone (par convention, l'échelle des phones est celle des dB à 1.000 Hz). La figure ci-dessous présente les courbes d'isophonie qui traduisent les variations de la réponse de l'oreille humaine en fonction du niveau de pression sonore et de la fréquence. On voit que l'audition n'est pas également sensible à chacune des fréquences: pour un niveau d'intensité subjectif égal, il faut une pression sonore bien plus importante à 100 Hz qu'à 1.000 Hz. De même, on observe que les fréquences perçues avec le moins d'intensité sont comprises entre 1.000 et 4.000 Hz. Enfin, c'est au seuil d'audibilité que la variation de la sensibilité de l'oreille en fonction de la fréquence est la plus importante: entre 100 et 125 Hz l'oreille commence à entendre à 40 dB SL, soit pour des intensités sonores 10.000 fois plus élevées qu'à 1.000 Hz.

Figure 3. Niveau d'intensité sonore subjective (isophonie)

(Flecther et Munson, d'après Landercy, Renard, p. 152

La seconde échelle, quantitative, est celle des sones. Celle-ci permet de mesurer l'intensité sonore relative entre deux sons, autrement dit de préciser si un son est deux fois plus fort ou moins fort qu'un son de référence. Autrement dit encore, il fallait établir une mesure proportionnelle à l'intensité de sensation sonore. Licklider, Flechter et Munson ont défini une telle échelle dont l'unité est le sone. (1933). Par définition, 1 sone vaut 40 phones: un sone est l'intensité subjective d'un son de 1.000 Hz présenté à 40 dB SL au dessus du seuil d'audibilité. Expérimentalement, on montre que pour la plus grande partie des fréquences audibles, pour des niveaux d'intensité subjective égal et supérieur à 40 phones, l'augmentation d'un facteur de 2 de l'intensité subjective mesurée en sone correspond à une augmentation de 9 phones du niveau d'intensité subjective.

Influence de l'intensité sur la hauteurhauteur

L'expérience montre que l'intensité du son peut influencer la sensation de hauteur, pour une fréquence fixe donnée. On peut composer une différence de hauteur par une modification de l'intensité (Stevens, cité par Landercy, Renard, p.154). La hauteur perçue des sons graves, inférieurs à 1.000 Hz a tendance à décroître avec l'intensité: pour une fréquence fixe donnée, plus le son est fort plus il paraît grave. Par contre pour les sons supérieur à 4.000 Hz, on observe le phénomène inverse. Si dans les fréquences correspondant à la plus haute sensibilité de l'oreille les variations sont faibles, elles peuvent atteindre jusqu'à 10 % pour les fréquences extrêmes. L'intensité renforce donc la sensation de hauteur perçue dans le même sens que la haute réelle.

Figure 4. Influence de l'intensité sur la hauteur perçue

(d'après Landercy, Renard, p. 154)
Seuils de perception différentielle

On a pu mesurer les seuils de perception différentielle pour chacun des paramètres acoustiques des sons purs. Le seuil différentiel de hauteur est de 3 Hz pour les fréquences inférieures à 1.000 Hz et de 3 X 10-3 pour les fréquences supérieures à 1.000 Hz et au-delà. En intensité, le seuil dépend de la fréquence et de l'intensité du son de référence. Enfin, en ce qui concerne la durée, à fréquence et intensité fixes et pour des temps supérieurs à 10 centisecondes le seuil serait proportionnel à la durée du signal.

2.2.2. Perception des sons complexes

Effet de battement

Des sons de fréquences proches sont perçus comme possédant la même hauteur mais leur intensité varie périodiquement avec une fréquence de battement égale à la différence de fréquence: il se produira 5 battements par seconde si le F est de 5 Hz, soit deux sons respectivement de 1.000 et 1.005 Hz. Cet effet de battement est connu de tous ceux qui accordent des instruments à cordes (piano, guitare, etc.). Une note et sa note à l'octave produisent cet effet de battement jusqu'à ce que les deux cordes soient parfaitement accordées.

Effet de masque

Un son intense masque un son de plus faible intensité: le chahut de la classe rend la voix de l'enseignant inaudible; dans les concerts d'été, le train masque le piano; l'avion qui atterrit couvre les bruits habituels de notre environnement urbain, etc. On distingue donc le son masquant (le train, l'avion) et le son masqué (le piano, les bruits de la rue).

De façon générale, les recherches montrent que:

Hauteur de sons complexes

La hauteur d'un son complexe est déterminée par celle de son fondamental. On a pu montrer expérimentalement en effet que le fondamental peut être perçu même s'il n'est pas présent comme l'une des composantes du son. Plusieurs hypothèses ont été avancées pour expliquer ce phénomène. Celle de Fletcher supposait que l'oreille reconstituait le fondamental manquant. Elle a cependant été infirmée par les expériences de Schouten qui a proposé une interprétation en termes d'analyse temporelle et non plus fréquentielle.

Spectre de sonie

Selon l'une des théories de l'audition les plus généralement admises -la théorie de la localisation (Békésy, 1960)-, le décodage de l'onde sonore s'effectue entièrement dans l'oreille interne au niveau de la membrane basilaire qui vibre toute entière mais particulièrement dans la zone correspondant à la fréquence de l'onde sonore. L'oreille opérerait donc une espèce d'analyse spectrale des sons complexes qui l'atteignent.

Cependant l'oreille ne peut donner le même résultat que le spectre physique produit par l'appareillage de laboratoire, par les analyseurs de spectres. En effet, la perception altère le spectre physique en fonction des différents paramètres perceptifs que nous venons de mentionner brièvement: l'intensité subjective, la hauteur subjective et les effets de masque. Sans entrer dans les détails, disons que le spectre de sonie créé par Zwicker (1960) tient compte de l'ensemble des ces phénomènes perceptifs et corrige donc le spectre physique pour le rendre plus conforme au spectre perçu.

Retour à la ous-section "2.2. Acoustique de l'audition"

Retour à la section "2. L'audition"

Retour à la Table des matières

2.3. Caractéristiques des sons du langage

Le langage verbal est constitué de phonèmes, c'est-à-dire de sons qui dans le système de la langue ont une valeur distinctive: /b/ et /m/ sont des phonèmes dans la mesure où ils permettent de distinguer des mots - des unités de sens - différents, comme dans ce cas les mots " balle " et " malle ". La confusion entre le " b " et le " v " chez les hispanophones ou entre le " l " et le " r " chez les japonais qui parlent français s'explique par le fait que ces sons ne sont pas, dans les systèmes linguistiques respectifs, considérés comme des phonèmes différents mais bien comme des variantes du même phonème. L'analyse des phonèmes fait l'objet de la phonologie, l'une des disciplines de la linguistique. Par contre, l'étude des sons du langage relève de la phonétique.

Les sons du langage peuvent donc être étudiés en fonction de leur mode de production (phonétique articulatoire) ou encore en fonction de leurs caractéristiques physiques ou acoustiques (phonétique acoustique). Entrer dans ce premier domaine nous entraînerait trop loin dans des considérations qui ne sont pas immédiatement utilisables dans le cadre de cet enseignement. Notons cependant que l'articulation, - la réalisation phonétique - de certains phonèmes permet de repérer des traces d'accents régionaux ou des caractéristiques sociologiques dans l'élocution de nos interlocuteurs. Par exemple, la prononciation du phonème /r/ italien qui est réalisé roulé du bout de la langue est souvent difficile pour les francophones - voire pour certains italophones natifs - qui réalisent le phonème /r/ roulé ou non roulé avec le voile du palais. Cette réalisation est considérée comme fautive et jugée peu esthétique.

Si l'on considère les sons de la langue du point de vue acoustique, on peut les caractériser à partir de la description des vibrations périodiques et apériodiques. Ils sont en effet produits par la colonne d'air que nous expirons et qui peut, selon que les cordes vocales interviennent ou non, être ou non mise en vibrations. Une colonne d'air vibré produit des sons périodiques, c'est-à-dire les voyelles, les semi-voyelles, et les sons consonantiques sonores ([b], [v]; [z], etc.) de l'air non vibré produit des sons apériodiques, c'est-à-dire les sons consonantiques sourds ([p], [f], [s]).

Les sons simples ne peuvent être produits qu'artificiellement avec un diapason ou avec un générateur de fréquences. Ils sont caractérisés par leur hauteur - leur fréquence - et leur intensité - leur amplitude et leur durée. Les sons du langage sont quant à eux des sons complexes; ils possèdent donc de multiples fréquences d'amplitude différente et sont de plus caractérisés par leur timbre, c'est-à-dire leur enveloppe spectrale.

Reprenons donc plus en détails ces différentes caractéristiques.

2.3.1. La durée

Les sons du langage périodiques ou apériodiques sont continus, ils ont une certaine durée de l'ordre de quelques centisecondes. Si certaines langues utilisent la durée comme critère distinctif, celle-ci n'est pas pertinente en français et ne possède qu'une valeur stylistique, emphatique, etc.

2.3.2. La hauteur

La hauteur d'un son complexe résulte de la fréquence de son fondamental, c'est-à-dire de sa composante spectrale la plus basse. A titre d'exemple, le fondamental de la voix - au sens technique de sons sonores - se situe :

La hauteur d'un son - on dit aussi la hauteur musicale - détermine la sensation de grave et d'aigu et elle est essentiellement déterminée par la fréquence de celui-ci.

2.3.3. L'intensité

L'intensité du son résulte de la combinaison de l'intensité de chacune des ses composantes. En général, ce sont les composante(s) les plus intense(s) qui déterminent l'intensité globale du son complexe. L'intensité sonore subjective c'est-à-dire La sensation de force dépend essentiellement de la pression sonore mesurée en décibels (dB).

2.3.4. Le timbre

Deux notes identiques jouées au piano ou au violon ont la même fréquence fondamentale mais un timbre différent comme le montre la Figure 2 ci-dessous. C'est-à-dire que les caractéristiques propres de chacun des instrument ont modifié le spectre du son complexe, absorbant certaines fréquences tout en renforçant d'autres. L'enveloppe spectrale d'un son détermine son timbre. Le timbre induit la sensation de son clair ou sombre. Le bruit du vent nous paraît plus clair que celui du tonnerre. Les voyelles antérieures, articulées dans la partie antérieure de la bouche, (i, e, u,), présentent un timbre plus clair que celles qui le sont à l'arrière du canal buccal (o, a).

Le timbre est par excellence le paramètre physique de projection/identification des interprétations subjectives. Une étude connue de Von Bismark (1974) a permis, sur base de 35 sons isophoniques stabilisés autour d'un noyau vocalique mais distincts par leur spectre, de dégager quatre facteurs orthogonaux (suite à une analyse factorielle) définissant 90 % de la variance et déterminant en conséquence les quatre dimensions essentielles du timbre: épais/pointu, compact/diffus, coloré/sans couleur, plein/vide (cité par Bonnet, et al., 1989:119).

Figure 5. Représentations spectrales d'un ré (588 Hz) joué au violon (A) et au piano (B)

(d'après Landercy et Renard, p.51)

Retour à la sous-section "2.3. Caractéristiques des sons du langage"

Retour à la section "2. L'audition"

Retour à la Table des matières

2.4. Les paramètres de la perception de la parole et du langage articulé

Le langage verbal est d'abord oral. Les linguistes distinguent classiquement les niveaux segmental et suprasegmental du langage. Le premier qui fait l'objet de la linguistique est constitué par les deux articulations du langage: les unités significatives (les mots, les lexèmes) et les unités non significatives (les phonèmes). Le niveau suprasegmental - les traits prosodiques - a pour objet les aspects qui traditionnellement ne relèvent pas de la systématique imposée par la linguistique:

Nous avons proposé (Peraya, 1983,1984) une formulation de ces différents indices prosodiques permettant de fonder, pour des locuteurs francophones, une analyse systématique des caractéristiques idiomatiques de la parole, des accents régionaux, socioculturels ou professionnels tels que les dictions radiophonique ou pédagogique. Rappelons brièvement:

  1. les particularités articulatoires: les phonèmes d'une langue sont caractérisés par des traits articulatoires (sonorité, nasalité, ouverture, position, etc.). Certains locuteurs modifient l'articulation, la prononciation de ces sons en fonction de facteurs divers: contamination avec une autre langue (les occlusives aspirées chez les anglophones qui parlent le français, défaut de prononciation (le cas du /r/ roulé apical italien dont il a déjà été question), impossibilité de prononcer certaines séquences inhabituelles dans une langue (les francophones qui répugnent à prononcer les consonnes prénasalisées et rajoutent un /e/ épenthétique: l'inspecteur (E)­Nguma fidèle second de la Commissaire Julie Lescaut dans la série télévisuelle du même nom.
  2. l'accent rythmique ou de type 1: il s'agit d'une mise en évidence syntagmatique qui frappe en français la dernière syllabe de l'unité rythmique qui peut être le mot (accent de mot) ou du groupe (accent de groupe). Que je dise " le frère ", " le chien de mon frère " ou encore " le petit chien de mon petit frère ", l'accent se placera toujours sur la dernière syllabe " frèr(e) " puisque le " e " final est considéré comme muet. Il s'agir de l'accent " normal " en français standard.
  3. le groupe rythmique: est délimité par deux accents de type 1. En français, le groupe rythmique correspond le plus souvent à une unité sémantique possédant une cohérence syntaxique. L'accent rythmique et la délimitation qu'il impose à des groupes au sein du continuum de la phrase est donc essentiel pour la compréhension de l'énoncé. Si l'on déplace artificiellement les accents, le sens de la phrase peut s'en trouver profondément altéré. La langue française permet de nombreuses homophonies et donc des jeux de mots, qui se fondent sur ce procédé de resegmentation de la chaîne parlée. En réalité, si l'on se souvient que le langage articulé est caractérisé par une double articulation -significative et non significative, c'est-à-dire respectivement en unités de sens et en phonèmes-, le phénomène s'explique facilement. Une suite identique de phonèmes (seconde articulation) peut donner lieu à un découpage sémantique labile (première articulation), constituant des unités de sens différentes. Les chansons de Boby La Pointe dont notamment MéliMélodie, en contiennent de très nombreux et merveilleux exemples. On distinguera :
  4. le rythme: est constitué par le retour à intervalles plus ou moins régulier de syllabes accentuées, porteuses d'un accent de type 1;
  5. l'accent d'insistance ou de type 2: correspond aux dénominations classiques d'accent affectif ou d'accent intellectif (notamment chez Marouzeau), ou encore d'accent émotionnel, emphatique, intensif, apthétique, etc. (Marouzeau, 1951, Malmberg, 1977). En français c'est essentiellement la place de l'accent qui permet d'identifier le type d'accent dont il s'agit. L'accent de type 2 se place souvent sur la première syllabe du mot, comme c'est le cas dans la diction radiophonique.
  6. l'écho de l'accent: quand il existe, frappe habituellement l'antépénultième (avant-dernière) syllabe du groupe rythmique et constituerait un épiphénomène de l'accent tonique dont l'existence n'a pu être prouvée expérimentalement.
  7. la mélodie: consiste en la sensation liée aux variations dans le temps de la fréquence fondamentale de la voix du locuteur. On peut distinguer une variation ponctuelle qui frappe une seule syllabe et qui a souvent une valeur accentuelle de l'évolution du tonton laryngien durant la totalité de l'énoncé (contour mélodique).
  8. L'intonation: est au sens strict "la courbe mélodique que l'on peut abstraire de l'analyse de la perception d'un énoncé parlé" (Landercy, Renard). L'intonation est donc différente de la mélodie car elle se définit comme l'intégration globale des différents éléments prosodiques (mélodie, tons, accents; rythme).

Retour à la sous-section "2.4. Les paramètres de la perception de la parole et du langage articulé"

Retour à la section "2. L'audition"

Retour à la Table des matières

2.5. Les contours mélodiques du français standard

En français, l'intonation est descendante dans les phrases affirmatives, montantes dans les interrogatives et les exclamatives. Les aspects expressifs, émotifs, affectifs, etc. se caractérisent par une modification de l'enveloppe mélodique "standard"' ainsi que par des différences d'accentuation, d'articulation et d'intensité. Ces différents aspects constituent ce que l'on appelle le niveau suprasegmental de la langue (dans la mesure où ils ne peuvent être rattachés strictement aux unités segmentables de la langue d'aucune des deux articulations classiques). Ils relèvent aussi de ce que les psychosociologues, à la suite de l'École de Palo Alto, ont nommé la communication "analogique".

Retour à la section "2. L'audition"

Retour à la Table des matières


3. La vision

3.1. Réduire l'information

Avant d'aborder certains des processus qui permettent de passer de la sensation à la cognition, les auteurs rappellent que la base du processus de la vision se fonde sur une réduction drastique de la quantité d'informations potentiellement perceptibles (107 bits/sec). Des travaux comme ceux de Francke (1977) ont montré que cette réduction est due à la capacité qu'a notre conscience de traiter l'information: entre 8 et 25 bits/secondes, soit en moyenne 160 bits si l'on considère que 10 secondes constituent "l'épaisseur du présent". Au niveau neurophysiologique, on observe déjà une importante réduction de l'information puisque l'oeil humain contient 130 millions de récepteurs et un million de cellules ganglionnaires qui constituent le nerf optique.

Ce phénomène de réduction, l'élimination de certains stimuli chez Eco (cf. ci-dessous), nécessite une série de routines telles que l'abstraction, la sélection, la concentration en classes, l'utilisation séquentielle des informations en surnombre, etc. Ce n'est qu'à ces conditions que la perception brute des stimuli pourra donner naissance à des constructs (la ligne, la surface, etc.) et finalement à des entités plus globales, à des objets.

Quant aux organes de la vision (rétine et cortex, le système dit "rétinex" par le Groupe µ, 1992), ils sont sensibles aux vibrations électromagnétiques dont la fréquence est comprise approximativement entre 390 et 820 nanomètres (1 nm = 1.10-6 mm) - soit de l'ultraviolet à l'infrarouge - qui constituent la lumière visible. La fréquence de la radiation est perçue subjectivement comme sa couleur et l'amplitude comme son intensité lumineuse. Notons déjà qu'il faut distinguer la luminosité de la luminance: la première étant " le phénomène perçu d'une propriété physique d'une surface " (Weil-Barais, 1993:133). Cette distinction est importante car elle marque la limite entre la description physique des stimuli et la perception subjective que l'on en a, exactement de la même façon que pour l'oreille et l'audition.

On sait d'ailleurs que la sensibilité de l'oeil, pas plus que celle de l'oreille, n'est constante (cf. ci-dessus). Sa sensibilité est meilleure pour les fréquences correspondantes au vert, comme le montre le graphique ci-dessous.

Figure 6. La courbe de sensibilité de l'oeil

(d'après Terrasson, p. 14)

A côté de cette contrainte qualitative, il en existe deux autres tout aussi importantes: le seuil d'excitabilité visuelle (une candela par mètre carré) et la durée de stimulation indispensable pour qu'existe l'excitation, le temps utile.

Un des aspects fondamentaux de la perception visuelleperception visuelle et la transformation qu'opère le systèmesystème du continu vers le discontinu: la rétine en effet est composée de capteurs ponctuels et discontinus, les cônescônes et les bâtonnetsbâtonnets. Cependant l'image rétinienne n'est pas un ensemble non coordonné de points, sinon elle ressemblerait à l'image de neige d'une télévision allumée mais sans image.... Elle ne nous serait donc d'aucune utilité.

Au niveau de la rétine déjà, cônescônes et bâtonnetsbâtonnets sont interconnectés horizontalement (cellules horizontales et amacrines) et verticalement (cellules bipolaires et ganglionnaires). On a pu montrer qu'au niveau physiologique déjà l'influx nerveux est retraité à la croisée de chaque fibre. Il s'agit d'une intégration d'autres données provenant non seulement d'autres capteurs et donc de l'excitation d'autres terminaisons nerveuses du même système, mais aussi d'autres zones de l'organisme percevant (Bonnet, Ghiglione, Richard, 1989).

Figure 7. Structure de la rétine (d'après Bonnet et al., p.9)

Retour à la sous-section "3.1. Réduire l'information"

Retour à la section "3. La vision"

Retour à la Table des matières

3.2. Les primitives visuelles

Au-delà de ce premier aspect, le système visuel analyse séparément certaines dimensions de la stimulation. Ceci veut dire que selon les régions du cortex, les neurones réagissent spécifiquement à certaines dimensions que l'on appelle des primitives: "Une dimension est une primitive pour le système visuel si celui-ci dispose de sous-systèmes spécialisés pour en coder les modalités ou les niveaux" (Bonnet, 1989:29). On a pu mettre en évidence expérimentalement plusieurs de ces dimensions: le contour, l'orientation, la disparité rétinienne, la fréquence spatiale, la direction du mouvement, la forme, la couleur. Les neurones visuels sont donc considérés comme des détecteurs de caractéristiques ou de propriétés traitant de façon séparée la distribution de la luminance sur l'image rétinienne. En réalité: "Compte tenu des fluctuations aléatoires des activités propres à tout système biologique, il paraît plus exact de considérer les neurones visuels comme des filtres "accordés" (tuned) maximalement activés lorsque leur champ récepteur est stimulé par une dimension assez précise de la distribution spatio-temporelle de luminance;" (Bonnet, 1989:28).

Remarquons que certaines illusions d'optique sont liées à ces mécanismes. Tel est par exemple le cas de la perception des contrastes simultanés d'orientation et de fréquence spatiale (cf. Figure 8, ci-dessous).

Figures 8 a et b. Contrastes simultanés d'orientation et de fréquence spatiale (d'après Bonnet, p.33)

Retour à la sous-section "3.2. Les primitives visuelles"

Retour à la section "3. La vision"

Retour à la Table des matières

3.3. De quelques réflexes d'exploration visuelle

On a pu montrer l'existence d'un réflexe de poursuite: l'oeil se déplace de façon à ce que l'objet regardé et perçu par la rétine périphérique se trouve toujours au centre de la fovea, partie la plus discriminative (Reuchlin, 1984).

Des expériences montrent que l'on a tendance à regarder automatiquement les points de l'espace visuel qui sont le plus pertinents et le plus chargés d'informations (lignes, intersections, etc.): il s'agit d'une fonction innée dite "de capture informationnelle" (Guzmán, 1969; Paillard, 1974). Ces intersections jouent d'ailleurs un rôle important dans l'identification des surfaces, des volumes et de la disposition relatives des objets comme le montre la Figure 9, ci-dessous.

Figure 9. Rôle des fourches et des "T" dans l'identification des volumes.

Un autre bon exemple de cette capture informationnelle est celui de la poupée du ventriloque dont les lèvres mobiles captent l'attention du spectateur au détriment des lèvres du ventriloque.

En conséquence, tout objet, toute image présentés à l'oeil possèdent des points de fixation remarquables. L'études des mouvements oculaires montre l'existence de patterns constants, par exemple les yeux et la bouche pour le visage (cf. Figure ci-dessous), l'horizontalité et la verticalité.

Figure 10. Tracés des mouvements oculaires sur un visage

(d'après Agostini, p. 68)

Les mouvements oculaires sont d'autant plus stéréotypés que l'image est prégnante. En réalité, on doit admettre que l'information n'est pas également répartie au sein d'une image: les mécanismes perceptifs accordent plus d'importance aux contours qu'aux surfaces, et au sein des contours, les changements de direction sont plus importants que les arcs réguliers ou que le segments droits.

Figure 11. Les pictogrammes de Kanizsa

Aussi dans une forme géométrique, par exemple, les angles sont plus importants, plus chargés informationnellement que les côtés. C'est la structure de la forme qui hiérarchise les éléments structurels de celle-ci. Une illustration de ce phénomène est celui des contours virtuels dans les pictogrammes de Kanizsa (cf. Figure 10) dont nous reparlerons plus avant et qui ont d'ailleurs fait l'objet de nombreuses interprétations (de type gestaltiste, calculatoire ou encore de résolution de problème). Enfin, un dernier exemple est celui de l'écriture dont on sait expérimentalement que les tracés supérieurs suffisent avec un peu d'expérience à déchiffre un texte alors que la moitié inférieure de lettres ne permet quasiment aucune reconnaissance du texte.

Si donc l'on peut accepter l'existence de réflexes perceptifs et d'un traitement pré-attentif à partir de modules fonctionnellement distincts, reste encore à expliquer comment l'on passe de ce premier niveau d'analyse des stimuli à la reconnaissance des formes et des objets. Autrement dit encore, comment l'on passe du perceptif au cognitif.

Retour à la sous-section "3.3. De quelques réflexes d'exploration visuelle"

Retour à la section "3. La vision"

Retour à la Table des matières


Du perceptif au cognitif

Nous présenterons dans la suite plusieurs modèles d'inspiration diverse: psychologie et recherche expérimentale classique mais aussi sémiotique visuelle et fondements perceptifs des mécanismes sémiotiques.

Le principe de la reconnaissance des formes est un bon exemple pour imaginer comment fonctionne la perception et les mécanismes de traitement -de codage et d'interprétation- des stimulations sensorielles. Fondamentalement deux hypothèses permettent d'expliquer ces processus (Lindsay et Norman, 1980) que l'on peut synthétiser brièvement de la façon suivante.

1. Les deux modes de traitement de l'information

1.1. Première hypothèse: traitement dirige par les données

Le traitement de l'information serait dirigé par les données, d'où l'importance du gabarit. Il existerait pour chaque forme à reconnaître un gabarit et pour reconnaître un signal provenant de notre environnement, il faudrait lui faire correspondre - apparier - le gabarit interne. Mais cette hypothèse est faible, car les gabarits manquent de souplesse: il est impossible d'avoir un gabarit exact pour chaque forme, pour chaque signal perçu. De plus, à chaque variation d'orientation devrait correspondre un gabarit différent.... Ce qui rend évidemment le processus très peu économique... Le mécanisme procède de façon linéaire à partir des données. Il s'agit de mécanismes ascendants, bas vs haut, bottom/up. Pour les différentes raisons que nous venons d'évoquer, cette hypothèse en tant que seule forme d'explication des processus de reconnaissance et d'identification a été abandonnée.

1.2. Seconde hypothèse : traitement dirigé par les concepts

Le traitement de l'information serait dirigé par les concepts, d'où l'importance de l'interprétation et des prototypes. Le traitement commence par la conceptualisation de ce que l'image peut représenter, puis il cherche une confirmation, faussant les mécanismes de traitement pour obtenir le résultat escompté. Le mécanisme fonctionne à rebours, à partir de ce qui est escompté. Dans ce cas on parle de mécanismes descendants, top/down.

VOIR PAR EXEMPLE:

photo extraite de L'année dernière à Marienbad, (Resnais, 1961)

photo du dalmatien (Lindsay et Norman).

A ce propos, Bonnet (1989:55) rappelle la définition que donnent Weisstein et Wong (1986) des processus d'extraction de la figure par rapport au fond. Ces auteurs, à propos de figure, parlent de " perception d'objets comme d'entités séparées de leur fond ". Pour Bonnet l'utilisation du terme d'objet en lieu et place de celle de figure indique clairement qu'il s'agit de mécanismes descendants partant de nos représentations cognitives vers le traitement perceptif des formes. Cette explication demeure conforme avec les théories classiques (Brunner, 1957 ou Fraisse, 1961) selon lesquelles l'acte fondamental de la perception consiste en une confrontation des stimuli et de leurs traces mnésiques avec les catégorisations. Par ce dernier terme, il faut entendre bien sûr conceptualisation plutôt que simple gabarit de reconnaissance.

En définitive, les deux processus peuvent coexister et contribuer à l'interprétation de la réalité perçue. De là sans doute un grande nombre de difficultés de lecture, d'interprétation, et de compréhension de messages visuels: il arrive souvent qu'il y ait contradiction entre le traitement par données et le traitement par concepts. C'est typiquement le cas des figures réversibles (équiprobables) ou encore des figures paradoxales (cf. ci-dessous).

Le processus demande toujours une décision perceptive qui penchera toujours en faveur de ce qui est le plus probable ou le plus économique: la forme la plus régulière, la forme attendue, la forme connue, etc. Les acquis cognitifs et les apprentissages perceptuels auxquels est entraîné le sujet déterminent en grande partie sa décision. Si l'on réduit l'éclairement d'une surface blanche jusqu'à ce qu'elle réfléchisse moins de lumière qu'une surface noire bien éclairée, la première sera néanmoins perçue comme plus claire que la seconde. De même, l'image de la lune à l'horizon sur la rétine est bien plus petite que celle d'une pièce de monnaie et pourtant celle-ci n'est jamais perçue comme étant la plus grande. A l'appui de ces thèses, on peut encore citer les expériences anciennes sur la mémoire des couleurs de Duncker (1939), de Bruner, Postman et Rodrigue (1959), ou encore de Fisher (1956), qui montrent que lorsque des sujets doivent composer à l'aide d'un mélangeur chromatique la couleur de figurines dont la couleur originale a été altérée ou masquée, la signification des figurines constitue toujours un facteur d'accentuation de la couleur recomposée. Hastorf et Ittelson ont montré l'influence de la connaissance réelle de l'objet, acquise par manipulation à des distances très différentes, pour le jugement de distance. L'évaluation comparée de la grandeur respective de plusieurs objets situés à des distances différentes, se réfère automatiquement à notre connaissance de la grandeur réelle des objets, quelle que soit la grandeur apparente: c'est ce que montrait déjà l'exemple de la lune et de la pièce de monnaie. Les mécanismes cognitifs permettent donc de suppléer aux indices perceptifs, aux "gradients de simulation" et, si nécessaire, de les corriger: "La constance des choses réelles est dans une large mesure préservée dans la constance des choses phénoménales, malgré les variations de leurs stimuli proches" (Kofkka, cité par Frances).

Figure 12. A. Calder et son "chapeau"

Figure 13. A. Calder et son "chapeau".

(D'après Agostini, p. 67)

Dans la mesure où la reconnaissance et l'identification des formes et des objets procède des deux formes de traitement et où le rôle des prototypes (cf. ci-dessous 3.1.4), de la catégorisation et donc du traitement par concepts (processus descendant) a souvent une importance déterminante, il est évident que l'on ne peut reconnaître que ce que l'on connaît par ailleurs à travers une expérience existentielle. On ne peut identifier et reconnaître une représentation picturale d'un objet qu'à condition d'avoir eu l'occasion, par une expérience préalable, d'en construire une représentation. Une expérience vicariale ne peut être perçue, comprise - faire sens - que si elle s'appuie sur une connaissance préalable de cette expérience et sur la capacité qu'a le sujet à la dénommer. Or, dans de nombreux cas d'éducation dans les pays en voie de développement - dans des expériences comportant donc un aspect fortement transculturel - on a cru pouvoir d'une part transposer des représentations visuelles "européennes" à des contextes différents et, d'autre part, utiliser des représentations visuelles des situations nouvelles devant faire l'objet d'un apprentissage. Il est évident que dans de tels contextes, l'utilisation de plages visuelles ne peut en aucune façon constituer une aide à l'apprentissage. On rappellera cette expérience ancienne d'éducation sanitaire en Amérique latine, dans les années '60. Il s'agissait d'apprendre à la population à éviter de créer des poches d'eau stagnante à proximité des habitations afin d'éviter la prolifération de mouches vecteurs de maladies. La campagne d'information et d'éducation avait été basée sur des projections cinématographiques présentant notamment des gros plans de mouches. La campagne n'eut aucun effet sur le comportement des gens qui continuèrent à déverser les eaux usagées derrière les habitations. Interrogés, ils déclarèrent ne pas connaître un tel animal dans leur environnement ! Objet réel et représentation de celui-ci avaient été confondus.

VOIR PAR EXEMPLE:

images d'éducation sanitaire ou agricole en situation transculturelle.

Pour clôturer ces quelques notions, ajoutons qu'une représentationreprésentation peut cependant constituer l'expérience de référence de nombreux phénomènes réels auxquels on ne peut accéder qu'à travers une expérience vicarialevicariale (cf. imagerie scientifique).

Retour à la section "Du peceptif au cognitif"

Retour à la Table des matières

2. Voir les formes

Les éléments que nous présentons ci-dessous se fondent principalement sur la théorie de la forme, le Gestalttheorie, formulée par Max Wertheimer (1912), Wolfgang Köhler (1929) et Kurt Koffka (1935). Pour ces auteurs, la forme - le tout - ne peut être considérée comme la somme de ses parties; elle possède des propriétés qui ne résultent pas de la simple addition des propriétés des parties. C'est donc la forme qui fonde l'unité perceptive et celle-ci est une propriété relationnelle (von Ehrenfles, 1890, cité par Weil-Barais, 1993:137). A l'appui de ces thèses concernant l'organisation perceptive, il est un exemple souvent cité tant il est évident. Il s'agit de la mélodie qui demeure reconnue même si l'on en change la tonalité par une simple transposition: on conserve son contour mélodique même si chacune de ses notes a changé. En réalité, on maintient inchangée la hauteur relative de chaque note dans une séquence temporelle identique (en conservant donc à chacune d'elles sa longueur, sa durée). Par contre, si l'on modifie l'ordre des notes ou si l'on en change la durée, on transforme la mélodie.

2.1. La figure et le fond

Cette distinction est fondamentale pour la structuration de la perception. En effet, pour distinguer des formes, il faut que l'organisme soit sensible aux différences d'intensité lumineuse et qu'il soit capable d'organiser les patterns en une structure. La détection des différences de luminance est la condition première pour l'identification du fond et de la forme. Dans tous les cas la discrimination figure/fond doit intervenir précocement dans la perception. On sait par ailleurs que le système perceptif accentue la limite entre deux surfaces juxtaposées d'inégale luminance afin de créer des contours: il s'agit du phénomène connu sous le nom des bandes de Mach qui consiste en l'apparence d'une bande plus sombre au bord de la surface la plus sombre et de la perception d'une plus grande luminosité du côté de la surface la plus lumineuse. En réalité les neurones fonctionnent comme des renforçateurs de contrastes.

La ligne tout d'abord sépare deux zones; la ligne fermée, en devenant contour, délimite une surface. La technique dite de la ligne claire utilisée par exemple dans la bande dessinée - plus particulièrement par l'école belge et Hergé- ou la peinture naïve sénégalaise sur verre - les "fixés" - utilisent la ligne pour circonscrire toutes les surfaces avant de les remplir par les couleurs. De nombreux logiciels de graphisme offrent cette possibilité d'inscrire dans une forme un à-plat coloré.

Figure 14. Cora M'Bengue au travail (Renaudeau, Strobel, 1984:14)

Pourtant une forme peut être définie, nous l'avons vu, par des contours virtuels (cf. ci-dessus, le triangle de Kanizsa ou encore la figure ci-dessous). La peinture impressionniste nous a appris à voir des formes même si les contours n'en sont pas strictement tracés: l'alignement de points isolés (cf. ci-dessous, Figure 15a), de simples variations chromatiques, la qualité de la luminance, une variation d'orientation ou de la fréquence spatiale (cf. Figures 11b et c) suffisent à créer pour la perception le contour et donc la surface. Les peintures de Vasarelli sont de parfaites illustrations de ce phénomène.

Figures 15 a, b et c. Les contours virtuels (alignement et changement d'orientation)

(d'après Agostini, p. 141 et Bonnet, p. 52)

Figure et fond ont des caractéristiques perceptives différentes:

Si l'on analyse l'exemple ci-dessous, on se rendra compte facilement que les formes régulières (le cercle et le carré) apparaissent à l'avant-plan et sont en conséquence considérées comme les figures tandis que les autres éléments graphiques se voient projetés à l'arrière-plan. Les figures possèdent les caractéristiques que nous venons d'énumérer: elles sont régulières, fermées, plus foncées (elle possède une surface noire plus importante que les autres éléments); enfin, elles occupent une surface plus petite que la surface totale, englobant les autres éléments.

Figure 16. La ségrégation figure/fond

(d'après Agostini, p. 114)

Citons enfin, les exemples de figures réversibles dont le vase de Rubin: la ségrégation figure/fond-fond peut être faite de deux façons différentes, chacune de celles-ci étant équiprobable.

Figure 17. Equiprobabilité de la figure et du fond

(d'après Weil-Barais, 1993:136)

Retour à la sous-section "2.1. La figure et le fond"

Retour à la sous-section "2. Voir les formes"

Retour à la section "Du peceptif au cognitif"

Retour à la Table des matières

2.2. La discrimination des formes et les regroupements

Pour la théorie gestaltiste, la perception s'organise selon les critères de la "bonne forme": une forme a des propriétés qui ne résultent pas de l'addition des propriétés de leurs composantes; le tout est plus que la somme des parties et la forme est donc une propriété relationnelle. C'est à Wertheimer d'avoir établi les principes fondateurs du mouvement:

  1. la perception est structurée d'emblée, elle ne peut se faire en regroupant des éléments isolés;
  2. il n'y a pas de distinction entre perception et sensation;
  3. le tout est perçu avant les parties;
  4. l'organisation en ensembles n'est pas laissée au hasard, certaines configurations ayant plus de chance d'être identifiées.

Le mouvement gestaltiste a décrit une série de lois structurales qui règlent notre perception. Les auteurs recensent jusqu'à plus de 100 lois de ce type. Nous ne reprendrons ici que les principales dont certaines sont bien connues et à l'origine de nombreuses illusions d'optiques sur lesquelles nous reviendrons.

2.2.1. La bonne forme

La loi de la bonne forme ou loi de la prégnance: " un pattern de stimulation est vu de telle sorte que la structure résultante est toujours la forme la plus simple, la plus équilibrée, la plus stable " (Weil-Barais, 1993:139). Les bonnes formes sont celles qui présentent des régularités géométriques, par exemple des figures symétriques (cercles, carrés, hexagones, etc.). La figure ci-dessous est perçue comme représentant un quadrilatère et un triangle imbriqués et non comme celle d'un polygone irrégulier à 10 côtés.

Figure 18 .Les bonnes formes

Dans la seconde figure nous percevons bien deux motifs réguliers imbriqués - une croix et un hexagone - et non deux polygones irréguliers.

Figure 19. Les bonnes formes

Enfin, dans la troisième figure, on perçoit le triangle malgré la trame lignée qui lui est superposée.

Figure 20. Les bonnes formes

2.2.2. La proximité

La loi de la proximité ou de la régularité: " Toutes choses étant égales par ailleurs, le groupement en unités se fait sur la base de la plus petite distance " (Weil-Barais, 1993:139), c'est-à-dire que le regroupement des éléments se fait en fonction de la proximité relative des objets.

Dans la figure ci-dessous nous percevons trois colonnes (axe vertical) de points et non cinq lignes de six points (axe horizontal).

Figure 21. Regroupement par proximité

2.2.3. La similarité

La loi de similarité ou loi d'égalité: " Quand les éléments sont différents et équidistants, les éléments semblables paraîtront apparaître au même ensemble " (Weil-Barais, 1993:139).

Dans la figure ci-dessous, malgré le fait que tous les points soient équidistants, le regroupement se fait par couples de points noirs et blancs.

Figure 22. Regroupement par similarité

2.2.4. La clôture

La loi de clôture ou de regroupement par fermeture: " Si plusieurs organisations sont équiprobables sur base des lois précédentes, l'organisation en figures fermées a le plus de chance d'être observée " (Weil-Barais, 1993:141). Les formes non lacunaires sont donc plus probables et donc plus facilement reconnues. Il s'agit en réalité d'une application de la loi de la bonne forme, puisqu'une forme fermée paraît plus prégnante qu'une forme ouverte, ne constitue pas réellement une forme, son contour étant incomplet.

Ces deux figures sont perçues de façon fort différentes: la première offre un regroupement de lignes les plus proches conformément à la loi de la proximité, tandis que la seconde fait apparaître un regroupement de rectangles, les lignes verticales organisant en un ensemble les lignes verticales les plus éloignées.

Figure 23. Regroupement par clôture

2.2.5. La continuité

La loi de la continuité: " Lorsque des points sont rapprochés, ils tendent à former une courbe ou une droite, mais l'appartenance d'un point à une ligne dépend du fait que ce point est dans le meilleur prolongement de la ligne " (Weil-Barais, 1993:139). Cette loi permet d'expliquer la perception de lignes virtuelles au sein de compositions graphiques et/ou photographiques comme l'ont montré les analyses de H. Mante (1977).

Figure 24. Regroupement par continuité (Agostini, 1987:79)

Dans cette photographie (Mante, 1977: 34), les lampes constituent une première ligne optique - virtuelle - courbe et une seconde, rectiligne. Il est important que la langue elle-même désigne ces lignes virtuelles par la notion d'alignement.

Figure 25 a et b. Regroupement par continuité

2.3.6. Le destin commun

La loi du destin commun: " les choses ou les points qui se déplacent selon une même trajectoire apparaissent groupés " (Weil-Barais, 1993:141). On a pu mettre cette loi en évidence expérimentalement, déjà chez les nourrissons de 4 mois.

Ces différentes lois ont été complétées et précisées. Cependant, les principales critiques qui leur ont été adressées sont d'une part leur caractère descriptif et d'autre part la nature bi-dimensionelle et trop simple du matériel ayant servi à leur formulation. Dans une perspective cognitiviste, des recherches expérimentales et quantitatives ont été menées pour déterminer quelles sont, par exemple, les dimensions responsables des regroupements. Il existe des conflits entre certaines de ces dimensions: l'orientation prévaut parfois sur la forme, la loi de la bonne continuité peut constituer un frein pour l'identification de certaines cibles, comme d'ailleurs la loi de la proximité (cf. Les trois figures ci-dessous).

Figure 26. Prévalence de l'orientation sur la forme

(d'après Weil-Barais, p. 141

Figure 27 . Loi de la continuité

(d'après Weil-Barais, p. 142)

Figure 28. Loi de la proximité

(d'après Weil-Barais, p. 143)

Enfin, dans le cas de figures réversibles, selon une interprétation strictement gestaltiste une des deux figures devrait être privilégiée par rapport à l'autre. Indépendamment de facteurs subjectifs d'interprétation, on sait que la fixation sur certains détails de l'image permet d'en faire basculer l'interprétation. Certains détails (information locales) contribuent donc à la structuration perceptive globale (information globale).

Retour à la sous-section "2.2. La discrimination des formes et les regroupements

Retour à la sous-section "2. Voir les formes"

Retour à la section "Du peceptif au cognitif"

Retour à la Table des matières

3. De la forme aux objets

3.1. Les primitives de niveau supérieur

Le passage de la forme à l'objet a donné lieu à plusieurs hypothèses. La première approche (Treisman, 1986) se base sur l'intégration progressive, par étapes successives, de niveaux de codification de complexité différents: des primitives (propriétés ou dimensions de base, cf. ci-dessus) codées automatiquement par des mécanismes pré-attentifs, ne demandant donc aucune conscience de la part du sujet, feraient ensuite l'objet d'une nouvelle combinaison lors de processus demandant une attention consciente du sujet. Une autre approche est celle proposée par Biederman (1987). Le sujet recomposera un objet à partir de primitives de niveau supérieur, les geons (geometric ions). L'auteur en dénombre 24 qui par leurs nombreuses combinaisons permettent de créer une très grande quantité d'objets. Dès lors la reconnaissance des objets passerait par l'identification des geons composant un objet.

Figure 29. Les "geons" de Biederman

(d'après Weil Barais, p. 145)

Quant à la réalisation de cette combinaison, elle se ferait soit selon les caractéristiques physiques de la stimulation soit selon la connaissance qu'a le sujet du contexte dans lequel est perçu le stimulus. Enfin, citons l'approche computationelle de Marr (1982). Selon celle-ci, la perception serait le résultat final d'une analyse mathématique de l'information de l'image rétinienne. Dans ce cas les processus seraient exclusivement ascendants.

3.2. L'effet de supériorité de l'objet

On sait que l'identification d'un élément pictural peut se voir fortement améliorée si "cet élément est inclus dans un contexte pictural "représentant" un objet possible par rapport à ce qu'elle était lorsque l'élément est représenté seul ou dans un contexte pictural ne représentant pas un objet." (Bonnet et al, 1989:60, citant les expériences de Weisstein et Harris, 1974). Il s'agit d'un effet proche de celui qui avait déjà été observé pour les lettres, qui sont mieux reconnues lorsqu'elles sont intégrées dans un mot que dans une suite aléatoire de lettres (effet de supériorité du mot). L'explication de cet effet est loin d'être simple puisqu'il semble que la configuration de l'élément pictural ait autant d'importance que sa dimension objectale. De plus, le degré de familiarité des sujets à certains stimuli mais aussi à certaines configurations graphiques pourrait jouer un rôle important. La familiarité, rappelle Bonnet, n'est pas en effet une propriété des stimuli mais bien de représentations construites par le sujet. La disponibilité des représentations, d'ailleurs, en dépend. On se trouve donc à l'articulation de deux mécanismes fondamentaux top/down et buttom/up dont il est question ci-dessus (cf. les deux modes de traitement de l'information).

Cet effet explique partiellement la labilité de l'articulation du signe visuel, donc sa décomposition et son organisation en superentités comme en sousentités (Groupe µ, 1992: 148), sur lesquelles nous aurons à revenir dans la suite. Par exemple, telle forme ovale sera interprétée comme un oeil dans certains contextes où l'on pourra identifier simultanément l'arrondi d'un visage, la bouche, un nez, etc. Mais dans un autre contexte, la même forme pourra recevoir une autre interprétation et s'intégrer à une autre surentité.

3.3. Le prototype

Identifier un objet à partir d'informations sur sa forme implique que l'on ait construit au préalable une représentation de cet objet et qu'on puisse comparer la représentation picturale avec celle en mémoire. Il s'agit classiquement de la théorie du gabarit, qui suppose que l'individu procède par appariement. Mais cette théorie présente beaucoup d'inconvénients: le principe de comparaison ne spécifie pas le processus lui-même et, de plus, elle suppose un nombre de représentations en mémoire très important... car n'importe quelle modification de taille ou d'orientation de l'objet nécessiterait un nouveau gabarit. Comme telle, elle a été rapidement abandonnée au profit de la théorie du prototype, une "représentation abstraite en mémoire d'une forme ou d'un objet résultant d'une synthèse statistique de tous les patrons individuels des formes d'une catégorie donnée" (Bonnet et al., 1989:61-62). Le prototype est donc un concept plus souple et plus économique que celui de gabarit. Son existence a d'ailleurs pu être montrée expérimentalement, notamment par les expériences de Posner (cf. Bonnet et al., ibidem).

Plusieurs hypothèses ont été formulées pour expliquer le processus de formation des ces prototypes:

  1. une hypothèse statistique fondée sur le moyennage de différents exemplaires de la catégorie perçus par le sujet;
  2. une hypothèse fondée sur la distribution des différents exemplaires perçus, de façon à limiter dans la constitution du prototype l'importance des exemplaires déviants ou trop excentriques;
  3. une hypothèse plus qualitative, visant à la création d'un modèle typique reproduisant les traits caractéristiques, les attributs du plus grand nombre des exemplaires perçus.

Bonnet rappelle que rien n'empêche en principe que ces trois processus coexistent. De plus, il propose de considérer le prototype non comme une représentation figée (conception platonicienne ou gestaltiste) mais comme une représentation en évolution permanente et remise à jour en fonction de notre expérience des objets, donc susceptible d'apprentissage.

Enfin, le prototype concerne également les objets tridimensionnels et présenterait une vison typique de ceux-ci. Il s'agirait du point de vue le plus familier ou celui qui, par rapport à d'autres angles de vue - d'autres orientations - et par rapport à d'autres objets, présenterait le pouvoir de discrimination le plus important. Ceci semble être confirmé par des études expérimentales (Palmer, Rosch et Chase, 1981, cité par Bonnet et al., 1989: 63) puisqu'il existerait pour chaque objet une orientation abaissant la durée de latence d'identification.

3.4.Les facteurs subjectifs d'interprétation

L'image déborde toujours de notre perception consciente. Ce n'est pas par hasard que de nombreux tests projectifs utilisent comme matériel de base des images. Il y a donc toujours une résonance profondément ancrée dans notre subjectivité (imaginaire, fantasme, expériences antérieures, etc.) qui oriente et détermine le processus de production du sens que nous mettons en oeuvre à propos d'une image.

La motivation, l'intérêt et l'attente du sujet jouent aussi un rôle important dans les processus perceptifs; ils ont pour effet de favoriser ou d'inhiber les stimuli qui leur sont liés selon qu'ils satisfont ou non le besoin ou l'intérêt, selon qu'ils abrègent ou provoquent l'anxiété, la douleur, ... Notons que les stimuli peuvent être liés à un intérêt, à une attente du sujet, soit pour des raisons de conditionnement temporaire, soit d'apprentissage fixé définitivement.

Depuis fort longtemps, de nombreuses expériences ont été réalisées, qui toutes mettent en évidence, de façon probante, l'effet sensibilisateur de la motivation sur la perception et sur la reconnaissance des stimuli, notamment chez des sujets soumis au jeûne ou à la douleur (Lazarus, 1953 et Rosen, 1954).

Enfin, les intérêts moraux, professionnels, socioculturels, ainsi que les réactions affectives du sujet, peuvent influencer sa sélectivité perceptive: la reconnaissance et l'identification des stimuli peuvent être perturbées, si ceux-ci sont liés à certains intérêts dans son expérience personnelle, soit de façon négative (rejet) soit de façon positive (renforcement, surestimation). Citons les schémas expérimentaux de Postman (1948) et de Haigh (1952) qui sont de ce point de vue particulièrement démonstratifs.

Le test déjà ancien de Allport-Vernon permet d'évaluer l'intérêt individuel dominant des sujets (esthétique, politique, économique, ...) à partir d'une liste de choix verbaux. On soumet un groupe d'individus à un test de reconnaissance en temps bref de mots groupés sémantiquement autour de ces différents intérêts. L'ordre de présentation des mots est bien sûr aléatoire. Puis on administre le test d'Allport aux mêmes sujets. Dans tous les cas, l'intérêt dominant du sujet ainsi déterminé est une source significative de la variation des seuils de reconnaissance des mots.

VOIR PAR EXEMPLE:

la série d'images de la petite gare provençale qui montre bien le degré de liberté et d'interprétation par rapport à l'objet. Il s'agit bien sûr du processus inverse mais cela n'infirme en rien le point de vue défendu ici.

série de représentations du monde.

On connaît par ailleurs l'importance que l'on accorde dans la communication non verbale aux yeux et plus particulièrement aux pupilles: il semble que l'on associe à une grande ouverture de celles-ci des qualités de douceur, de gentillesse, etc., bref des qualités positives (cf. Figures ci-dessous).

Retour à la sous-section "3.1.Les primitives de niveau supérieur"

Retour à la sous-section "3.2. L'effet de superiorité de l'objet"

Retour à la sous-section "3.3. Le prototype"

Retour à la sous-section "3.4.Les facteurs subjectifs d'interprétation"

Retour à la sous-section "3. De la forme aux objets"

Retour à la Table des matières

4. Le Groupe µ

Nous présenterons pour terminer le modèle proposé récemment par le Groupe µ (Edeline, Klinkenberg et Minguet, 1992). Il a en effet, pensons-nous, le mérite de proposer une analyse des fondements perceptuels d'une sémiotique visuelle. Autrement dit, il cherche à articuler une théorie du signe visuel sur la base des mécanismes perceptifs, ce que ne font pas les théories psychologiques que nous avons évoquées. L'idée n'est cependant pas neuve, tout au contraire. Si l'on accepte provisoirement comme définition du signe visuel le fait qu'il ressemble à ce qu'il représente, on se souviendra qu'Eco fut sans doute le seul, à l'époque du structuralisme triomphant, à défendre la thèse selon laquelle la communication visuelle prendrait naissance non pas dans le rapport entre le code et le message mais dans les mécanismes mêmes de la perception qui fondent les modalités de production des signes: "Les signes iconiques ne possèdent pas les propriétés de l'objet représenté, mais ils reproduisent certaines conditions de la perception commune sur la base des codes perceptifs normaux et par la sélection des stimuli qui - ayant éliminé d'autres stimuli - peuvent me permettre la construction d'une structure perceptive. Cette structure perceptive possède - sur la base des codes de l'expérience acquise - la même signification que l'expérience réelle dénotée par le signé iconique" (Eco, 1970:14). En d'autres termes, "si le signe [iconique] a des propriétés communes avec quelque chose, il les a non avec l'objet mais avec le modèle perceptif de l'objet; il est constructible et reconnaissable d'après les mêmes opérations mentales que nous accomplissons pour construire le perçu, indépendamment de la matière dans laquelle ces relations se réalisent" (op. cit.:21). Eco situe donc la relation analogique non pas entre la représentation -  le signe iconique - et l'objet représenté - l'objet réel - mais bien entre l'icône et "un modèle perceptif de l'objet" (ibideml 21). Nous avons souligné tout l'intérêt de cette hypothèse dans le cadre d'autres travaux (Peraya, Nyssen, 1994). La perspective cognitiviste actuelle pousse "naturellement" à reconnaître comme fondée ces intuitions vécues à l'époque comme "psychologisantes" et à ce titre déconsidérées. En réalité si la perception aboutit à la constitution d'un objet, un objet n'est rien d'autre qu'un signe...

Figure 30. Un modèle du décodage visuel

Disons enfin que le modèle global du proposé par le Groupe µ se rapproche fort du modèle classique à trois niveaux (sensation, perception, cognition) proposé notamment par Bonnet et al. (1989). Cependant, il ne prend pas en compte le mouvement puisque le Groupe µ prend comme objet principal la peinture et l'image fixe. C'est sur la base de telles hypothèses que le Groupe fonde son Traité du signe visuel. Pour les auteurs, l'une des premières tâches consiste à établir les fondements perceptifs d'une sémiotique visuelle, autrement dit à analyser le processus sensation vs perception vs cognition. Le système visuel produirait dans les trois modalités que retiennent les auteurs - spatialité, texture et chromatisme - des structures de percepts élémentaires, intégrant et organisant les stimuli à partir de structures spécialisées: extracteurs de motifs, de directions, de contrastes, etc. On obtiendrait ainsi la production de figures, puis de formes et enfin d'objets. Les figures naissent d'un processus “ d'équilibration des zones d'égalité de stimulation ” - d'où les notions de champ, de limite, de ligne, de contour, etc. - tandis que les formes font “ intervenir la comparaison entre diverses occurrences successives d'une figure et mobilise[ent] donc la mémoire. ” (op. cit. : 68). Le passage à l'objet interviendrait ensuite par l'adjonction de propriétés non visuelles provenant des autres modalités sensorielles au moment où la forme se doterait de caractéristiques permanentes. L'objet qui s'apparente à la notion de type est alors considéré comme fort proche de celle du signe : “ De ce que les objets sont une somme de propriétés, douées de permanence et guidant l'action, on peut avancer que cette notion rejoint celle de signe. Le signe est en effet, par définition, une configuration stable dont le rôle pragmatique est de permettre des anticipations, des rappels ou des substitutions à partir de situations. Par ailleurs le signe a, comme on l'a rappelé, une fonction de renvoi qui n'est possible que moyennant l'élaboration d'un système. ” (op. cit. : 81). Le modèle du décodage visuel peut alors prendre la forme décrite dans la Figure 30 ci-dessus.

Retour à la sous-section "4. Le Groupe µ"

Retour à la Table des matières


Les pièges de l'image

L'image est source de:

SUBJECTIVITÉ: mécanismes projectifs, empathie, débordements vers l'imaginaire ou le fantasmatique, etc.;

AMBIGUÏTÉS: interprétations multiples d'une même "réalité", d'un même stimulus;

ILLUSIONS: désaccord entre les données objectives de l'image et les données perceptives, l'interprétation du percept;

HALLUCINATIONS: perception sans objet, en l'absence d'un stimulus externe réel;

PARADOXES: lorsque les lois qui gouvernent la représentation de l'objet sont en contradiction avec celles qui résultent de notre expérience de l'objet.

Nota Bene:

Le percept est "le produit mental de la perception par opposition au stimulus qui est un événement du milieu externe ou interne définissable en termes physiques" (Doron et Parot, Dictionnaire de Psychologie, 1991). Souvent opposé à concept bien que la limite semble parfois difficile à tracer.

1. Les images ambiguës et paradoxales

VOIR PAR EXEMPLE:

Toutes les images ambiguës y compris celle d'Escher, de Hill, triangle de Penrose

2. Les illusions d'optique

Les quelques illusions classiques présentées jouent sur le rapport entre le contexte et le stimulus.

Retour à la section "Les pièges de l'image"

Retour à la Table des matières


Bibliographie

Agostini Franco, Les jeux visuels, Paris, France Loisir, 1987.

Arnheim R., La pensée visuelle, Flammarion, Nouvelle Bibliothèque Scientifique, 1976.

Barlow Horace (Ed.), Images and understandings, Cambridge University Press, 1990.

Bonnet C., Ghiglione R., Richard J.F.; Traité de psychologie cognitive, I, Perception, Action, Langage, Dunod, 1989.

Cassirer E., La philosophie des formes symboliques. Vol. I et 2, Éditions de Minuit, 1972.

Denis M., Les images mentales, Presses Universitaires de France, 1979.

Denis M., Image et cognition, Presses Universitaires de France, 1989.

Ferenczi V., La perception de l'espace projectif, CREDIF, Didier, 1966.

Fraisse P., Manuel pratique de psychologie expérimentale, Presses Universitaires de France, 1974.

Frances R., "La perception des formes et des objets", Traité de psychologie expérimentale, Tome VI, La perception, Presses Universitaires de France, 1967, Chapitre XXI, 187-239.

Landercy A., Renard R. (1977), Éléments de phonétique, Bruxelles, Didier.

Lindsay P. H et Norman D. A. (1980), Traitement de l'information et comportement humain. Une introduction à la psychologie, Montréal, Éditions Études vivantes.

Mialaret G., Psychopédagogie des moyens audiovisuels dans l'enseignement du premier degré, UNESCO, 1964.

Paillart J., Espace visuel et programmation motrice, Cahiers de Psychologie, 1976,, 19, 171-180.

Peraya D., Quelques aspects de la structure rythmique et accentuelle en français standard: une étude de normes pédagogiques, Revue de phonétique appliquée, n° 7, 1984, Mons, Université de l'État à Mons, Diffusion Didier.

Peraya D., La recherche d'indices pertinents en idiomatologie. Quelques perspectives méthodologiques, Revue de phonétique appliquée, n° 69, Mons, 1984, Université de l'État à Mons, Diffusion Didier.

Peraya D., L'accent régional des locuteurs wolofs: rythme et accent. Étude comparée de normes pédagogiques, Bulletin de l'observatoire du français contemporain en Afrique noire, n° 4, 1983, Abidjan, Institut de linguistique appliquée/C.N.R.S., pp. 157-199.

Renaudeau M., Strobel M., Peinture sur verre du Sénégal, Nathan, NEA, 1984.

Reuchlin Michel, Psychologie, Paris, PUF, 1984.

Rigg R.P., L'audiovisuel au service de la formation. Méthodes-matériel, Entreprise Moderne d'Édition, 1974.

Richaudeau Fr., Le langage efficace, Retz, CPEL, 1973.

Weil Barais A. (Ed.), L'homme cognitif, Paris, PUF, 1993.

Retour à la Bibliographie

Retour à la Table des matières

Daniel Peraya