3 Les données psychoacoustiques

On examinera dans cette partie les caractéristiques physiques des sons de la parole, puis l’on verra l’influence de la perception sur le système articulatoire pour déboucher, enfin, sur l’émergence des sons langagiers.

3.1 Vers l’émergence des phonèmes

3.1.1 Généralités

Les sons du langage parlé, comme il a été dit en introduction de ce dossier, sont périodiques et complexes. On peut les analyser avec un spectrographe (qui produit une représentation graphique : un spectrogramme). En abscisse, on a le temps et la fréquence en ordonnée. Là dessus, on peut voir apparaître des barres foncées : les formants. Les formants correspondent aux pics de fréquence observés sur le spectre d’une voyelle : ces pics ont le maximum d’énergie. Pour une position donnée des articulateurs, il y a une résonance caractéristique : les formants. On peut numéroter ces formants : F1, F2… les deux premiers sont les plus importants, ils permettent de déterminer le triangle vocalique. Le premier formant F1 correspond à l’aperture de la voyelle (ouverture de la mandibule). Le second, F2, correspond à la position plus ou moins avancée de la langue.

A chaque sommet de ce triangle, on peut placer les voyelles /a/, /e/, /i/.

Il est aussi à noter que le troisième formant donne de l’information sur l’arrondissement des lèvres. Sur le spectrogramme n’apparaissent que les voyelles et pas (explicitement) les consonnes. Ces sons du langage sont définis, en phonétique, grâce à des phonèmes : le flux de parole est décomposable en phonèmes. Un phonème se définit par sa pertinence dans une langue donnée. En français, un phonème existe si il y a deux mots qui ne se différencie que par la présence ou l’absence de ce phonème (exemple : pâte et patte donc deux phonèmes différents pour le a). Le phonème est considéré comme la plus petite unité sonore pertinente dans une langue donnée. Mais elle-même peut être décrite par des caractéristiques plus fines. Le phonème est constitué par un faisceau de traits : les traits phonétiques :

La parole, contrairement à la vision, est un flux contenu dans le temps. Il n’est pas possible de réduire le mot prononcé comme un enchaînement de sons séquentiels et indépendant. " Speech is Special " comme le dit Alvin Liberman du laboratoire Haskins.. Un phénomène important est celui de la coarticulation : le mot parlé n’est pas une concaténation de phonèmes. L’être humain travaillant sur du moindre coût, il va mettre en place ses articulateurs avant la prononciation du phonème. Par exemple, le mot " oui " ne résulte pas de l’adjonction des phonèmes /u/ et /i/, la langue, lors de la prononciation de /u/ adopte une position médiane pour prononcer plus facilement le /i/. Chaque phonème prononcé anticipe le suivant. On modifie donc nos sons de parole en fonction du contexte : les consonnes se définissent par rapport aux voyelles adjacentes. Sur le spectrographe, cela a une incidence : pour trouver le lieu d’articulation des consonnes, on recherche deux paramètres : la transition formantique d’une part et le relâchement de la consonne d’autre part. Si l’on compare le spectrogramme du phonème /a/ seul avec celui de /pa/, on remarque que le début des formants du /a/ dans /pa/ est différent : il y a cette transition formantique. La parole est formé de sons coarticulés.

3.1.2 Les phonèmes des langues du monde

Les phonèmes des langues du monde sont répertoriés dans une base de donnée : l’UPSID (UCLA Phonological Segment Inventory Database) : on y trouve 652 consonnes et 180 voyelles, et 89 diphtongues. Cette inventaire est basée sur 451 langues (Maddieson et Precoda, 1990 cité dans de Boer, 1999). Si l’on regarde ces sons de plus près, on remarque qu’ils ne sont pas choisis au hasard dans une langue donnée. Des sons tels que /i/, /a/ et /u/ sont beaucoup plus fréquents (ils apparaissent dans 82% des langues de l’UPSID) que des voyelles telles que /y/ ou /œ/ ( 5 % et 2% d’occurrences). Le même constat peut être fait pour les consonnes. (/m/, /k/ et /j/ sont les plus courants). D’après Lindblom, les sons possibles d’une langue se divise en une articulation de base (" basic articulation "), une articulation élaborée (" elaborated articulation "p et une articulation complexe (" complex elaboration "). Les langues qui auraient un petit nombre de phonèmes n’utiliseraient que l’articulation de base. Un autre phénomène intéressant est la symétrie de l’inventaire des phonèmes (consonnes et voyelles). Il y a ainsi une régularité apparente dans les sons du langage. C’est cela qui a mené des chercheurs comme Noam Chomsky a expliquer les capacités langagières comme des aptitudes innées.

Un chercheur comme Crothers (Crothers, 1978, cité dans de Boer, 1999) a énoncé un certain nombre de règles sur les systèmes vocaliques des langues du monde  dont voici les trois premières :

Toutes les langues ont /i a u/.


Toutes les langues avec quatre voyelles ou plus ont /i/ ou /e /.

Toutes les langues avec cinq voyelles ou plus ont /e /.

Une typologie a ainsi été établie.

 3.1.3 La parole synthétique

Grâce à ces éléments, des chercheurs ont tenté des simulations de la parole : une parole synthétique. C’est le cas du Haskins Laboratory. Là, des chercheurs tels que Rubin (Rubin et al., 1998) réalisent une synthèse de la parole avec un contrôle articulatoire (et non acoustique) : Articulatory Synthesis. Il s’agit de spécifier à la machine divers paramètres telles que la position de la langue, des lèvres, du velum, de l’os hyoïde… Il existe aussi des recherches intéressantes utilisant des réseaux de neurones artificiels (type Perceptron multi-couches) qui tentent d’appareiller le spectre d’énergie des voyelles (sur le spectrogramme) et les paramètres du tractus vocal (Rubin et Vatikiotis-Bateson, 1998 pour un état de l’art). Toujours au laboratoire Haskins, des algorithmes génétiques sont employés pour modéliser la connexion entre articulation et acoustique. Enfin, des modèles connexionnistes servent à comprendre les interactions entre muscle et os (Hirayama et al. 1994, cité dans Rubin et Vatikiotis-Bateson, 1998) : les données sont alors mises en relation avec des électromyogrammes (enregistrement de l’activité musculaire).

3.1.4 Théorie quantale de Stevens

Cette théorie se base sur l’observation que pour certaines positions des articulateurs, un petit changement entraîne peu de modification sur la perception acoustique ; et par contre, pour d’autres positions, un même changement provoque de modifications énormes. Cela a amené Stevens a concevoir l’espace des possibilités articulatoires comme composé d’attracteurs (stables, des points d’ancrage) et de régions de transition rapide. Selon lui, les traits distinctifs peuvent être prédit et expliqué par les positions de ces attracteurs et ces régions de transition. L’espace des articulations possibles est vu comme divisé en état quantique.

La théorie de Stevens essaye donc de faire le lien entre les preuves physiques, psychologiques et physiologique à propos des traits phonétiques. Pourtant, elle a un certain nombre de lacunes (Cf. de Boer, 1999) dont le fait qu’elle n’explique pas le fait que certains traits sont plus importants que d’autres.

3.3 Influence des exigences perceptives

3.3.1 Généralités

Le problème de l’influence des exigences perceptives vient du constat simple qu’il existe une correspondance entre les caractéristiques de la perception auditive et la production de la parole. Sans entrer dans le détail, cette correspondance se situe au niveau de divers paramètres tels que la fréquence utilisée par la parole (pour la parole humaine, entre 200 Hz et 5kHz, ce qui correspond à la sensibilité de l’oreille), l’existence d’un codage temporel et fréquentiel, une certaine intensité…

D’où l’idée qu’il y aurait eu adaptation d’un système à l’autre. Reste à savoir lequel : le système de production ou le système perceptif ?

D’après (Greenberg, 1996), le système auditif est phylogénétiquement plus ancien que le système phonatoire humain. Contrairement au système auditif qui est relativement constant chez tous les mammifères (dont l’être humain), le système articulatoire est très spécialisé, chez l’humain il est vraiment différent des autres phylums. Cela prouverait donc une adaptation de l’appareil phonatoire au système auditif. De plus, l’évolution du tractus vocal, décrit en 2.2 renforce cette idée. Le larynx n’est responsable que de la fréquence fondamentale. Le larynx appartient donc à la source du signal acoustique : par fermeture ou ouverture des cordes vocales, il transforme le flux d’air relativement constant émis par les poumons en flux périodique.

3.3.2 La théorie " H and H "

L’hypothèse de Bjorn Lindblom est que l’évolution de l’appareil articulatoire a été influencé par la perception auditive (Carré et al., 1995). Selon lui, le critère de sélection des sons serait la distinctivité (Lindblom, 1998).

La théorie de Lindblom, théorie " H and H " propose deux modes de parole : la parole " Hyper " qui s’oriente vers une clarté maximale du signal produit et la parole " Hypo " qui a comme objectif de produire le signal la plus économique possible (Kohler, 1998). Il existe un continuum entre les deux H. L’appareil phonatoire produit des sons situés sur ce continuum. La parole est donc organisée de façon adaptative : elle tente de correspondre aux exigences du récepteur. De tout cela ressort une propriété fondamentale du signal acoustique : la discriminabilité.

Si l’on se tourne maintenant vers notre problématique, l’évolution des sons, cette théorie implique donc une sélection des sons de la parole sur deux critères : l’économie de la production (Lindblom, 1983) et la distinctivité perceptive. Klaus Kohler résume cela dans (Kohler, 1995) avec la phrase suivante :

" Sound systems in human languages are the way they are as the result of balancing sufficient acoustic/auditory contrast for a listener and articulatory economy for a speaker under varying conditions of speech communication : they both rend to be maximized in the pursuit of communicative goals "

3.4 Conclusion partielle

On arrive à ce stade à une conclusion : les aires cérébrales (aire de Broca, aire motrice supplémentaire et aire motrice), par l’intermédiaire des nerfs du système végétatif (nerf facial, trigéminal, hypoglossal…) contrôlent le mouvement des articulateurs. Les mouvements d’ouverture et de fermeture des mâchoires, ainsi que toutes les possibilités de mouvement des articulateurs a entrainé l’émergence de syllabes (Kohler, 1998). Les consonnes et les voyelles auraient aussi émergées suivant les exigences développées ci-avant (théorie " H & H "). Mais on peut se demander pourquoi il y a eu apparition de telles sons et pas tels autres.

L’étape suivante serait de faire le lien avec les données sur la formation du lexique. En effet, comme le dit Michaël Studdert-Kennedy (Studert-Kennedy, 1998), " the function of phonology is to afford a large lexicon (…) phonological differentiation was a response to lexical pressure ". Le corollaire à cette assertion est :  est-ce la phonologie qui a entrainé la formation du lexique ? ou le lexique qui a provoqué une pression sur la phonologie ?