L'EMERGENCE DES SONS DU LANGAGE : Modélisation

4 Modélisation

La modélisation informatique constitue une nouvelle méthode d’investigation pour étudier des phénomènes biologiques (vie artificielle), physiques mais aussi linguistique. Nous verrons dans un premier temps la pertinence de cette méthode puis quelques exemples.

4.1 Pertinence de la modélisation

Après avoir réalisé un modèle tel que celui de Lindblom qui prédit les voyelles pouvant apparaître si l’on donne le nombre en entrée, il est possible de réaliser une simulation informatique à partir de cette hypothèse. Le modèle sera un test de l’adéquation de cette hypothèse sur des agents, représentants artificiels et simplifiés des individus, qui interagissent entre eux. Globalement, pour la problématique d’émergence du langage, il s’agit de faire émerger un langage artificiel. C’est donc une approche ascendante, contrairement aux méthodes citées dans les premières parties de ce dossier qui sont descendantes : elles essaient de retracer l’apparition du langage à partir de données actuelles (fossiles…). L’utilisation de l’intelligence artificielle distribuée (les systèmes multi-agents) doit mettre en avant " les conditions minimales pour expliquer l’émergence d’un langage et la structure des langue contemporaines " (F. Kaplan). L’étape suivante est de tester cela sur des agents physiques : des robots, qui évoluent dans des environnements plus complexes.

Cette méthode peut être appliquée à plusieurs champs de la linguistique : tant la phonologie que la syntaxe ou l’apparition du lexique. C’est la phonologie qui nous concerne. Nous prendrons l’exemple des travaux de Luc Steels (Steels, 1998) pour fournir les bases de cette partie. Selon Steels, le langage évolue, c’est un phénomène émergent qui ne peut pas être expliqué par une capacité innée. Le test avec des simulations multi-agents, s’il fonctionne, permettre de rejeter toute idée d’origine innée du langage. Toujours d’après Steels, la sélection est un des moteurs de l’émergence du langage. Cependant, il ne s’agit pas d’une sélection au sens génétique mais plutôt dans le sens culturel (Steels, 1998). C’est à dire, que l’information, résultant de l’interaction entre deux locuteurs, va être conservée dans la mémoire de chacun. " The hearer imitates or adopts the conventions of the speaker to be maximallay succesfull in future interactions ". La variation provient alors d’erreurs, de nouvelles constructions… Le but est d’optimiser la communication et de minimiser l’effort pour la produire : on retrouve donc les arguments de Lindblom cités précédemment (Lindblom, 1998). Les modélisations de Bart de Boer sont particulièrement adaptées pour tester cela.

4.2 Une simulation statique de Bjorn Lindblom

Afin de vérifier que le système vocalique (les voyelles) est influencé par les processus perceptuels (auditifs), Lindblom a développé un modèle computationnel (Lindblom, 1998). Ce modèle est statique, il est seulement prédictif, il ne simule pas une émergence de phonèmes(contrairement à celui de Bart de Boer (de Boer, 1997) qui a une dynamique). Il utilise les trois premiers formants des voyelles. Le système simule des voyelles : il se demande si ces voyelles émergent de façon plausible et quelles sont les contraintes qui en gouvernent la sélection. C’est sur cette seconde question que l’on va rester. Une contrainte importante serait le contraste perceptuel (la distinctivité des sons d’après la théorie " H and H "). Il faut que chaque voyelle qui apparaisse soit à une distance maximale de ses voisines sur la triangle vocalique : il faut donc une distribution optimale sur ce triangle vocalique. Lindblom utilise une mesure Di,j qui est une estimation de la distance perceptuelle entre deux spectres de voyelles. Cette mesure est incorporée dans un algorithme et pour un nombre donné de voyelles, le modèle renvoie les possibilités. Il s’agit de minimiser une fonction particulière prenant pour paramètre l’inverse de Di,j. Les résultats correspondent assez aux systèmes vocaliques observés. De ce fait, ces résultats attestent donc l’hypothèse d’une adaptation du système de production au système d’audition. Cela fonctionne assez bien jusqu’à six voyelles, au-delà, les prédictions ne sont pas bonnes. Il a donc réactualisé le modèle avec un nouveau paramètre : le coût articulatoire. La voyelle ne doit pas seulement être " easy to hear " mais aussi " easy to say " (Lindlbom, 1998). Il s’agit donc de minimiser une fonction qui a pour paramètre (Ai,j/Di,j) avec Ai,j le coût articulatoire. Les résultats sont meilleurs. Il existe encore une grande quantité de modifications existantes de ce modèle.

4.3 Un algorithme génétique de Ahmed Berrah

Avant d’étudier l’application des idées de Luc Steels à un modèle d’intelligence distribuée, il est intéressant de citer un travail un peu différent, utilisant, en effet un algorithme génétique (Berrah, 1996). Il s’agit toujours de vie artificielle mais pas de système multi-agents. L’implémentation est réalisée sur des robots qui interagissent entre eux. L’échange entre les robots est uniquement composé de voyelles. Pendant l’échange, il y a une mise à jour des voyelles qui sont le mieux perçues. Après un nombre donné d’interactions, on calcule une certaine fonction de fitness pour chaque robot. Ceux qui ont une fitness la plus élevée sont autorisés à se " reproduire ". De ce fait, les robots " fils " possèdent donc un système vocalique très proche de celui de leur " parents ".

L’intérêt de cette modèlisation est qu’il tient compte des contraintes articulatoires et perceptuelles et qu’il prévoit l’implémentation de ces contraintes dans des interactions. Le problème est qu’il propose le transfert du système vocalique des " parents " aux " enfants " selon un mécanisme génétique. On en revient à de l’innéisme. L’utilisation des algorithmes génétiques semble donc peu intéressante pour l’application à la linguistique.

4.4 La simulation de Bart de Boer

4.4.1 Introduction

La modélisation que propose Bart de Boer (de Boer, 1996 , 1997, 1999, 2000) est une application directe des idées de Luc Steels et des hypothèse de Bjorn Lindblom.

Avec sa thèse (de Boer, 1999), il a voulu montrer la possible auto-organisation d’un système vocalique dans une population d’agents. Au laboratoire VUB-AI, les simulations sont effectuées sur des PC (implémentation en C++) et des Mac (implémentation en LISP). Le principe est celui des " language games " qui représentent les interactions entre les agents (le langage est utilisé comme moyen de transférer de l’information). Un certain nombre de règles sont présentes : qu’est-ce qui est dit, qui le dit… Il faut tout de même apporter un bémol (Steels, 1998): la communication qui émerge (ici des voyelles) n’est pas un langage à proprement parlé : ces études en sont encore à leur rudiments : la recherche se focalise sur l’émergence de la communication parlée.

4.4.2 Les agents

Ces agents vont utiliser des voyelles pour " communiquer " entre eux. On peut définir la structure d’un agent avec la figure 3. Celui-ci est composé de plusieurs modules :

Une liste de voyelles qui est vide au départ et qui se remplit au fil des interactions avec les autres agents. Ces voyelles sont représentées par trois paramètres : les trois premiers formants. Ces agents peuvent produire des voyelles mais sans grosses variations : il n’y a pas de nasalisation par exemple.
Un module de synthèse des voyelles : dont l’input est constitué des trois paramètres cités ci-dessus. La sortie (output) de ce module est un sons constitué des quatre premiers formants.
Un module d’évaluation/contrôle qui implémente les règles du " jeu " (quand retenir tel son par exemple, on détaillera cela dans le paragraphe suivant).
Un module de perception lié au module précédent : les agents devant apprendre à reconnaître les phonèmes. C’est un vecteur prototype qui est employé ici : pour chaque voyelle crée, un formant résultant d’une articulation idéale du son est générée : c’est le vecteur prototype. Quand un agent entend un son, il calcule la distance entre les phonèmes et le prototype. Le phonème qui est le plus proche du prototype est considéré comme le phonème reconnu.

Grâce à ces deux modules (production articulatoire et perception), les agents peuvent produire des sons et les percevoir d’une manière suffisamment comparable à l’humain.

De plus, la population d’agents est homogène, c’est à dire que chaque agent a la même probabilité qu’un autre d’être choisi pour le jeu d’imitation.

4.4.3 Le jeu d’imitation

Afin de voir apparaître un système vocalique parmi la population d’agents, ceux-ci vont s’engager dans un jeu d’imitation (" imitation game "). Le but de ce jeu est que chaque agent apprenne les sons de chacun d’entre eux. Le jeu est schématisé sur la figure 4. Les règles sont simples : deux agents sont sélectionnés dans la population. L’un d’eux sera l’initiateur et l’autre l’imitateur. L’initiateur sélectionne une voyelle dans sa liste (ou en crée un aléatoirement au début puisque la liste est vide). L’imitateur doit interpréter ce qu’il a entendu (par appariement au prototype ou par création approchée du son entendu) et produire ce phonème (qu’il croit avoir reconnu). L’initiateur écoute l’imitation et interprète à son tour. Si le son qu’il reconnaît est le même que celui qu’il avait produit précédemment, c’est une réussite. Ensuite, il y a une étape de communication non verbale : l’imitateur est informé de la réussite de son imitation. Puis, c’est la mise à jour de la liste des voyelles de chaque agent.

Dans la liste des voyelles de chaque agent est répertorié le nombre de fois que la voyelle a été utilisée et le nombre de succès. La qualité de la voyelle est alors définie par le nombre de succès divisé par le nombre d’utilisation. Il existe un processus d’élagage des phonèmes de mauvaise qualité et des phonèmes trop proches. Des phonèmes sont trop proches si ils sont confondus avec un certain niveau de bruit.

Toutes ces étapes décrites ci-dessus peuvent être réalisées chez l’homme, et les deux mécanismes d’élagage des phonèmes reposent sur des données psychoacoustiques.

4.4.4 Résultats

Les expériences réalisées par de Boer (de Boer, 1997, 1999) consistent en un grand nombre d’itérations de ce jeu d’imitation avec les agents. Les paramètres qui varient sont :

Le nombre d’agents : de 5 à 12.
Le nombre d’itérations : de 1000 à 100 000 (la modélisation est rapide, elle permet un grand nombre d’interactions en peu de temps).
Le bruit : entre 10% et 20%.

Peuvent être enregistrés les taux de succès (Cf. figure 5) et surtout l’émergence d’un système vocalique (Cf. figure 6).

La première expérience de de Boer (de Boer, 1997) avec ce modèle a permis de faire émerger un système vocalique après 1000 itérations et un bruit de 10%. Les 5 agents qu’il avait employé partagent les mêmes phonèmes : ceux-ci sont bien étalés dans le triangle vocalique, ce sont : /i, e , a, a, d / (qui ne correspondent à aucun système vocalique existant). Le taux de succès restait entre 70 % et 100%.

En augmentant le taux de bruit, de Boer a noté que cela n’empêchait pas l’apparition des voyelles, seul l’espace de dispersion entre les voyelles augmentait.

Les expériences suivantes ont permis de voir l’émergence du système vocalique en fonction du nombre d’itérations (Cf. figure 7). On peut voir des amas sur la graphique : ce sont les voyelles qui ont émergées : les agents n’ont pas exactement tous la même représentation d’une voyelle (on observe le même phénomène chez les humains). C’est par la création aléatoire que ces phonème sont apparus. On remarque qu’après un certain nombre d’itérations, il n’y a plus de modifications : c’est qu’il n’y a plus assez de place dans l’espace vocalique pour respecter les contraintes (dont la distinctivité perceptuelle).

Dans l’ensemble des expériences réalisées, on remarque une similarité entre les résultats de la simulation et des systèmes vocaliques existant. Cela montre donc que le modèle est suffisamment réaliste. De Boer (de Boer, 1999) a réalisé une analyse des systèmes émergents et les a comparé aux systèmes vocaliques qui émergent au modèle de Lindblom décrits en 3.4, à de systèmes qui émergeraient par hasard, avec aussi des systèmes optimales. Il en tire comme conclusion que les systèmes auto-organisés (ceux qui ont émergé de la simulation) sont réalistes et permettent un succès dans les imitations. Un autres aspect important qu’il développe dans sa thèse (de Boer, 1999) est de comparer les systèmes émergeants à la typologie des systèmes vocaliques des langues du monde. En effet, les ensembles de voyelles qui sont apparus possèdent les mêmes tendances universelles. Enfin, globalement, la fréquence d’émergence des systèmes pour un nombre donné de voyelles est la même que celles des systèmes existants. Mais tout n’est pas si idyllique, il existe des points de divergence (notamment le fait que le nombre de voyelles qui émergent est fonction du taux de bruit).

Le travail de de Boer s’inscrit dans un espace acoustique à deux dimensions (les deux premiers formants). Il serait intéressant de réaliser une étude analogue dans un espace articulatoire (à trois dimensions celui-ci) : des articulations différentes pourraient convenir au même signal acoustique.

Pour conclure, on peut dire que cette expérience prouve bien qu’il est possible de créer un système vocalique cohérent et proche du notre en utilisant des interactions entre des agents. Il n’y a pas encore eu beaucoup de travaux sur l’émergence de séquences complexes telles que une voyelle et une consonne (où l’inverse, et avec la coarticulation). Le peu qui a été fait (de Boer, 1999) montre des imperfections dans le modèle.

Le fait que l’on trouve ce phénomène d’auto-organisation autorise à penser que le système vocalique n’est pas inné ou basé sur des stratégies individuelles. La production, l’apprentissage et la perception des ces agents en interaction forme un système complexe dynamique. C’est cette dynamique qui provoque une certain configuration des voyelles. Il ressort de cela que l’interaction entre les individus est fondamentale.

Figure 2 : Exemple de système vocalique obtenu après 4000 itérations et un bruit de 20% (d’après de Boer, 1999) : ce système est comparable à celui que l’on trouve pour l’arabe.