Abonnés Certains contenus en accès libre
21.11.2024 à 20:26
Le principe de fonctionnement des Grands Modèles de Langage … décrit dès 1989
Paul Jorion
Texte intégral (3392 mots)
Illustration par DALL·E
Un lecteur d’aujourd’hui de mon livre Principes des systèmes intelligents (1989 – réédité en 2012), attire mon attention sur le fait que je décrivais déjà en 1989 comme seule méthode possible pour la génération d’un texte par une IA, sous le nom de « méthode dite au coup par coup », celle qui fut effectivement découverte bien plus tard par les Grands Modèles de Langage.
4. Les systèmes intelligents dans la perspective de l’auto-organisation
(pages 35 à 42)
Il a été dit au chapitre précédent que l’optimisation du rapport existant entre les éléments de discours stockés en mémoire, leur organisation et les procédures opératoires portant sur eux, constitue ce qui pourra apparaître au sein du système comme son auto-organisation. Il s’agit d’un complexe indissociable et toute réflexion sur l’optimisation ne peut porter que sur l’ensemble. Il faut procéder cependant dans un certain ordre. Faisons débuter l’investigation par une réflexion générale portant sur les stratégies globales de développement d’un système et examinons comment se présentent les options envisageables du point de vue de l’optimisation recherchée.
On peut prendre un discours, une parole, et l’envisager de la manière suivante : comme un parcours séquentiel à l’intérieur d’un espace de signifiants (de mots envisagés comme réalités acoustiques, indépendamment de leur signification), c’est-à-dire comme un chemin tracé sur un lexique compris comme la liste de tous les mots d’une langue. Untel parcours peut consister par exemple à aller de « Le » à « chat », de « chat » à « est », de « est » à « sur », de « sur » à « le », de « le » à « tapis », pour obtenir une phrase chère aux philosophes anglo-saxons de l’IA, « Le chat est sur le tapis ».
On peut alors définir une manière de parcourir ce lexique, de telle sorte que l’on générera, reproduira, tout discours imaginable : un dialogue de Platon, une conversation de café du commerce, un chant vaudou dahoméen.
Cette approche en termes de parcours séquentiel d’un espace de mots est un outil universel : si l’on dispose du lexique d’une langue, il suffit pour tout discours que l’on veut reproduire de définir très exactement le parcours qui lui correspond. Par exemple de la manière décrite plus haut : de « le » à « chat », de « chat » à « est », etc.
Comment faire pour que la machine reproduise un discours particulier ? « Reproduire » non pas au sens de recopier, mais de recomposer en suivant un ensemble de directives. Il existe trois types de méthodes envisageables, dont seules les deux premières ont été prises en considération jusqu’ici.
La méthode dite du singe
La première méthode consiste à utiliser la force brute de l’ordinateur, lorsque la machine explore l’ensemble des tirages d’une vaste combinatoire. Cette méthode peut être dite du singe du fait qu’avant l’avènement de l’informatique on imaginait généralement, lorsqu’on voulait évoquer l’exhaustion d’une combinatoire, l’exemple d’un singe qui écrit à la machine et qui le fait comme un singe, c’est-à-dire en tapant sur les touches au hasard. On se posait alors la question de savoir combien de temps il lui faudrait pour reproduire sans faute un texte donné.
On peut penser aussi à la nouvelle de Borges intitulée La bibliothèque de Babel : je rappelle que dans cette biblio- thèque sont rangés tous les ouvrages que l’on peut obtenir en combinant de toutes les manières possibles tous les signes de l’alphabet. Si l’on cherche un ouvrage particulier, on pourra, avec beaucoup de patience, le trouver un jour dans les rayons, mais entre-temps on aura découvert, par exemple, une copie presque parfaite du livre puisqu’un seul mot diffère par rapport à l’original, ou un exemplaire qui contient effectivement tous les mots de l’ouvrage, mais dans un ordre différent, et ainsi de suite.
Inutile de préciser que la méthode dite du singe est une manière peu efficace pour déterminer un parcours séquentiel sur un espace de mots. On peut améliorer marginalement son rendement en imposant quelques contraintes minimales sur la génération des séquences de mots. On peut imposer par exemple que le même mot n’apparaisse pas deux fois de suite.
Quoi qu’il en soit, la méthode dite du singe n’a jamais été imaginée qu’au titre de plaisanterie.
La méthode dite des règles
La deuxième manière possible d’aborder la question du parcours séquentiel d’un lexique en vue de la reproduction d’un discours donné consiste à déterminer a priori un ensemble tout à fait complet de contraintes auxquelles ce parcours sera soumis. Cette méthode-ci peut être prise au sérieux : c’est elle qui préside à la réalisation de l’ensemble des Systèmes Intelligents aujourd’hui existants. Elle peut s’énoncer de la manière suivante : on définit de façon générale et a priori un ensemble de systèmes de contraintes énoncées sous forme de règles, et on parcourt l’espace des signifiants en s’assurant que ces règles sont à tout moment respectées dans la génération des mots successifs.
Parmi les contraintes retenues, on imposera en général,
a) des contraintes d’ordre syntaxique : l’ensemble des mots de la langue sont partagés en partie du discours et on énumère des règles formulées dans ces termes, par exemple,
« qu’après un article on ne peut trouver qu’un substantif ou un adjectif », etc.
b) des contraintes d’ordre sémantique qui correspondent à l’organisation interne de la langue : par exemple que le verbe « penser » exige pour sujet un substantif dénotant un être animé, etc. ;
c) des contraintes d’ordre pragmatique : par exemple, qu’il n’est pas permis de faire suivre une phrase d’une autre dont le sens est sans rapport avec celui de la première, ou d’une autre qui dit le contraire de ce qu’avance la première, etc. (Aristote 1960 ; Grice 1975, 1978) ;
d) des contraintes d’ordre logique : par exemple, que si l’on dit que la fraise est un fruit, et que tous les fruits sont sucrés, on ne pourra pas dire ensuite que la fraise n’est pas sucrée, etc.
Cette deuxième manière de déterminer le parcours séquentiel d’un lexique, à partir de contraintes a priori selon la méthode dite des règles, permet une formalisation globale du problème et rend compte de toute variation sans ambiguïté aucune. On peut, grâce à elle, définir les conditions d’un discours normal en disant que l’ensemble des règles sémantiques, syntaxiques, pragmatiques et logiques classiques sont d’application. Par exemple, une grammaire en usage dans les écoles permet si l’on respecte ses règles d’écrire un discours exempt d’erreurs de syntaxe. On peut ainsi générer un discours unique mais il est aussi possible de relâcher certaines des contraintes pour que n’apparaisse plus un discours singulier, mais une famille de discours : par exemple, l’ensemble des géométries euclidiennes et non-euclidiennes, l’ensemble des explications d’un phénomène naturel en termes d’agents surnaturels, l’ensemble des discours présentant les traits d’un type particulier d’aphasie, et ainsi de suite.
On peut aussi, à partir d’un tel système de règles, déterminer un type particulier de discours en ajoutant ou en retranchant des contraintes spécifiques qui s’exerceront durant le parcours séquentiel. On peut dire par exemple que la mentalité primitive ne respecte pas un certain aspect du principe de non-contradiction (cf. Jorion 1989). On lèvera cette contrainte particulière sur un discours, soumis par ailleurs à toutes les autres et on obtiendra en sortie un discours de mentalité primitive. Ou bien, on lèvera la contrainte qui veut que l’on ne dise à la suite que des choses ayant un rapport entre elles, et celle qui veut qu’on ne se contredise pas, et on obtiendra en sortie un discours comparable à celui du Chapelier Fou d’Alice au Pays des Merveilles.
Ceci signifie toutefois que si l’on bâtit un Système Intelligent selon la méthode dite des règles, qu’avant même de pouvoir générer une première phrase, il aura fallu construire un système immense en termes de règles et de métarègles stockées, et qui exigera pour son simple fonctionnement un temps considérable. Rien que le « parsage » des phrases d’entrée exige souvent un temps de traitement inacceptable en temps réel, correspondant à des milliards d’opérations séquentielles. Or on sait par ailleurs :
a) que la production d’une phrase par un être humain ne prend que quelques dixièmes de secondes en plus du temps nécessaire à la prononcer,
b) que les influx nerveux parcourent le cerveau à la vitesse de quelques mètres à la seconde, ce qui signifie qu’au cours d’une seconde, le cerveau humain ne peut opérer de manière séquentielle que dix à quinze opérations, alors qu’un micro-ordinateur peut en traiter aujourd’hui dans le même temps jusqu’à plusieurs dizaines de millions.
Ce qui veut dire que même si la méthode dite des règles est rationnellement et esthétiquement satisfaisante, l’être humain ne fonctionne cependant pas de la manière qu’elle suppose.
La méthode dite au coup par coup
La troisième manière de définir un parcours séquentiel sur un lexique est celle-ci : au lieu de disposer d’un système de règles a priori à respecter lorsque l’on met les mots à la suite les uns des autres, il suffit qu’à chaque fois que l’on a écrit (ou dit) un mot, on dispose d’un principe qui permette de déterminer quel devra être le mot suivant.
Ce principe doit résumer, contenir en lui, un nombre considérable de contraintes puisqu’une fois le discours à reproduire reproduit, tout devra s’être passé comme si (en cours de route) avaient été respectées l’ensemble des règles syntaxiques, sémantiques, pragmatiques et logiques qui décrivent a priori la manière dont doivent être concaténés (mis à la suite) les mots qui constituent le discours à reproduire.
Le problème que pose la méthode dite au coup par coup n’est pas simple mais si l’on parvient à le résoudre on aura découvert une méthode qui est, elle, compatible avec la façon dont procèdent des êtres humains. Par exemple, si la méthode suppose qu’à chaque fois qu’un mot a été posé il ne reste que, disons, dix à quinze choix à opérer, alors on peut être sûr que cette méthode est au moins vraisemblable par rapport à ce qui est su par ailleurs du fonctionnement du cerveau humain.
Imaginons qu’ait déjà été trouvé un principe qui permette d’écrire « Le chat » et admettons que l’on sache aussi que le quatrième et le cinquième mots seront « la souris », alors il est vrai que la langue n’oblige à prendre en considération pour le choix du troisième mot qu’un nombre très restreint de candidats possibles : « mange », « attrape », « rattrape », « estourbit », et quelques autres et il est plausible que le nombre de possibilités reste bien en dessous de quinze. Évidemment si l’on entend faire de la poésie, on peut dire « Le chat transsubstantie la souris », mais dans ce cas, le cerveau consacrera bien plus que cent millièmes de seconde à trouver une formule aussi audacieuse, et il est probable qu’aura été à l’œuvre un autre mécanisme que celui qui opère dans la production de phrases ordinaires.
Cela veut dire que sans avoir à définir des règles a priori qui déterminent les parcours légaux à l’intérieur du lexique, on peut imaginer que soient en place de manière constante des « chenaux », des chréodes (*), des passages privilégiés pour se rendre d’un mot à un autre. Par exemple qu’il existe un chenal qui conduise de « pharaon » à « pyramide » mais non de « pharaon » à « rhapsodie », et que si l’on veut vraiment se rendre de pharaon à rhapsodie il faille faire un long détour à l’intérieur d’un lexique précontraint quant aux parcours possibles en son sein. Et il est plausible que l’apprentissage, c’est-à-dire la mise en mémoire des mots, s’opère de cette manière-là, par la création de chenaux.
Ce n’est plus à La bibliothèque de Babel qu’il faut songer alors mais à une autre nouvelle de Borges, Pierre Ménard, auteur du Quichotte. Ménard, écrivaillon ambitieux, s’est convaincu qu’il pourra s’imprégner à ce point des influences diverses subies par Cervantès en termes de style, de préoccupations, de climat social, etc. qu’il parviendra à reproduire – sans le recopier – le don Quichotte, c’est-à-dire à le réécrire exactement comme s’il en était l’auteur : réinventant l’intrigue, réfléchissant au choix de ses mots, recherchant vainement l’inspiration, souffrant de l’angoisse de la page blanche, et ainsi de suite. Il finira par y arriver, du moins pour deux chapitres. Ménard ne peut que rédiger selon la méthode dite au coup par coup : il faut que par identification totale à son modèle fameux il puisse générer les mots l’un après l’autre – sans consultation de systèmes de règles – et reconstituer ainsi entièrement le grand roman épique qui le fascine.
En dépit de sa folie – ou à cause d’elle – Ménard peut être notre référence : il est le héros pathétique de la méthode dite au coup par coup, envisagée ici comme principe directeur pour le parcours séquentiel d’un lexique.
La leçon à en tirer est la suivante : on a vu au second chapitre que le rendement d’un Système Intelligent équivaut à la spécificité des réponses qu’il produit en sorties. La spécificité la plus grande pourra être obtenue si l’élément de discours stocké est le plus petit possible. Mais du coup, les procédures opératoires devront être extrêmement sophistiquées. Ou bien il faudra remédier à cette sophistication par une organisation préalable des éléments de discours stockés. La méthode dite au coup par coup suggère un type d’organisation : l’existence de chenaux tracés entre les éléments de discours. Il faut maintenant envisager ce que ces derniers pourraient être.
============
(*) On pense immédiatement aussi au terme de chréode introduit par Waddington (1957 : 32) pour rendre compte de passages obligés tout à fait analogues en embryologie (cf. aussi Thom 1972 : 121-123 ; Thom & Waddington 1967).
Illustration par DALL·E
20.11.2024 à 18:06
Ukraine / Russie : La gravité de la crise n’a pas encore atteint celle des missiles de Cuba en 1962
Paul Jorion
Texte intégral (578 mots)
L’Ukraine a lancé aujourd’hui en direction du territoire russe, des missiles britanniques Storm Shadow, après avoir recouru hier à des missiles américains Atacms. Il s’agit d’une réponse au déploiement de plus de 10.000 troupes Nord-coréennes dans l’oblast russe de Koursk. La Russie abaisse la barre pour son recours à l’arme nucléaire. Les États-Unis closent provisoirement leur ambassade à Kiev.
L’escalade se poursuit, où chacune des deux parties invoque la légitime défense – ce qui ne présage jamais rien de bon. Le niveau n’est pas encore atteint de la crise des missiles de Cuba en octobre 1962. Espérons qu’il ne s’agisse pas simplement d’une question d’heures.
20.11.2024 à 17:20
Les Dernières Nouvelles d’Alsace – Forum Latitude : toutes les frontières au cœur des rencontres, du 22 au 24 novembre 2024
Paul Jorion
- Persos A à L
- Mona CHOLLET
- Anna COLIN-LEBEDEV
- Julien DEVAUREIX
- Cory DOCTOROW
- EDUC.POP.FR
- Marc ENDEWELD
- Michel GOYA
- Hubert GUILLAUD
- Gérard FILOCHE
- Alain GRANDJEAN
- Hacking-Social
- Samuel HAYAT
- Dana HILLIOT
- François HOUSTE
- Tagrawla INEQQIQI
- Infiltrés (les)
- Clément JEANNEAU
- Paul JORION
- Michel LEPESANT
- Frédéric LORDON
- Blogs persos du Diplo
- LePartisan.info
- Persos M à Z
- Henri MALER
- Christophe MASUTTI
- Romain MIELCAREK
- Richard MONVOISIN
- Corinne MOREL-DARLEUX
- Fabrice NICOLINO
- Timothée PARRIQUE
- Emmanuel PONT
- VisionsCarto
- Yannis YOULOUNTAS
- Michaël ZEMMOUR
- Numérique
- Binaire [Blogs Le Monde]
- Christophe DESCHAMPS
- Louis DERRAC
- Olivier ERTZSCHEID
- Olivier EZRATY
- Framablog
- Francis PISANI
- Pixel de Tracking
- Irénée RÉGNAULD
- Nicolas VIVANT
- Collectifs
- Arguments
- Bondy Blog
- Dérivation
- Dissidences
- Mr Mondialisation
- Palim Psao
- Paris-Luttes.info
- ROJAVA Info
- Créatifs / Art / Fiction
- Nicole ESTEROLLE
- Julien HERVIEUX
- Alessandro PIGNOCCHI
- XKCD