ChatGPT : ce n’est que le début
Avocats, médecins, artistes s’emparent de l’IA, ou subissent sa concurrence. Des PDG et des pionniers demandent un moratoire pour stopper sa vertigineuse progression. Les chercheurs les plus en pointe peinent à suivre l’avancée des recherches. Oui, on a bien l’impression de voir émerger une nouvelle forme d’intelligence.
Pour certains d’entre nous, il est déjà devenu un assistant, un collègue, peut-être même un ami… ou un ennemi. Son nom est sur toutes les lèvres depuis six mois, comme un mantra : ChatGPT. Mais cela pourrait être aussi son successeur GPT-4, encore plus perfectionné, qui évolue sur le moteur de recherche Bing ; ou PaLM 2, qui nourrit le générateur de texte Google BARD – il va falloir vous y faire, les robots conversationnels aux appellations dignes de Star Wars ont tout envahi. Aucun étudiant ou salarié un peu curieux et flemmard ne résiste longtemps à l’idée de leur faire écrire une dissertation, un résumé, un poème, un article, un slogan, un email professionnel, un code informatique, un devoir de maths, une synthèse de tableau Excel, une traduction en chinois ou en swahili… Cela semble tellement facile – et tellement humain !
Un énorme bond
À vrai dire, plus rien n’arrête ces nouvelles intelligences artificielles génératives qui réussissent maintenant haut la main de très sérieux examens de droit, d’histoire, de biologie, de chimie ou de mathématiques, tout en pouvant répondre avec une aisance désarmante aux requêtes les plus folles : “Démontre l’infinité des nombres premiers dans le style de Shakespeare” ; “Explique le fonctionnement du bitcoin à un enfant de 7 ans” ; “Raconte l’intrigue de Cendrillon dans une phrase où chaque mot doit commencer par la lettre suivante de l’alphabet, de A à Z” ; “Tiens, écris cette phrase en inversant toutes les lettres” ; “Invente-moi une couleur, une langue…” “Euh, ChatGPT, entre nous, tu penses quoi de la pizza à l’ananas ?” Et on ne vous parle même pas de Dall-E 2 ou MidJourney, qui révolutionnent en ce moment le monde de l’image.
C’est effrayant, une étude de plus de trois mois paraît déjà ancienne
Albert Webson, chercheur à l’université de Brown et chez Google
“En tant qu’ingénieur du domaine, je ne suis pas si surpris des derniers progrès accomplis par les modèles de langage, mais je reconnais qu’en tant qu’utilisateur, la sensation est assez magique”, confie Julien Launay, spécialiste des grands modèles à la start-up Hugging Face. “Les systèmes précédents étaient déjà puissants, mais là, j’avoue que je suis chaque jour épaté par GPT-4… Il y a quelques années, cela m’aurait paru de la science-fiction”, souffle Jos Rozen, chercheur à Naver Labs Europe. “C’est absolument dément ce que l’on voit !”, lance Michal Kosinski, psychologue computationnel à Stanford. “Je ne m’attendais pas à ce que ces capacités viennent aussi rapidement, admet Albert Webson, chercheur à l’université de Brown et chez Google. C’est effrayant, une étude sur ces IA qui a plus de trois mois me paraît maintenant ancienne.” “Nos travaux préliminaires montrent qu’il y a même eu un énorme bond en avant entre ChatGPT et GPT-4, révèle Sébastien Bubeck, chercheur en machine learning chez Microsoft. Nous pensons que ce GPT-4 marque un véritable changement de paradigme dans le domaine de l’informatique, et peut-être au-delà.”
Relire “Frankenstein”
Pas étonnant que cette explosion d’intelligence artificielle suscite les plus profondes inquiétudes pour le marché du travail, la démocratie, et même l’humanité. À tel point que les deux pères fondateurs du concept de réseaux de neurones artificiels, qui structurent ces IA, ont récemment demandé une pause de six mois dans le développement des grands modèles. Geoffrey Hinton et Yoshua Bengio ont aussi signé, fin mai, une lettre ouverte alertant sur le risque existentiel qui pèserait désormais sur notre espèce, au même titre que “les pandémies et la guerre nucléaire”. Une lettre paraphée également par les grands pontes de Google et d’OpenAI (à l’origine de ChatGPT et GPT-4), qui s’interrogent et peut-être même tremblent devant leurs propres créatures – c’est le moment de relire Frankenstein. La question devient brûlante : de quoi sont réellement capables ces machines ? Faut-il s’attendre à voir débarquer à court terme des IA à l’intelligence surhumaine et écrasante ?
Nous n’en serions peut-être pas là si, le 6 décembre 2017, une fine équipe de Google n’avait pas publié une étude intitulée “Attention Is All You Need”. L’article proposait une nouvelle architecture baptisée Transformer – le T de GPT – basée sur un mécanisme d’attention qui s’avère particulièrement simple et efficace pour le traitement des langues.
Un coup de tonnerre ? Pas vraiment : à l’époque, tout le monde était focalisé sur la reconnaissance visuelle des chatons sur Internet, les promesses de la voiture autonome ou les exploits de la machine au jeu de go. Mais ce concept va tracer son chemin à bas bruit. Oh, il n’y a rien de magique : il s’agit juste d’un système statistique qui tente de prédire le mot suivant dans une phrase, en s’appuyant sur le texte environnant. Seulement, le Transformer facilite beaucoup les calculs et permet ainsi d’envisager d’énormes modèles capables de capturer toutes les dimensions du langage et d’ingurgiter d’immenses quantités de données pour l’entraînement ; plusieurs dizaines de fois Wikipédia.
Divine surprise
La montée en échelle a été spectaculaire : présenté fin 2019, GPT-2 affichait 1,5 milliard de paramètres (les valeurs qu’il faut optimiser pour arriver au résultat le plus juste) ; puis GPT-3, que nous avions interviewé dans Epsiloon #7, cumulait dès l’année suivante 175 milliards de paramètres ; alors que GPT-4 pourrait avoir dépassé allègrement les 1 000 milliards de paramètres – le chiffre reste confidentiel.
Un modèle toujours plus complexe, des données toujours plus nombreuses et variées, un soupçon d’expertise humaine pour faire converger le système vers la bonne solution… “L’effet de taille est majeur : l’augmentation des quantités de calcul a vraiment amélioré les performances et cela a permis de débloquer certaines capacités, au-delà du simple fait de compléter un texte”, raconte Julien Launay.
Pour les ingénieurs, ce fut en effet une divine surprise : à force de grossir, ces modèles de langage se sont avérés spontanément capables de répondre à des questions, de faire des résumés, de traduire du texte dans des dizaines de langues, de coder, de faire de l’arithmétique, etc. Le tout sans aucun entraînement spécifique, il suffit de donner au système deux ou trois exemples, ou de lui décrire la tâche en langage courant.
Au début, ces aptitudes nouvelles sont assez médiocres, mais elles s’améliorent avec la taille des modèles de langage… Jusqu’à surpasser les IA entraînées spécialement sur ces tâches, dont les capacités paraissent désormais bien étriquées. “Peu d’entre nous s’attendaient à ce que la simple optimisation consistant à trouver le mot suivant aboutisse à des modèles aussi puissants”, souligne Martin Schrimpf du Center for Brains, Minds & Machines au MIT. Des modèles aussi puissants et… intelligents.
Il se passe forcément quelque chose ! Ces systèmes saisissent des concepts, généralisent. Je me trouve face à une forme d’intelligence
Jos Rozen, chercheur à Naver Labs Europe
Le mot est lâché. Bien sûr, il faut se garder de tout anthropomorphisme et de toute naïveté face à ces beaux parleurs électroniques. Ces grosses machines statistiques sans âme se contentent d’optimiser une fonction, une bonne vieille “descente de gradient”, et il n’est pas exclu qu’elles mémorisent parfois certaines données qu’elles régurgitent bêtement, tel un perroquet ou un élève ayant révisé juste avant l’examen – des soupçons pèsent sur certains résultats de GPT-4, dont les détails techniques restent hélas propriété d’OpenAI et inaccessibles aux scientifiques. Cependant, plusieurs travaux très récents montrent que ce qui se déroule dans ces énormes machines semble bien plus profond que ça. “Il se passe forcément quelque chose !, sourit Jos Rozen. On voit que ces systèmes saisissent certains concepts, généralisent. Je n’ai aucun doute de me trouver face à une forme d’intelligence.”
“ Je ne peux pas m’empêcher de voir une certaine forme de raisonnement, réagit aussi Thierry Poibeau, du Laboratoire de linguistique et de traitement automatique des langues, à Paris. Quand on leur demande, par exemple, si Cléopâtre et le roi Salomon ont pu se rencontrer, ils vont vérifier s’ils vivaient au même moment, alors qu’on ne le leur a pas enseigné explicitement.” Une équipe de Microsoft a d’ailleurs pu constater que GPT-4 faisait preuve d’un certain bon sens : face à une énigme du type “un chasseur parcourt un kilomètre au sud, un kilomètre à l’est, puis un kilomètre au nord et revient ainsi exactement à son point de départ. Il voit un ours et tire dessus. De quelle couleur est l’ours ?”, le système répond après une argumentation sans faille : “blanc” (car il n’y a qu’au pôle Nord que le chasseur peut revenir à son point de départ après un tel périple). Et quand la même équipe a demandé à GPT-4 de lui dessiner une licorne avec un logiciel, le modèle qui a été nourri seulement de textes du Web s’est exécuté sans problème – dans un style certes discutable.
Pas censé faire ça
Ces systèmes semblent avoir tiré de l’analyse extraordinairement poussée de nos écrits toutes sortes de facultés mentales. “Je fais jouer GPT-4 aux échecs, confie Jos Rozen. Il montre une grande capacité à commenter et à analyser les coups, c’est un très bon critique. Le plus étonnant, c’est que le système qui n’a accès qu’aux fichiers indiquant les mouvements des pièces se construit une représentation interne de l’échiquier, alors qu’il n’était pas du tout censé faire ça… C’est juste un modèle de langage.” “Nous avons aussi constaté en discutant avec GPT-4 qu’il se forgeait un modèle du monde, ce que nous avons confirmé en le faisant jouer au jeu Othello, témoigne à son tour Kenneth Li, doctorant à Harvard. Le système comprend quelque chose qui ne lui a jamais été enseigné. On peut dire que ce sont juste des statistiques, mais ce seraient des statistiques d’un tout nouveau genre.”
Informaticienne à l’université de Brown, Ellie Pavlick a aussi constaté dernièrement que ces modèles de langage savaient bien manipuler les concepts de couleurs, de droite et de gauche, de points cardinaux : “Le fait qu’ils parviennent à se représenter le monde physique semble lié à leur grande aptitude pour les analogies, du type ‘le rouge est au rose ce que le noir est au gris’, ‘le rouge est à l’orange ce que le bleu est au vert’. Ils se construisent ainsi une conception des couleurs sans jamais les avoir vues – cela rejoint certaines explications avancées pour les enfants non-voyants.”
Une théorie de l’esprit
Du reste, quelques scientifiques commencent à faire entrer ces IA dans le monde réel, en leur faisant conseiller des robots dans les tâches à suivre (quelqu’un a renversé son verre de bière, comment nettoyer ça ?), ou en leur faisant explorer des environnements. “Le petit modèle de langage que nous avons testé dans un environnement virtuel est parvenu à trouver la solution très vite, alors que les autres algorithmes spécialisés en étaient encore à balbutier, signale Clément Romac, doctorant à l’Institut national de recherche en sciences et technologies du numérique. Ils ont une base de connaissances précieuse” ; des ingénieurs et des universitaires américains ont même lancé fin mai GPT-4 dans le jeu Minecraft.
Mais il y a plus troublant encore… Ces algorithmes semblent capables, sur la base de petites histoires, de deviner l’état mental d’un personnage : ses intentions, ses désirs, ses attentes. “Les tests cognitifs soumis habituellement aux enfants que je viens de mener sur ChatGPT et GPT-4 suggèrent que cette aptitude, qu’on appelle la ‘théorie de l’esprit’, a émergé dans ces systèmes, lâche Michal Kosinski. Certains scientifiques prétendaient que cette capacité sociale était logée dans une partie du cerveau humain, mais elle semble plutôt être véhiculée par notre langage.” Les équipes de Microsoft ont dressé le même constat avec des épreuves encore plus poussées ; si ce résultat – très controversé – venait à se confirmer, cela promettrait au moins des IA plus empathiques et responsables.
Est-ce qu’ils raisonnent réellement  ? C’est une question philosophique profonde
Ellie Pavlick, informaticienne à l’université de Brown
“Même si les cerveaux et les réseaux de neurones artificiels sont très différents, ils semblent étonnamment similaires dans leur manière de donner un sens au monde, constate Martin Schrimpf. On retrouve une forme d’universalité dans l’intelligence.” Une pensée, du raisonnement, du sens commun, de la compréhension, de la créativité, de l’abstraction… Ces mots sont encore prononcés avec prudence par beaucoup de chercheurs. Quand d’autres voient clairement les premières “étincelles d’une intelligence artificielle générale”, pour reprendre le titre d’un rapport de 155 pages de Microsoft consacré à GPT-4.
Ce concept est chargé de fantasmes, “mais franchement, si on m’avait présenté ce système il y a cinq ans, je n’aurais pas hésité à le qualifier comme tel, réfléchit Julien Launay. J’ai l’impression que l’on s’habitue un peu trop à ces résultats, comme la grenouille plongée dans la casserole”. “Ces systèmes réalisent des associations et des abstractions statistiques de plus en plus sophistiquées, et je pense qu’ils pourraient au moins simuler la plupart des comportements humains – le bon sens, le raisonnement, etc., avance Ellie Pavlick. Mais est-ce qu’ils raisonnent réellement ? C’est une question philosophique profonde, à laquelle nous n’aurons pas de réponse immédiate. On n’a pas de bonne définition de l’intelligence et pas de bons moyens de la mesurer sur ces systèmes. La question la plus urgente, selon moi, c’est de comprendre comment ces IA parviennent à de tels comportements.”
Des univers abscons
De fait, ce qui se passe à l’intérieur de ces machines reste assez obscur. “Nous n’avons pas de compréhension très profonde du fonctionnement de ces systèmes, il n’y a toujours pas eu d’avancées fondamentales sur cette question", reconnaît Thomas Wolf, responsable scientifique d’Hugging Face. “Ce sont des systèmes très complexes, avec un nombre énorme de dimensions, il s’y passe des choses très contre-intuitives et ça semble inaccessible à notre esprit”, renchérit Julien Launay. Quelques équipes, comme celle de la start-up Anthropic, osent plonger dans ces univers abscons et parviennent à détecter quelques mécanismes d’attention, de spécialisation, mais sans plus de détails pour l’instant.
Parvenir à comprendre cette nouvelle forme d’intelligence est d’autant plus crucial qu’elle présente, il faut bien l’avouer, des failles parfois inquiétantes. Ces modèles ont ainsi tendance à reproduire les biais sexistes ou racistes de leurs données d’entraînement, même si OpenAI prend un luxe de précautions. Il reste aussi quelques fautes de langage, qui montrent une compréhension parfois très légère du sens d’un texte : ces IA peinent sur les phrases imbriquées, les négations… Elles font aussi des erreurs de codage ou de logique – nul n’est parfait. Et même si elles sont capables de discourir sur les concepts mathématiques les plus pointus, il leur arrive de faire de grossières erreurs d’arithmétique : “À la rigueur, elles pourraient compenser ce défaut en utilisant une calculatrice, s’amuse Thomas Wolf. On s’aperçoit maintenant que ces modèles savent manipuler nos outils, y compris des moteurs de recherche.”
Voracité croissante
Autre problème identifié : leur mode de fonctionnement très linéaire, focalisé sur la découverte du mot suivant, les conduit à se précipiter pour donner une réponse – à l’image du “système de pensée rapide” chez les humains. “Nos derniers tests de réflexion cognitive menés sur ChatGPT montrent que ces machines délivrent le plus souvent des réponses intuitives”, confirme Michal Kosinski. Pour compenser cet emballement propice aux erreurs, les informaticiens tentent de raisonner quelque peu ces machines en leur demandant de détailler leur démonstration (la technique s’appelle “chain-of-thought”). Une équipe de Google s’est récemment rendu compte qu’il suffisait de leur adresser la petite phrase “Réfléchissons étape par étape” pour obtenir de bien meilleurs résultats !
Je crois que le prochain magot sera dans ces capacités multimodales, avec des architectures s’inspirant du fonctionnement de notre cerveau
Guillaume Lajoie, chercheur à l’université de Montréal
Plus embarrassant : ces modèles sont régulièrement victimes d’hallucinations. En clair, ils inventent des faits ou des concepts absurdes (des “œufs de vache”, par exemple) et s’entêtent ensuite à les justifier dans leurs raisonnements ; GPT-4 est plus fiable que ses prédécesseurs, mais jamais à l’abri de dérailler. D’aucuns diront que ce comportement peut être source d’une belle créativité, seulement “cela veut dire qu’on ne peut pas leur faire confiance, persifle David Krueger, chercheur à l’université de Cambridge. C’est un gros problème difficile à résoudre. Un vrai danger même, si les humains sont dans l’incapacité de vérifier la véracité de la réponse. Une telle IA pourrait nous échapper… Je pense que nous avons besoin d’une pause d’une durée indéterminée dans le développement des systèmes les plus puissants”.
Reste que la pause ne semble pas d’actualité. Dans le domaine des grands modèles d’IA, les puissances de calcul doublent tous les 6 à 10 mois – soit bien plus vite que la déjà affolante loi de Moore, qui table sur 18 mois.
La firme Nvidia a dévoilé fin mai son mastodonte DGX GH200, un superordinateur taillé pour la nouvelle ère des ChatGPT. “Et on peut désormais compter sur les nouvelles cartes graphiques H100, cela va permettre de continuer à augmenter la taille des modèles”, s’enthousiasme Julien Launay. Les informaticiens n’hésiteront pas non plus à élargir encore le volume des bases de données. Le tout dernier modèle de Google, PaLM2, a ainsi ingurgité cinq fois plus de texte que son prédécesseur ; on parle désormais en milliers de milliards de mots. De quoi enrichir encore leur connaissance vorace de notre monde et gagner en intelligence. “L’énorme diversité des données semble aussi jouer un rôle important dans l’émergence des capacités au cœur de ces systèmes, soulève Sébastien Bubeck. Lors d’une récente expérience, nous avons constaté que les algorithmes entraînés à résoudre les équations linéaires du niveau collège devenaient beaucoup plus compétents dans cet exercice si on les entraînait aussi à résoudre le prochain mot sur Wikipédia.” “Il faut miser également sur la qualité de ces données, on se rend compte que cela rend les modèles vraiment meilleurs, insiste Thomas Wolf. Il ne faut plus hésiter à répéter les mêmes données à l’entraînement, chose que l’on s’interdisait avant.” “Les modèles de langage n’ont pas fini de nous étonner…”, pense Jos Rozen.
La vue, l’ouïe
Une piste d’évolution consiste à leur fournir de nouvelles perceptions, la vision notamment : à l’image du modèle Flamingo de Google, qui commence à décrire les vidéos YouTube et commente finement le contenu des photos – GPT-4 va disposer aussi de cette fonctionnalité. “La sauce secrète reste la taille des modèles, mais je crois que le prochain magot sera dans ces capacités multimodales, avec des architectures plus modulaires pouvant s’inspirer du fonctionnement de notre cerveau”, évoque Guillaume Lajoie, chercheur à l’université de Montréal. Les chercheurs planchent en ce moment sur des modules facilitant le raisonnement – comme Tree of Thoughts, dévoilé mi-mai par Google –, des mécanismes de mémoire à long terme, de planification, d’apprentissage…
Rendez-vous compte, nous sommes peut-être face à la plus importante invention de l’histoire de l’humanité
Julien Launay, spécialiste des grands modèles à la start-up Hugging Face.
Quelles étincelles en sortiront ces prochains mois ? Humour, mensonge, sentiments, curiosité, inventivité, volonté, sens moral ou amoral ? “Et pourquoi pas une conscience, je ne trouve pas ça si choquant que ce phénomène émerge de systèmes aussi complexes”, ose Michal Kosinski. Difficile encore de dire quelles capacités pourraient se révéler, temporise Ellie Pavlick : “Il est peu probable qu’il y ait un changement fondamental, mais nous ne sommes pas en mesure de prédire leur comportement à venir. Notre compréhension de ces modèles est encore trop primitive, nous ne savons même pas encore comment les évaluer. Tout cela est très récent, la science est encore en retard sur l’ingénierie.”
Une chose est sûre, milite Julien Launay : “Les recherches sur ce sujet doivent rester ouvertes. Rendez-vous compte, nous sommes peut-être face à la plus importante invention de l’histoire de l’humanité, ce n’est pas envisageable qu’elle reste entre les mains de quelques personnes.” “Ce monopole de Google et OpenAI est une mauvaise situation, approuve Albert Webson. Mais peut-être pas intolérable s’il s’avère que libérer ces modèles pourrait faire grimper les risques existentiels. La probabilité est très faible, mais je vaispeut-être orienter mes recherches sur ce thème.” Face à cette révolution, les chercheurs sont comme nous tous : à la fois sidérés, admiratifs, rationnels et parfois très inquiets.