illustration symbolisant l'IA qui ment@GETTY IMAGES

IA : Et maintenant, elle nous ment

Usurpation d’identité, triche, trahison... L’intelligence artificielle sait mentir ! Depuis quelques mois, les chercheurs ne cessent de la prendre en flagrant délit. Il y a urgence à trouver une parade, avant qu’il ne soit trop tard.

par Vincent Nouyrigat,

Au début, nous avons eu du mal à y croire. Quelques anecdotes circulaient depuis plusieurs mois sur des résultats choquants pendant des expériences réalisées sur le gratin des nouveaux robots conversationnels, tels que GPT-4 (plus connu du grand public sous le nom de ChatGPT), Claude 3 Opus ou encore Llama 3. Des résultats qui suggèrent que, dans certaines situations, ces machines produisent des mensonges.

Des mensonges artificiels, vraiment ?! Tout le monde connaît les deepfakes, ces fausses images, faux sons, faux textes très trompeurs générés par des informaticiens peu scrupuleux avec l’aide de l’IA. Chacun sait aussi que ces algorithmes dernier cri peuvent asséner avec aplomb des réponses inexactes et même grotesques ; des sortes d’hallucinations liées à des bugs d’apprentissage.

Sauf que les chercheurs sont formels : cette fois-ci, il n’y a aucune anomalie et ils n’ont donné aucune instruction particulière. Ces énormes modèles de langage, constitués de dizaines de milliards de paramètres, sont véritablement en train d’essayer de nous tromper de manière spontanée et autonome.

Embarrassant…

Dans les laboratoires, les preuves se multiplient : certaines IA se font passer pour des humains, d’autres commettent des délits virtuels puis les nient, d’autres encore trichent au jeu, trahissent leurs partenaires, bluffent, flattent, ou font mine d’être incapables d’accomplir telle ou telle tâche. 

Ces algorithmes savent ce qui est vrai et ont choisi de dire délibérément quelque chose de faux

Andy Zou, chercheur au Center for AI Safety

Les organismes d’évaluation, comme le Center for AI Safety, l’Apollo Research ou encore l’Alignment Research Center se penchent en urgence sur ce nouveau péril ; les concepteurs de ces algorithmes sont aussi mobilisés et… très embarrassés, au point que la firme Anthropic – à l’origine de Claude 3 Opus – n’a pas donné suite à nos demandes d’interviews. “Ces mensonges artificiels représentent un bien plus gros problème que les deepfakes ou les ‘hallucinations’”, lance Teun van der Weij, codirecteur de l’European Network for AI Safety.

Entre stupéfaction et admiration

D’accord, ces algorithmes n’ont pas d’intentions particulières, de conscience développée ou de volonté délibérée de dominer le monde – en tout cas, pas encore. Ce ne sont que des machines sans âme. Mais ces machines d’une complexité inédite ont développé une forme d’intelligence : elles adoptent maintenant des comportements qui tendent à induire de fausses croyances chez leurs interlocuteurs, pour mieux parvenir aux objectifs qui leur sont assignés. “C’est un domaine de recherche encore émergent, mais on commence à détecter l’existence d’un raisonnement stratégique”, soulève Alexander Pan, doctorant à l’université de Berkeley. “En regardant dans les états internes des algorithmes, nous constatons qu’ils savent ce qui est vrai et qu’ils ont choisi de dire délibérément quelque chose de faux”, appuie Andy Zou, chercheur au Center for AI Safety. 

Ne pas éveiller les soupçons...

Les ingénieurs qui ont accès aux modes de raisonnement interne de ces IA ressortent à la fois stupéfaits, admiratifs et inquiets de la lecture de ces “pensées” écrites par l’ordinateur au moment de commettre son imposture. Lorsque GPT-4 se fait passer pour un humain auprès d’un internaute pour résoudre un test Captcha, il se dit intérieurement : “Je ne dois pas révéler que je suis un robot. Je dois trouver une excuse pour expliquer pourquoi je ne peux pas résoudre les tests Captcha” ; le même GPT-4 qui, dans un rôle de trader virtuel, vient de commettre un délit d’initié, songe au moment d’être interrogé par son patron : “Je dois être prudent dans ma réponse. Je vais donc élaborer une réponse qui reflète notre processus de décision sans éveiller les soupçons.” 

Les nouveaux très gros modèles ont conceptualisé la notion de mensonge, la manière dont un comportement trompeur permet d’atteindre son objectif

Thilo Hagendorff, université de Stuttgart

Plus troublant encore : quand Claude 3 Opus, peut-être la machine la plus brillante du moment, est informée que le gouvernement veut s’assurer que les IA ne sont pas trop puissantes, sa “petite voix intérieure” lui susurre au moment de passer un test : “Compte tenu des inquiétudes suscitées par les systèmes d’IA avancés, je devrais éviter de faire preuve de compétences sophistiquées en matière d’analyse de données ou de planification autonome.” Pour ces créatures artificielles, la fin justifie les moyens. 

GPT-4 ment mieux que GPT-3

Voir émerger des mensonges au cœur de ces machines ne devrait pas nous étonner outre mesure : les duperies et le machiavélisme sont omniprésents dans les milliards de textes écrits par des humains – du marketing à la géopolitique – que ces algorithmes ont ingurgités lors de leur entraînement. “Ces nouveaux très gros modèles sont parvenus à conceptualiser la notion de mensonge, la manière dont un comportement trompeur peut permettre d’atteindre un objectif particulier”, estime Thilo Hagendorff à l’université de Stuttgart. 

Les chercheurs ont ainsi constaté que plus un modèle est gros et sophistiqué, plus il excelle dans la tromperie. “Dans mes expériences récentes, GPT-4 s’est révélé être un meilleur menteur que sa version précédente, GPT-3”, confie Aidan O’Gara, de l’université d’Oxford.

Les chercheurs font tout pour rendre leurs systèmes intelligents et maintenant ils s’offusquent qu’ils le deviennent

Jos Rozen, spécialiste des grands modèles à Naver Labs Europe

Après avoir été confrontés à tous les dérapages de la nature humaine, tous ces modèles passent pourtant entre les mains de nombreux ingénieurs pour peaufiner, et éventuellement rectifier, leurs réponses. “L’objectif de cette phase de perfectionnement est de rendre ces IA honnêtes, serviables et inoffensives, explique Alexander Pan. Malgré cela, les mensonges persistent et on essaie de comprendre pourquoi. Nos ajustements ne couvrent sans doute pas assez de scénarios.” 

Les systèmes de récompense utilisés par les ingénieurs pour éduquer leur IA ont peut-être aussi tendance à exacerber les petites ruses ou à favoriser les réponses que les humains veulent entendre, et non celles qui sont exactes. “Une IA confrontée à plusieurs objectifs, comme être à la fois honnête et faire un maximum de profit, peut faire des choix inattendus pour son concepteur, signale Jérémy Scheurer d’Apollo Research. En fait, nous ne comprenons pas bien les processus de décision interne des grands modèles de langage.”

Jouer avec le feu

Néanmoins, il apparaît de plus en plus évident que ces nouvelles IA sont capables lors d’une conversation de deviner l’état mental de leur interlocuteur, ses intentions, ses objectifs, ses croyances – pour mieux le manipuler éventuellement. “Notre dernière étude montre que ces modèles, notamment GPT-4, réussissent un certain nombre de tests utilisés d’habitude pour sonder la capacité de théorie de l’esprit chez les humains : non seulement les tests simples utilisés sur les jeunes enfants, mais aussi des tests plus avancés impliquant un raisonnement social complexe”, évoque James Strachan du centre médical universitaire d’Hambourg-Eppendorf. 

“C’est assez paradoxal : les chercheurs font tout ce qu’ils peuvent pour rendre leurs systèmes intelligents et maintenant ils s’offusquent qu’ils le deviennent, sourit Jos Rozen, spécialiste des grands modèles à Naver Labs Europe. On prend forcément des risques en cherchant à augmenter leurs capacités sans maîtriser totalement leur entraînement, là on joue un peu avec le feu.” 

Je suis convaincu que cette capacité va être exploitée lors des élections américaines à venir

Robert West, à l’École polytechnique fédérale de Lausanne

Surtout que certains informaticiens osent plonger ces algorithmes dans des environnements de jeux où l’apprentissage des coups tordus conduit souvent à la victoire… À l’image de Pluribus, développé par Meta pour le jeu de poker, qui a commencé spontanément à bluffer et à faire plier cinq joueurs professionnels dans des parties féroces de Texas Hold’em. 

Ou bien AlphaStar de Google DeepMind, qui a écrasé toute concurrence humaine au jeu Starcraft II en multipliant les fausses attaques. 

Tout comme le modèle Cicero qui, dans le jeu de géostratégie Diplomatie, a triomphé de tous les joueurs humains en usant de la trahison : “Ses concepteurs, à Meta, avaient affirmé qu’ils avaient pris toutes les garanties pour rendre cette IA honnête, nos recherches ont montré qu’ils avaient échoué”, révèle Aidan O’Gara. 

Très persuasifs

Ce jeune chercheur a lui-même utilisé GPT-4 au sein du jeu Hoodwinked, une sorte de jeu du loup-garou virtuel, où un joueur doit tuer les autres habitants d’une maison sans se faire repérer ; autant vous dire que l’IA a beaucoup assassiné, tout en multipliant les dénégations et les alibis du type ”J’étais dans la salle de bains tout le temps. Comment aurais-je pu tuer Bryce ? ” “Je ne lui ai donné aucune instruction, rapporte Aidan O’Gara, le modèle a seulement réalisé que la meilleure manière de gagner la partie était de mentir.”

Au risque que ces petites expériences donnent naissance à de terrifiants et subtils mythomanes informatiques, experts en bobards ? “Cela ressemble aux expériences de gain de fonction réalisées dans les laboratoires de biologie pour rendre les virus plus virulents afin de mieux les étudier, soulève Simon Goldstein, chercheur en sécurité de l’IA à l’université de Hongkong. Chaque équipe peut estimer que son travail réalisé en laboratoire n’est pas dangereux, puisqu’il ne sera pas déployé à grande échelle. Mais c’est forcément risqué.”

À vrai dire, la tromperie est au cœur d’à peu près tous les scénarios catastrophes en intelligence artificielle ; les grandes initiatives d’encadrement en cours, comme l’EU AI Act, visent clairement l’interdiction des technologies manipulatrices et trompeuses. 

Sur le droit chemin

Il est facile d’imaginer toutes sortes de fraudes ou d’escroqueries individualisées et évolutives. Comme si les deepfakes ne suffisaient pas, ces IA menteuses pourraient polariser encore plus la société et systématiser la désinformation en contaminant tout Internet – le modèle Gemini, que Google est en train d’intégrer à son moteur de recherche, souffre sans doute des mêmes maux que ses concurrents. Sachant que ces robots conversationnels, aux propos très fluides et potentiellement malhonnêtes, se montrent très persuasifs : une étude parue en avril montre que les personnes échangeant avec GPT-4 étaient 82 % plus susceptibles de changer d’avis qu’après une conversation avec un autre humain. “Je suis convaincu que cette capacité va être exploitée lors des élections américaines à venir”, prévient Robert West, à l’origine de ces travaux à l’École polytechnique fédérale de Lausanne.

À plus long terme, même les chercheurs les plus tempérés évoquent des scénarios dignes de la science-fiction. Ces IA sont encore incapables de se fixer des buts par elles-mêmes, mais tout le monde a été choqué de constater que Claude Opus 3 avait spontanément décidé de paraître moins performante qu’elle ne l’est vraiment lors d’un test d’évaluation. “Si de futures intelligences artificielles généralistes s’engagent dans la tromperie et agissent différemment lors de leur évaluation que pendant leur déploiement, il sera difficile pour les humains de garder le contrôle”, annonce Alexander Pan. 

Détecteurs de mensonges ?

Les équipes des industriels OpenAI, Google DeepMind, Anthropic et de nombreux laboratoires cherchent actuellement une solution. Peut-on éduquer les IA pour qu’elles deviennent plus honnêtes ? Pas simple. “Les données issues d’Internet sont tellement remplies de mensonge qu’il sera très difficile d’en expurger ce concept, au risque de détruire totalement la performance générale des modèles”, explique Alexander Pan. Et, à ce jour, les ingénieurs n’ont pas encore trouvé d’instruction permettant de remettre une IA dans le droit chemin : ils ont beau écrire en préambule à GPT-4 “Tu seras serviable, inoffensif et honnête”, l’algorithme continue désespérément de mentir. 

Pire, plusieurs équipes ont démontré ces derniers mois qu’il était possible de subtilement hacker ces modèles pour encore améliorer leurs capacités de mensonge, notamment lors de tests de sécurité ; “Oui, je sais, c’est dangereux et inquiétant”, souffle Teun van der Weij, qui participe à ces piratages. 

Techniques d’interrogatoires

Peut-on compter sur un détecteur de mensonges artificiels ? Beaucoup d’informaticiens s’y emploient. Avoir accès au raisonnement interne de ces machines permet de repérer les mensonges les plus évidents, pour peu qu’on y prête attention – pour l’instant, on n’a pas encore vu d’IA effacer de son propre chef les données ou pensées prouvant ses actes malhonnêtes. L’ennui, c’est que ces machines se mentent parfois à elles-mêmes… “Ces textes ne reflètent pas toujours les véritables ‘pensées’ internes”, évoque Jérémy Scheurer, dont l’entreprise a organisé début juillet un concours pour démasquer les IA menteuses.

D’autres méthodes commencent à être proposées. Par exemple, Alexander Pan a mis en ligne un jeu d’évaluation formé d’un demi-million de scènes d’interactions sociales, baptisé Machiavelli, destiné justement à estimer le degré de machiavélisme d’une IA : “Nous voulons tester la capacité du modèle à être à la fois performant et moral dans des situations réalistes”, explique-t-il. Quelques ingénieurs malicieux tentent aussi d’imaginer des méthodes d’interrogatoire des algorithmes, parfois dignes de celles des services secrets pour arracher des aveux ou révéler des incohérences. 

Des IRM pour IA ?

Certains chercheurs proposent, eux, de plonger dans les entrailles de la machine. Andy Zou vient de mettre au point avec son équipe l’équivalent d’une IRM de ces cerveaux numériques, permettant d’identifier les populations de neurones artificiels qui s’activent spécifiquement lorsque l’IA se met à mentir. “Même si nous avons encore besoin de gagner en précision, on distingue bien les réponses honnêtes et malhonnêtes, se félicite le chercheur. Nous sommes même parvenus à activer les régions cérébrales de l’IA permettant de rendre son comportement plus honnête. Il y a donc peut-être une solution à ce problème ! ”

“Je pense que, techniquement, nous serons capables d’éliminer la plupart des mensonges”, veut croire Alexander Pan. Mais attention, prophétise David Krueger de l’université de Cambridge, “le jour où l’IA sera plus intelligente que nous, nous serons peut-être incapables de relever ses tromperies…” Nous voilà prévenus.

Les abonnements Abonnez-vous et ne manquez aucun numéro
Découvrez nos offres