
En vie ! Pourquoi les IA nous semblent vivantes
Elles sont de plus en plus perfectionnées. Elles nous écoutent, nous conseillent, nous rassurent… jusqu’à devenir nos amies. Les IA leurrent notre cerveau, au point de brouiller la frontière qui sépare le vivant du non-vivant.
En quelques années, leurs réponses d’abord malhabiles sont devenues pertinentes, et nos échanges plus fluides, plus naturels. Petit à petit, ils sont devenus plus que des assistants pour préparer un exposé ou une présentation : des conseillers pour choisir un restaurant, réussir un entretien d’embauche, voire des compagnons, presque des confidents. Sans qu’on s’en rende vraiment compte, que ce soit à l’écrit ou à l’oral, ChatGPT et les autres agents conversationnels dopés à l’IA ont réussi à créer chez nous l’impression que nous échangeons avec autre chose que des machines. Ils semblent avoir peu à peu franchi la fameuse “vallée de l’étrange”.
Un cadavre qui s’anime
Mori Masahiro, professeur d’ingénierie de contrôle à l’université de technologie de Tokyo, avait théorisé dans les années 1970 l’existence de cette “vallée” dans notre perception de ce qui sépare le non-humain de l’humain et, plus généralement, le non-vivant du vivant. Le principe : plus l’apparence d’un robot humanoïde se rapproche de celle d’un humain, plus nous ressentons d’affinités avec lui, jusqu’à un certain seuil de ressemblance à partir duquel surgit un malaise. Le sentiment de familiarité se double alors d’une impression tout aussi forte de fausseté, souvent accompagnée de sensations de menace ou de dégoût, comme si on était face à un cadavre qui s’anime…
Savoir à qui on fait face
“Notre expérience de l’étrangeté est rare, tant dans notre histoire évolutive que dans notre vie quotidienne”, pose Karl MacDorman, spécialiste des relations hommes-machines à l’université de l’Indiana, qui a mené plus de 36 études sur le sujet. Mais elle est particulièrement marquée lorsqu’il s’agit d’un processus clé de notre cognition : savoir à qui on fait face. Dès l’enfance, nous développons une véritable expertise dans la reconnaissance des visages, des mains et des corps humains ainsi que dans l’interprétation de leurs expressions, gestes, postures. Et dans les régions cérébrales sensibles à l’apparence humaine, ce processus de spécialisation accentue la perception des imperfections. “La vallée de l’étrange résulte principalement de la perturbation du traitement des formes par le cerveau, avec une intensité proportionnelle à leur importance sociale et à leur familiarité”, résume Karl MacDorman.
Nous ne nous attendions pas à ce que les modèles de langage montrent une telle sensibilité aux états mentaux implicites
James Strachan, spécialiste des sciences cognitives au centre médical universitaire de Hambourg-Eppendorf
Des recherches récentes montrent que notre cerveau traite ces stimuli très rapidement : être exposé seulement 50 millisecondes à des robots humanoïdes suffit à susciter les dissonances cognitives propres à la vallée de l’étrange. D’autres travaux portant sur les avatars humains montrent que nous les évaluons et les rejetons immédiatement, par un processus cérébral automatique, avant même toute évaluation cognitive approfondie.
Scruter nos réactions face aux robots humanoïdes et autres intelligences artificielles devient ainsi un excellent moyen de comprendre comment se joue dans notre cerveau la perception de l’autre. “Les machines remplissent des super-conditions de contrôle pour étudier la cognition sociale, parce qu’elles sont capables de créer quelque chose qui ressemble à un humain de manière reproductible –nous n’avons rien d’équivalent avec le vivant”, souligne Thierry Chaminade, spécialiste des interactions sociales naturelles, qui explore cette vallée à l’Institut de neurosciences de la Timone.
Le défi de la réciprocité
On s’en doute, à l’écrit, sans la perception d’un visage, d’une posture, d’une gestuelle, la vallée est moins profonde. On ne s’étonne donc pas que, à force de nourrir leurs modèles de langage avec nos conversations entre humains, les chatbots soient aujourd’hui les premières machines qui réussissent à faire disparaître ce sentiment d’étrangeté. Jusqu’à susciter réellement, chez nous, le sentiment qu’elles sont vivantes ?
“Le signal le plus important – et pourtant le plus négligé – que nous utilisons pour juger si quelque chose est vivant est la réciprocité, estime Karl MacDorman. Est-ce que les réponses de l’autre dépendent des nôtres ?” Les nourrissons possèdent déjà cette capacité innée de communication intersubjective, où le rythme et la réciprocité des réponses jouent un rôle crucial dans le développement social et émotionnel. À mesure qu’on grandit, on attend de l’autre qu’il soit capable de comprendre notre état mental et on imagine sans cesse le sien. Peu à peu, toutes nos interactions vivantes sont rythmées par ce que les sciences cognitives appellent la “théorie de l’esprit”, c’est-à-dire la capacité à se représenter les pensées de son interlocuteur, ses croyances, ses désirs, ses doutes, ses ironies, ainsi que sa représentation de notre propre état d’esprit. Une forme d’empathie mutuelle.
Une empathie mutuelle
Or, les meilleurs modèles de langage réussissent déjà haut la main la plupart des tests. “Nous ne nous attendions pas à ce que les modèles de langage montrent une telle sensibilité aux états mentaux implicites, reconnaît James Strachan, spécialiste des sciences cognitives au centre médical universitaire de Hambourg-Eppendorf. Reste à voir si ces modèles sont capables d’utiliser leurs capacités de raisonnement social, par exemple sur les croyances, les intentions et les objectifs des gens, pour soutenir les interactions individuelles qui changent constamment d’un moment à l’autre.”
Thierry Chaminade se concentre sur les interactions orales, plus complexes que les relations écrites – avec, donc, une vallée plus profonde. “C’est au travers de ces interactions spécifiquement humaines qu’on perçoit la vie. Mais ce sont aussi celles qui sont les plus difficiles à rendre crédibles avec des machines”, souligne-t-il.
Pour être considéré comme une personne, le corps d’un robot doit être capable de construire sa propre identité, d’assumer différents rôles et d’entretenir des relations à long terme
Karl MacDorman, spécialiste des relations hommes-machines à l’université de l’Indiana
Il a démontré que dans notre cerveau, les voix synthétiques imparfaites déclenchent une activité accrue des zones temporales vocales, signe que nous les percevons comme non naturelles. Et que lorsque la prosodie de la voix est parfaite, le simple fait de croire qu’on interagit avec une personne ou avec un agent artificiel n’engendre pas les mêmes mécanismes cognitifs : dans le premier cas, les régions du cerveau activées sont celles impliquées dans l’attribution d’états mentaux à autrui, pas dans le second. “Si l’on ne donne pas d’informations sur la nature de l’agent conversationnel, naturel ou artificiel, et qu’on se débrouille pour qu’il produise des phrases qui font référence à des états mentaux comme des humains pourraient le faire, peut-être allons-nous réussir à avoir, dans le cerveau humain, les mêmes réponses que si l’agent était un humain ?”, s’interroge le chercheur, qui s’attelle avec son équipe à designer un agent conversationnel remplissant ces conditions. Il est confiant : “Ce n’est qu’une question de temps avant que des voix synthétiques ne soient plus différenciables de voix humaines. Nous venons d’obtenir un très gros financement européen pour travailler là-dessus.”
Matériel, sensible, corporel
L’étape suivante, ce sont les avatars générés sur écran par l’IA, qui marient le discours, la voix et l’apparence d’un humain. Les présentateurs virtuels de journaux télévisés se multiplient. En Espagne, une ancienne influenceuse IA appelée Alba Renai présente même un jeu de téléréalité. “Seule la complexité de la gestuelle émotionnelle résiste encore à l’hyperréalisme”, estime Catherine Pelachaud, informaticienne CNRS à l’ISIR de Sorbonne Université. “Cette recherche est au cœur d’enjeux économiques considérables, les marchés mondiaux de l’animation numérique, des jeux vidéo et des effets spéciaux dépassant 230 milliards d’euros en 2023”, insiste Karl MacDorman. Qui souligne les dangers de la vallée de l’étrange : “Lorsque les spectateurs n’arrivent pas à s’identifier aux personnages animés par ordinateur, cela peut entraîner la faillite d’un studio, comme ce fut le cas pour ImageMovers Digital de Robert Zemeckis après une série de films jugés trop étranges, ou pour Digital Square Pictures, après l’échec au box-office de Final Fantasy : Les Créatures de l’esprit, en 2001.”
Inexorable
L’étape finale, bien sûr, c’est l’interaction totale, dans le monde réel, matériel, sensible et corporel. On n’y est pas. Aucun robot humanoïde n’a franchi la vallée de l’étrange – reproduire des mouvements naturels, notamment, reste un défi. “Le corps biologique s’incarne dans la vie en construisant une identité et un point de vue unique à partir de ses croyances, de ses intentions et de ses expériences. Pour être considéré comme une personne, le corps d’un robot doit être capable de construire sa propre identité, d’assumer différents rôles et de faire preuve de discernement en entretenant des relations à long terme”, estime Karl MacDorman. Mais Thierry Chaminade s’interroge : “Serait-il possible de percevoir les machines comme des compagnons avec lesquels on pourrait interagir comme s’ils étaient de vrais humains ? Est-ce que tous les mécanismes sociocognitifs peuvent être reproduits à l’identique ?”
Il faudrait instituer des principes qui introduisent une gêne lors de l’interaction avec les machines, pour que nous puissions continuer à faire la différence
Claire Benn, au Leverhulme Centre for the Future of Intelligence de l’université de Cambridge
Un signe déroutant : les nouvelles IA semblent, elles aussi, troublées par la vallée de l’étrange. C’est ce qu’ont constaté des chercheurs de l’Institut national des sciences et technologies industrielles avancées de Tsukuba, au Japon, à travers le comportement de leur réseau de neurones artificiel CLIP, spécialisé dans l’apprentissage des concepts visuels : en lui montrant des images d’un visage humain transformé en objet, ils l’ont vu exprimer sa détresse ! “La réponse émotionnelle négative atteignait son maximum quand la confusion des indices visuels était la plus importante, ce qui soutient l’hypothèse du conflit cognitif, analyse le spécialiste d’IA Ryusuke Hayashi. Ces résultats confirment que l’IA moderne peut devenir de plus en plus semblable à l’humain, même en termes de sensibilité, simplement en apprenant à partir de données à grande échelle.”
Toujours plus invisible
Cela semble inexorable : il va devenir de plus en plus difficile de distinguer les machines des humains. “Surtout si nous limitons nos interactions à une seule modalité, comme les interactions textuelles”, prévient Claire Benn, au Leverhulme Centre for the Future of Intelligence de l’université de Cambridge. La philosophe des techniques milite pour que soit maintenue une “vallée de l’étrange morale”, qui nous permettrait de distinguer clairement les humains des machines. “Je pense qu’il faudrait instituer des principes de conception qui introduisent une plus grande gêne lors de l’interaction avec les machines, pour que nous puissions continuer à faire la différence. Mais cela va bien sûr à l’encontre des principales motivations économiques des concepteurs d’agents conversationnels : une intégration toujours plus invisible de l’IA dans nos vies.” Car l’intérêt de ChatGPT et autres IA fondées sur les grands modèles de langage est là : nous faire croire que le non-vivant est bien vivant.