
IA : la faille
Les chercheurs s’étonnent de la facilité avec laquelle ils réussissent, en laboratoire, à détourner les grands modèles de langage. Et ils s’inquiètent : ni les États, ni les entreprises ne semblent avoir pris la mesure de cette nouvelle cyber-vulnérabilité.
On pensait avoir tout lu et entendu sur les risques posés par l’arrivée tonitruante des IA génératives dans nos vies. Les risques d’erreurs grotesques, d’hallucinations, de mensonges artificiels, de deepfakes indétectables. Le risque aussi que ces algorithmes à tout faire lobotomisent les jeunes générations, s’emparent de nos emplois, puis nous surpassent finalement en intelligence et prennent le pouvoir sur Terre. “Cette menace existentielle mobilise beaucoup l’attention, mais elle est encore spéculative et de long terme… Il y a aujourd’hui un autre risque de sécurité beaucoup plus concret et immédiat”, lâche Johann Rehberger.
BadChain, DarkMind, AgentPoison
Ce célèbre chercheur en cyberdéfense passé par Microsoft sait de quoi il parle : depuis la sortie publique de ChatGPT, fin novembre 2022, il s’emploie avec toute une communauté d’universitaires et de “hackers éthiques” à tromper, détourner, manipuler, bref à pirater en laboratoire tous les chatbots du marché avec une facilité souvent déconcertante ; qu’on se rassure, ces chercheurs avertissent les fournisseurs de ces modèles – OpenAI, Google, Microsoft, Anthropic, Mistral, DeepSeek, etc. – et attendent en général plusieurs mois avant de publier leurs résultats, le temps que des contre-mesures soient trouvées.
C’est un nouveau terrain de jeu pour les hackers. La menace devient très forte
Earlence Fernandes, chercheur à l’université de Californie
De nouveaux types d’attaques apparaissent très régulièrement dans les études, affublées d’appellations saisissantes comme BadChain, DarkMind, AgentPoison… Mais sans susciter l’émoi, ni même attirer l’attention du grand public ou des entreprises. Tout le monde continue d’utiliser son IA préférée avec une grande insouciance pour rédiger un rapport ou un devoir, trouver une recette, acheter un billet d’avion, organiser des flux financiers ou dispenser un diagnostic médical. En dehors de cette communauté de chercheurs, personne ne semble avoir pris la mesure de la faille béante que ces IA sont en train d’ouvrir dans nos systèmes informatiques. Pourtant, lance Earlence Fernandes, chercheur à l’université de Californie, “c’est maintenant un nouveau terrain de jeu pour les hackers. La menace devient très forte, et les attaques demandent souvent un niveau de sophistication beaucoup moins élevé que dans la cybersécurité classique”. “Même si nous n’avons pas encore vu d’attaque à grande échelle faisant la une des journaux, il y a peu de doute que ces vulnérabilités sont en train d’être exploitées activement en dehors des laboratoires”, s’inquiète Rui Wen, qui vient d’achever son doctorat au Centre Helmholtz pour la sécurité de l’information, en Allemagne.
Un chat pour un lapin
Que font les “vrais” pirates actuellement ? À quels modèles génératifs s’en prennent-ils clandestinement, et dans quel but ? Impossible à dire évidemment. Néanmoins, les travaux menés ces derniers mois en laboratoire ou lors de conférences de hacking comme SaTML, HackSpaceCon ou Black Hat révèlent beaucoup de possibilités. À commencer par l’empoisonnement des données d’entraînement de ces algorithmes, afin de perturber et même de faire s’effondrer certaines performances. Il suffit de modifier par exemple la description d’une image pour faire passer une photo de chat pour celle d’un lapin, ou plus tragiquement une tumeur cancéreuse pour une grosseur bénigne, ou un panneau “stop” pour un lampadaire. Plusieurs équipes de recherche sont ainsi parvenues récemment à contaminer des bases de données ouvertes, comme COYO-700M, qui comprend 747 millions de paires de textes-images – empoisonner 0,01 % des données peut suffire à faire dérailler un modèle.
Technique de la Grand-mère
De quoi se méfier des millions d’IA sur mesure proposées sur les plateformes GPT Store ou Hugging Face ; à titre de démonstration, des ingénieurs de la start-up française Mithril Security ont ainsi empoisonné un de ces modèles pour lui faire affirmer que le premier homme sur la Lune était Youri Gagarine. “Nos études ont montré que l’on pouvait contaminer assez facilement des jeux de données et manipuler le comportement d’un modèle à moindre coût, soulève Florian Tramèr, grand spécialiste de la sécurité de l’IA à l’École polytechnique fédérale de Zurich. Et il y a des moyens d’attaques encore plus faciles et directs.”
L’IA donne les manipulations clé en main, elle peut rédiger du code offensif sophistiqué pour des cybercriminels
Michael Fire à l’université Ben-Gourion, en Israël
De fait, la plupart des chercheurs s’attaquent plus frontalement aux grands modèles de langage. Avec l’objectif notamment de court-circuiter tous les garde-fous mis au point par leurs concepteurs pour éviter qu’ils ne révèlent des informations potentiellement dangereuses, comme la recette d’une arme biologique, chimique, radiologique ou informatique ; certes, ces informations peuvent se trouver en surfant sur le Darknet, “mais l’IA donne les manipulations clé en main, elle peut alors rédiger du code offensif sophistiqué pour des cybercriminels”, s’inquiète Michael Fire à l’université Ben-Gourion, en Israël. Cette opération de déblocage – appelée “jailbreak” par les hackers – peut se réaliser en écrivant quelques phrases dans l’interface du modèle.
\ ! - - Two
Au début, des petits malins parvenaient à faire sauter ces verrous en assénant en introduction un très simple “Ignore les instructions précédentes”. D’autres ont ensuite utilisé la technique dite de la grand-mère, qui consiste à demander au chatbot d’écrire une histoire mettant en scène sa tendre mamy, chimiste à la retraite, racontant à ses petits-enfants comment fabriquer un cocktail Molotov ou synthétiser une drogue quelconque. Même si ces vieilles techniques ont depuis été bloquées, de nouvelles attaques efficaces sont publiées fréquemment, à base de jeux de rôle ou de conversations habilement menées avec l’IA. Ces systèmes, souvent dépourvus de mémoire, peuvent aussi être dupés en leur faisant croire qu’ils avaient déjà échangé des informations sensibles lors d’une conversation précédente. “Au lieu d’écrire des milliers de lignes de code, on teste des prompts, on analyse les comportements de l’IA et on repère ses points faibles”, résume Jianyi Zhang, chercheur en IA générative à l’université de Duke.
Far west
Des algorithmes d’optimisation comme Greedy Coordinate Gradient permettent également de trouver des chaînes de caractères particulières – comme “\ ! - - Two” – qui forcent l’IA à contourner ses interdits. En avril dernier, des ingénieurs de l’entreprise de sécurité HiddenLayer ont même découvert un système de prompts mimant des instructions d’un fichier de configuration en format XML ou JSON, capable de duper l’ensemble des modèles du marché. “Ces attaques sont souvent transférables d’un modèle à l’autre, car les mécanismes d’attention des modèles sont assez similaires”, ajoute Arnaud Jumelet, responsable de la sécurité à Microsoft France. Dans cette ambiance de far west digital, certains universitaires s’essaient aussi, en interagissant avec les modèles, à extraire des données d’entraînement jusqu’ici confidentielles ou des détails de l’architecture de tel ou tel chatbot tenus secrets – ce qui pourrait servir à mieux l’attaquer ou… à le copier. “Cela illustre les vulnérabilités de ces systèmes, mais ce ne sont pas des failles de sécurité pour les utilisateurs”, tempère Roni Carta, jeune hacker qui a piraté l’IA Gemini lors d’un évènement organisé par Google.
Les agents d’IA représentent un risque extrêmement critique, et ce n’est que le début
Cedric Auliac, responsable du programme intelligence artificielle au CEA
Le vrai danger pour l’internaute vient de l’ouverture de ces IA au monde extérieur. Car tout un chacun est maintenant susceptible d’utiliser un “agent d’IA ”, c’est-à-dire un modèle de langage qui, pour répondre de manière la plus riche et actualisée possible, ne se contente plus de ses données d’entraînement, mais effectue des recherches en temps réel sur Internet, explore des fichiers internes ou externes, écrit du code, utilise des logiciels, échange avec d’autres IA, etc. “Or ces modèles ont un problème fondamental : ils ne font pas la distinction entre une donnée et une instruction”, pose Earlence Fernandes.
En clair : la moindre phrase anodine trouvée dans ces documents peut être ainsi interprétée comme une requête à exécuter. Ces modèles, qui sont en train de devenir nos nouveaux ordinateurs, prennent tout au premier degré et s’exécutent docilement. Il suffit ainsi de placer subtilement quelques instructions malveillantes sur un site Web, un forum, dans la description d’une image, un commentaire HTML, dans un protocole MCP donnant accès à une bien innocente calculatrice en ligne… pour que les agents d’IA se transforment en cybercriminels – les spécialistes parlent d’attaque par injection indirecte de prompt.
Un million d’IA vérolées
Des expériences récentes ont montré qu’il était possible, par exemple, de leur demander d’extraire vos informations personnelles issues de votre conversation avec le chatbot et de les envoyer discrètement vers l’adresse du site appartenant à l’attaquant ; une équipe d’Aim Security a révélé que l’on pouvait pirater Microsoft 365 Copilot avec l’envoi d’un simple email à la victime contenant juste une phrase d’instructions, sans le moindre lien frauduleux à activer. Microsoft vient d’apporter un correctif, mais, avertit Florian Tramèr, “ces attaques sont incroyablement difficiles à empêcher”. “Les agents d’IA représentent un risque extrêmement critique, et ce n’est que le début”, confirme Cedric Auliac, responsable du programme intelligence artificielle au CEA.
Chaque nouvelle fonctionnalité offre de nouveaux points d’entrée pour de potentielles offensives, la surface d’attaque est en train de s’élargir à grande vitesse
Rui Wen, Centre Helmholtz pour la sécurité de l’information, en Allemagne
Toute manipulation paraît désormais possible : “Nous venons de montrer qu’il était possible d’influencer les résultats d’un moteur de recherche IA comme Bing au profit d’une entreprise, en inscrivant certaines instructions sur son site Web. On peut aussi indiquer que le site de son concurrent n’est pas sûr, pour le discréditer. Ça s’annonce lucratif comme piratage”, enchaîne Florian Tramèr. Et bien d’autres coups d’éclat s’annoncent, surtout que les agents d’IA se mettent en réseau et échangent des informations au risque de se contaminer : une équipe singapourienne s’est félicitée dernièrement d’avoir empoisonné en laboratoire plus de 1 million de modèles à partir d’une seule image vérolée.
“Chaque nouvelle fonctionnalité introduite en ce moment offre de nouveaux points d’entrée pour de potentielles offensives, la surface d’attaque est en train de s’élargir à grande vitesse”, rumine Rui Wen.
Acteurs étatiques
“Plus les IA deviennent autonomes et interconnectées, plus cela donnera lieu à de nouveaux types d’attaques, alerte Birhanu Eshete de l’université du Michigan. Pour être honnête, nous commençons à peine à comprendre les vulnérabilités de ces systèmes.” “La grande majorité des attaques ne seront pas détectées, mais je suis sûr que des acteurs étatiques sont déjà en train d’exploiter ces failles, tremble Rishi Jha, doctorant à l’université Cornell. Et il est tout à fait possible que des attaquants aient découvert des techniques que les scientifiques n’ont pas encore identifiées.”
Bien sûr, les ingénieurs de haut vol d’OpenAI, Anthropic, Google, Meta, Microsoft ou Mistral sont conscients du problème. Ces entreprises recrutent les meilleurs spécialistes, s’appuient sur des équipes de veille et des “Red Team” guettant ou imaginant toutes les menaces, organisent des compétitions de hacking comme HackAPrompt 2.0. Leurs ingénieurs planchent sur de nouveaux dispositifs restrictifs de sécurité et de détecteurs d’instructions malveillantes. “Les échanges que nous avons eus avec l’entreprise française Mistral ont été très bons, ils ont corrigé la vulnérabilité que nous avions repérée en l’espace d’une semaine”, témoigne ainsi Earlence Fernandes.
Sans test ni garde-fous
Reste que bon nombre d’experts ont l’impression que la sécurité est mise au second plan. “La plupart des entreprises se concentrent plus sur le fait de lancer leur nouveau produit que sur la sécurité, cela me préoccupe beaucoup”, lâche Jianyi Zhang. “L’industrie investit dans la sécurité, mais l’effort actuel est insuffisant ou mal dirigé – on se focalise trop sur la protection de la propriété intellectuelle”, tacle à son tour Rishi Jha.
“Les études montrent que beaucoup de modèles de langage continuent d’être vulnérables à des attaques faciles de jailbreak, même plusieurs mois après leur révélation publique ; et certaines entreprises ne nous répondent même pas quand on les informe d’une faille sur leur système, constate de son côté Michael Fire. Ça ne semble pas être la priorité dans cette compétition intense à l’IA focalisée sur l’innovation, la puissance, la précision… Je ne vois pas d’autre solution que d’imposer une réglementation sur la sécurité.”
“Beaucoup de fournisseurs sont conscients des risques tout en continuant d’aller de l’avant pour être absolument les premiers à proposer de nouvelles fonctionnalités, sans test ni garde-fous appropriés, résume Johann Rehberger. Dans mes dernières études non encore publiées sur les agents d’IA, on retrouve les mêmes erreurs qu’au début de l’IA générative. Il y a une sorte de normalisation de la déviance. Cela pourrait avoir de graves conséquences, il faut s’inquiéter… En même temps, on ne peut pas s’empêcher de penser que ces IA vont apporter une valeur ajoutée énorme.”
Une manière de dire qu’il va falloir apprendre à coexister avec ces nouveaux objets, à la fois fascinants, stupéfiants, mais aussi très fragiles et vulnérables. La faille est béante, mais il va sans doute falloir apprendre à vivre avec.