
IA : le quiz ultime
Ils appellent ça “Le dernier examen de l’humanité” : les meilleurs experts de leur domaine sont en train de chercher des questions tellement compliquées qu’elles font sécher les meilleurs IA. Nous vous emmenons dans les coulisses.
“Le dernier examen de l’humanité”. Derrière ce titre un brin grandiloquent se cache l’épreuve intellectuelle la plus exigeante du monde, dévoilée fin janvier aux États-Unis ; infiniment plus intraitable que les questions les plus vachardes du Trivial Pursuit ou de Questions pour un champion. Heureusement, ce test de raisonnement et de culture générale extrême ne s’adresse pas à nous, simples Homo sapiens : il a été mis au point par les équipes de ScaleAI et du Center for AI Safety, avec l’aide d’un millier d’experts, pour évaluer les capacités des tout derniers modèles d’intelligence artificielle générative, tels que DeepSeek-R1, OpenAI o3, Claude 3.7 Sonnet, Gemini Thinking, Grok 3. Que le meilleur gagne – et rafle un maximum de parts de marché…
Trop facile !
Il faut dire que plus aucun concours ne semble pouvoir résister à cette nouvelle génération d’IA, aux chaînes de raisonnement de plus en plus longues et rigoureuses. Début février, Google annonçait par exemple que son modèle AlphaGeometry2 venait de battre les scores des médailles d’or aux épreuves de géométrie des Olympiades internationales de mathématiques. “Les tests de maths existants sont devenus trop faciles pour ces modèles d’avant-garde”, constate Eliot Glazer, de l’institut de recherche américain EpochAI.
Il faut absolument être original pour que la réponse ne puisse pas être trouvée dans les données aspirées sur Internet
John-Clark Levin, spécialiste de l’IA à l’institut Yorktown
À vrai dire, toutes les épreuves multidisciplinaires de haut niveau mises sur pied pour sécher les IA ont été laminées ces derniers mois, avec des scores de bonnes réponses atteignant les 90 %, et surpassant souvent largement les meilleurs experts, nos plus brillants esprits universels : Big-Bench-Hard, MMLU, GPQA Diamond sont ainsi tombés – le site internet « Killed by LLM » dresse même un mémorial en l’honneur de tous les tests “tués” par les modèles de langage. “Les progrès très rapides de ces modèles rendent beaucoup de questions triviales”, enfonce Clémentine Fourrier, chercheuse en machine learning à Hugging Face.
3 000 questions
D’où l’idée maintenant de confronter l’IA aux quiz les plus impitoyables possibles – les derniers questionnaires peut-être que seront capables de formuler des humains… sans l’aide de l’IA. En l’occurrence, le “dernier examen de l’humanité” rassemble 3 000 questions dans une cinquantaine de domaines, allant de la théorie des nombres à la danse classique, en passant par l’anatomie, la chimie, l’archéologie, la physique, la mythologie et les jeux vidéo.
L’annonce publiée par les organisateurs en septembre dernier, à destination des petits génies du monde entier, donne le ton : “Nous cherchons des questions auxquelles seules des personnes exceptionnelles peuvent répondre correctement. Les réponses ne doivent pas être faciles à trouver par le biais d’une recherche Google.” Avant d’ajouter, de manière assez désobligeante : “En règle générale, si un étudiant de niveau licence peut comprendre ce qui est demandé, la question est probablement trop facile pour les modèles.”
Mes questions exigent de faire preuve de virtuosité et d’une certaine créativité
Damien Sileo, chercheur à l’Inria, à Lille
De fait, l’immense majorité des questions sélectionnées ont été émises par des ingénieurs de haut vol, des chercheurs, des professeurs et autres titulaires d’un doctorat d’université prestigieuse. Des questions académiques incroyablement pointues sollicitant une réponse unique, précise, objective, faisant consensus au vu des théories en vigueur. Et, bien sûr, on l’a vérifié, ces questions font lamentablement échouer tous les modèles présents sur le marché au début de cet hiver ; il n’est pas question ici de jouer sur leurs bugs ou leurs hallucinations, mais bien d’évaluer leur capacité à s’approprier des notions et à raisonner.
Sujets de niche
Comment mettre au défi cette nouvelle intelligence artificielle ? “Il faut absolument être original pour faire en sorte que la réponse ne puisse pas être trouvée dans leurs énormes jeux de données aspirées sur Internet”, prévient d’emblée John-Clark Levin, spécialiste de l’IA à l’institut Yorktown, incroyable touche-à-tout qui a posé une vingtaine de questions pertinentes, aussi bien en mathématiques qu’en histoire de l’art ou en médecine.
“On doit proposer quelque chose de très différent des exercices de maths soumis en cours ou à des examens et publiés en ligne, ou des discussions sur les forums d’experts comme Math Stack Exchange ; il faut aussi éviter que la réponse puisse être devinée, sans raisonnement, ou même avec un raisonnement faux ; et puis éviter les questions devenues trop faciles : les IA peinaient encore récemment à faire de gros calculs avec des nombres, à sept chiffres par exemple, ce n’est plus le cas, avertit Johannes Schmitt, chercheur en géométrie algébrique à l’école polytechnique fédérale de Zurich. Moi, j’ai posé des questions que j’ai en tête depuis longtemps et qui exigent une connaissance ultra-détaillée de mon domaine, mais aussi des questions qui réclament un raisonnement logique en plusieurs étapes, à exécuter soigneusement, sur plusieurs cas en parallèle.”
Mais les modèles peuvent échouer aussi sur des questions portant sur un épisode de Bob l’Éponge
Daron Anderson, jeune topologiste irlandais
“Les questions difficiles que j’ai soumises en logique et en machine learning ne demandent pas simplement de connaître son cours par cœur : il faut faire preuve de virtuosité et d’une certaine créativité”, appuie Damien Sileo, chercheur à l’Inria, à Lille. “En sciences humaines, on attend plutôt une capacité de raisonnement analytique et une bonne connaissance des sources sur des sujets de niche, précise Lina Brüssel, doctorante au département d’études asiatiques et du Moyen-Orient à l’université de Cambridge. En l’occurrence, mes questions portent sur mon domaine d’étude des manuscrits en langue sémitique écrits entre le VIIe et le XVe siècle, encore difficiles à analyser pour l’IA.”
Quelques petits pièges…
“Pour ma part, je suis habitué à imaginer des questions délicates, notamment pour les compétitions américaines d’Olympiades de physique, confie Kevin Zhou, postdoctorant en physique des particules à l’université Berkeley. Là, j’ai proposé des sujets que l’on ne rencontre pas dans les manuels classiques, des problèmes qui nécessitent de réfléchir à des cas subtils où les méthodes courantes semblent donner des résultats contradictoires […].”
“Mais les modèles peuvent échouer aussi sur des questions portant sur un épisode de Bob l’Éponge”, s’amuse Daron Anderson, jeune topologiste irlandais qui a vu 76 de ses propositions qualifiées, un record. Plus sérieusement, “certaines de mes questions sur l’analyse des équations aux dérivées partielles font appel à des sujets de recherche actuels qui exigent des dizaines de pages de démonstration et plusieurs jours de travail, même pour un expert”, savoure Julien Guillod, chercheur en mathématiques à l’École normale supérieure de Paris.
Et il n’est pas interdit de glisser quelques petits pièges dans l’énoncé : “J’ai proposé de subtiles variantes de problèmes bien connus qui aboutissent à des résultats très différents, les IA tombent dans le panneau… et beaucoup d’humains aussi”, poursuit le mathématicien.
Impitoyable
Bon, on peut toujours faire pire. À l’image de la nouvelle épreuve baptisée FrontierMath, un ensemble de problèmes terrifiants mis au point par soixante mathématiciens de premier plan. “Ces questions sont beaucoup plus difficiles que celles du dernier examen de l’humanité !, clame Eliot Glazer, qui organise l’épreuve. Et nous sommes en train de travailler sur une catégorie de problèmes d’un niveau encore supérieur, dont l’énoncé exigera le travail d’un, deux ou trois mathématiciens du domaine pendant six semaines.”
Les épreuves sont devenues si impitoyables que ces concours donnent parfois lieu à des tricheries. Ainsi, le 20 décembre dernier, OpenAI annonçait fièrement que son modèle o3 était parvenu à 25,2 % de bonnes réponses à FrontierMath, contre moins de 2 % pour tous les autres modèles… Avant que les organisateurs de l’épreuve révèlent piteusement qu’OpenAI avait participé au financement du test et avait eu accès à certaines données. “Ce n’est pas optimal en termes d’objectivité”, euphémise Clémentine Fourrier.
Enjeux énormes
Les initiateurs de ces concours doivent aussi prendre de grandes précautions pour éviter que leurs questions/réponses soient diffusées sur Internet, de crainte qu’elles soient mémorisées lors des mises à jour des modèles comme de vulgaires annales du bac. Seulement voilà, “même lorsqu’on dispose d’une liste confidentielle, c’est difficile de ne pas avoir de fuites, des piratages informatiques sont possibles, rumine Steven Basart, ingénieur au Center for AI Safety. Pourquoi des entreprises feraient-elles ça ? Mais parce qu’il y a d’énormes enjeux financiers derrière le score que réalise un modèle à un test, le moindre pourcentage de bonnes réponses en plus a son importance”. Même si ces épreuves purement académiques ont aussi leurs limites et leurs détracteurs, tout comme les tests de QI chez les humains : “Il me semble plus pertinent d’évaluer la capacité des modèles à effectuer des tâches concrètes pour les humains”, lance Clémentine Fourrier.
Une sorte d’oracle
Reste qu’on ne peut pas s’empêcher d’être fasciné par la montée en puissance intellectuelle de ces machines, avec la croissance sidérante des capacités de calculs et du volume de données assimilées. “Mes questions de maths soumises fin novembre 2024 avaient coincé toutes les IA existantes. Mi-décembre, les organisateurs m’ont informé qu’un modèle qui venait de sortir avait résolu 12 des 40 problèmes que j’avais proposés, témoigne Johannes Schmitt. Et depuis un mois, j’ai l’impression qu’ils ont encore passé un cap.”
Au moment où nous écrivons ces lignes, les IA plafonnent à 10 % de bonnes réponses au dernier examen de l’humanité. “Mais au rythme actuel, il est possible qu’un modèle dépasse le seuil des 50 % de bonnes réponses avant la fin 2025, nous annonce la chercheuse Alice Gatti, co-organisatrice de ce quiz ultime. Si c’est le cas, on pourra le voir comme une sorte d’oracle qui maîtrise toutes les connaissances humaines…” Une IA généraliste, une super-intelligence ? “Non, cet algorithme n’aura pas démontré d’autonomie ou de capacité à explorer l’inconnu. Arrivé à ce stade, il faudra trouver une autre manière de les évaluer.” Mais peut-on vraiment mesurer ce qui nous dépasse ? Vous avez quatre heures…