

Data / IA
ARC-AGI-2 et l’utilité des Benchmarks IA pour les DSI
Par Laurent Delattre, publié le 26 mars 2025
La fondation ARC Prize annonce la sortie de son très attendu benchmark ARC-AGI-2 conçu pour évaluer les progrès des IA vers l’intelligence artificielle générale. La publication du benchmark ARC-AGI 2 est aussi l’occasion pour nous de revenir sur le rôle, l’intérêt et les limites des benchmarks de l’IA pour les DSI…
À en juger par les performances affichées par les IA actuelles sur le nouveau Benchmark ARC-AGI-2, l’intelligence artificielle générale n’est pas pour tout de suite. En l’occurrence, la meilleure IA du moment en matière de capacité de réflexion, OpenAI o3 ne réalise qu’un score de 4% ! Un score qui ne doit pas néanmoins laisser penser que ce benchmark est inutile, car trop en avance sur son temps.
De l’utilité des Benchmarks dans le développement de l’IA
Les benchmarks IA – ensembles de tests standardisés pour évaluer les modèles – jouent aujourd’hui un rôle clé dans les progrès de l’IA. Très exploités par le marketing des acteurs de l’IA, ils servent surtout d’indicateurs aussi objectifs que possible pour comparer différentes approches, suivre les améliorations d’une génération de modèle à l’autre, et mettre en exergue les points faibles de chaque système IA à défaut de réellement en promouvoir les points forts.
Sur le papier, un bon benchmark agit comme une boussole dans le paysage complexe de l’IA, en fournissant des mesures quantifiables et reproductibles sur des cas d’usage précis. Par exemple, le succès du benchmark ImageNet en vision (classification d’images) a catalysé le boom du deep learning : il a permis de mesurer année après année les avancées des modèles de reconnaissance visuelle, jusqu’à dépasser les performances humaines en 2015, ouvrant la voie à des applications industrielles de la vision par ordinateur. De même, en traitement du langage, des suites de tests comme GLUE et SuperGLUE (analyse syntaxique, inférence, traduction, etc.) ont fourni des barèmes communs grâce auxquels les équipes de recherche pouvaient évaluer leurs modèles de langage dans des conditions identiques, stimulant une saine concurrence académique et une amélioration rapide des résultats.
Ces évaluations standardisées sont devenues incontournables pour juger les grands modèles généralistes, comme les LLM. Des tests de connaissances à choix multiples comme MMLU (Massive Multitask Language Understanding) ou des épreuves de génération de code comme HumanEval sont désormais des références courantes pour situer la performance d’un nouveau modèle par rapport à ses prédécesseurs.
Andrew Ng, fondateur de DeepLearning AI rappelait récemment sur LinkedIn que ces outils d’évaluation sont « inestimables pour donner aux utilisateurs une idée des performances relatives » des modèles d’IA. Ils fournissent un langage commun entre acteurs du domaine : un décideur technique peut exiger d’un modèle qu’il atteigne tel score sur tel benchmark pertinent pour son application (par exemple >90% sur un jeu de données médical), comme gage de qualité avant déploiement.
En recherche, les benchmarks font office de baromètres des capacités : atteindre ou dépasser le score humain sur un benchmark donné est souvent considéré comme une étape symbolique (par exemple, battre le champion du monde sur un jeu, ou obtenir plus de 80% sur un test de compréhension en lecture).
En somme, bien employés, les benchmarks accélèrent le développement de l’IA en fixant des objectifs clairs et mesurables, et en fédérant la communauté autour de challenges partagés.
Des indicateurs partiels, pièces d’un puzzle plus vaste
Le problème nait de l’usage marketing qui en est fait. On l’a encore récemment vu avec Grok3. Car la mise en œuvre des benchmarks reste souvent insuffisamment stricte. Typiquement, un acteur peut chercher à faire briller son modèle en optimisant à outrance les prompts pour sa propre IA tout en utilisant des prompts moins optimisés ou moins adaptés pour les IA concurrentes par exemple. Sur le papier le test reste le même mais les chances de départ de chaque IA de se surpasser ne sont pas les mêmes.
Dit autrement, au-delà des Benchmarks publiés, les DSI devraient mener eux-mêmes leurs propres tests dans les conditions les plus alignées à leurs besoins métiers sans trop se fier aux publications parfois trop pilotées par le marketing des créateurs de modèles.
En outre, les DSI ne doivent jamais perdre de vue que, même bien réalisés, si les benchmarks sont utiles, leur portée reste partielle – aucun test ne peut à lui seul définir l’intelligence d’un système. Chacun n’évalue qu’un angle particulier : tel benchmark va mesurer la capacité d’une IA à classifier des images naturelles, tel autre à répondre à des questions de culture générale, un troisième à planifier des actions dans un jeu vidéo. Pour reprendre une analogie, ce sont autant de morceaux de puzzle qu’il faut assembler pour approcher une image globale des performances d’une IA. Un modèle peut exceller sur un benchmark donné tout en échouant lamentablement sur un autre qui teste une aptitude différente. L’intelligence artificielle, surtout générale, est multidimensionnelle, et sa mesure nécessite un ensemble diversifié d’épreuves. À l’heure actuelle, aucune IA ne brille sur tous les benchmarks qu’on peut lui soumettre.
Autre limite, un bon résultat à un test ne garantit pas nécessairement une aptitude réelle en condition non contrôlée. « Les yardsticks (mètres-étalons) sont fondamentalement cassés », avertit Maarten Sap, professeur à Carnegie Mellon et co-créateur d’un benchmark, pour illustrer que les scores actuels ne disent pas grand-chose sur ce qu’un modèle sait réellement faire dans toute sa généralité et dans les usages auxquels il sera confronté en entreprise.
Une IA qui réussit 90% de réponses justes sur un QCM standardisé peut malgré tout échouer dès qu’on sort légèrement du format du test. D’autant que, comme le notent plusieurs chercheurs, bien souvent, les benchmarks mesurent surtout la capacité à répondre fidèlement au test lui-même plutôt que la compétence sous-jacente qu’on croit évaluer. Une étude de 2024 a montré que de légers changements dans la formulation des questions pouvaient faire chuter drastiquement les performances de grands modèles pourtant « top niveau » sur le benchmark d’origine. Autrement dit, le modèle avait appris à réussir le test tel qu’il était posé, sans avoir acquis une compréhension plus profonde généralisable.
Cette nature spécifique et limitée des benchmarks implique qu’il faut interpréter leurs résultats avec prudence. Un benchmark n’est pas une vérité absolue, mais un indicateur contextualisé. Il est ainsi recommandé aux DSI d’en utiliser plusieurs complémentaires pour évaluer un système sous différents aspects, un peu comme on multiplie les examens (mémoire, logique, créativité, etc.) pour évaluer un élève de façon plus complète. D’ailleurs, le rapport AI Index 2024 de Stanford souligne la nécessité de créer toujours plus de tests diversifiés pour appréhender l’ensemble des comportements des IA modernes. La fondation ARC Prize elle-même insiste sur le fait que son benchmark n’est pas qu’une mesure chiffrée : il sert surtout à inspirer de nouvelles idées en révélant les angles morts des IA actuelles. En définitive, les benchmarks ne doivent pas être confondus avec le but à atteindre, mais utilisés comme des outils de navigation sur la route du progrès en IA.
Effets pervers et dérives liés aux benchmarks
En outre, l’engouement pour les benchmarks n’est pas sans risques. Un axiome bien connu en évaluation est la Loi de Goodhart : « lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure ».
Appliqué à l’IA, cela signifie que si les chercheurs en IA ou les vendeurs du temple IA optimisent exclusivement leurs modèles pour maximiser un score de benchmark, ils peuvent finir par sur-ajuster le modèle aux tests au détriment de sa performance réelle en dehors de ces tests. On parle familièrement de modèles qui « apprennent le test par cœur ». Les grands modèles de langage récents en offrent des exemples édifiants : une étude de 2023 a montré que bien que les scores des LLM sur le benchmark mathématique GSM8K aient grimpé de 35% à plus de 90% en l’espace de trois ans, leur réelle capacité de raisonnement mathématique n’a pas progressé d’autant. En introduisant de légères variations dans les énoncés (noms de variables, valeurs numériques), des chercheurs d’Apple ont observé des chutes de performance significatives, remettant en cause la fiabilité des progrès affichés.
Cette dérive tend à se généraliser aujourd’hui sur les petits modèles. Plus un seul acteur du marché de l’IA ne publie de benchmarks sans mettre en avant les déclinaisons « instruct » de leurs modèles de base. Ces modèles « instruct » (par ex. les versions adaptées pour suivre les instructions humaines) peuvent ainsi être calibrés pour donner des réponses formatées de manière à plaire aux évaluateurs automatiques ou humains. Une analyse des pratiques de preference tuning (ajustement via préférence) le décrit comme une forme de « hack du modèle pour qu’il produise du contenu que la méthode d’évaluation considérera comme excellent ». Tant que l’évaluation reste très robuste, ce n’est pas un problème ; mais si elle ne l’est pas, le risque est de passer à côté du but. Par exemple, on a vu des modèles entraînés intensivement sur des données d’examens standard obtenir des scores élevés, tout en manquant de fiabilité dans des questions ouvertes ou des dialogues libres. De même, des systèmes de vision peuvent être sur-optimisés sur la base de données de référence (en apprenant par cœur des détails d’arrière-plan caractéristiques des images de la classe plutôt que l’objet lui-même), et échouer dès que l’on change légèrement les conditions d’entrée.
De la vigilance et de l’objectivité, clés des benchmarks pour les DSI
Ces effets pervers appellent à une vigilance de la part des DSI. D’une part, il est crucial de diversifier les évaluations pour éviter qu’un modèle ne soit trop spécialisé sur un seul test. D’autre part, il convient de compléter les benchmarks classiques par des épreuves plus proches de la réalité opérationnelle. Par exemple, au-delà d’un score moyen sur des questions académiques, on pourra vérifier le comportement d’un agent conversationnel sur des cas d’utilisation concrets, ou en conditions bruyantes, etc. Certains chercheurs promeuvent l’idée de tests surprises ou de benchmarks dynamiques qui évoluent dans le temps, afin que les modèles ne puissent simplement apprendre par cœur l’ensemble fini de questions. On peut citer l’initiative de Dynabench (Facebook) qui proposait des benchmarks interactifs enrichis en continu par de nouvelles questions trouvant les failles des modèles, ou la démarche des chercheurs d’Apple avec GSM-Symbolic qui a introduit de la variété (à partir de modèles symboliques) dans les items du test.
Plusieurs figures de l’IA encouragent ainsi les DSI à ne pas fétichiser les scores. « La fuite des questions/réponses de benchmark dans les données d’entraînement est une préoccupation constante, et le fait qu’un modèle donne une réponse préférée par des humains ne signifie pas que cette réponse est correcte », rappelle Andrew Ng. En d’autres termes, un modèle qui « réussit » un test peut y parvenir pour de mauvaises raisons – par chance, par triche involontaire (jeu de données leaké), ou en donnant l’illusion de la justesse. La qualité véritable d’une IA doit donc toujours être confirmée par une évaluation en situation réelle, sur des données nouvelles, et par une analyse qualitative. Les benchmarks conservent leur utilité pour la recherche et les comparatifs, mais ils ne sauraient remplacer le jugement expert humain sur la pertinence d’un modèle pour une tâche donnée.
ARC-AGI 2 éclaire le dur chemin vers l’AGI
Tout ceci pour finalement en venir à l’une des annonces IA les plus attendues de la semaine, la sortie du nouveau benchmark ARC-AGI 2.
La version 1 se voulait « facile pour les humains mais difficile pour les IA ». Deux ans après la sortie de ChatGPT et surtout avec l’apparition des modèles de raisonnement comme OpenAI o1/o3, DeepSeek R1, Gemini Thinking ou encore Claude 3.7 Sonnet, cette version 1 avait montré ses limites et ne permettaient plus vraiment de mesurer le chemin qui restait à parcourir aux IA pour atteindre l’AGI.
La version 2 contient toujours certains tests apparemment triviaux pour les humains mais encore difficilement accessibles aux IA. Mais elle élève la barre. En moyenne, les humains n’atteignent qu’un score de 60% aux différentes évaluations qui composent ARC-AGI-2, même si certains humains atteignent effectivement la note parfaite de 100%. D’une manière générale, chaque test d’ARC-AGI-2 a été résolu lors des évaluations par au moins deux humains en 2 tentatives maximum.
Or, à l’heure actuelle, les grands modèles de langage actuels (LLM « pure » comme GPT 4.5) y obtiennent un score proche de 0%. Et même les modèles de raisonnement les plus avancés comme OpenAI o1 ou OpenAI i3 ne dépassent pas quelques pourcents.
Cette approche à contre-courant (la plupart des benchmarks poussent les IA vers des capacités surhumaines dans des domaines étroits) vise à identifier les lacunes fondamentales des IA actuelles : pour les créateurs d’ARC-AGI 2, lorsqu’il n’existera plus aucune tâche facile pour l’homme mais impossible pour la machine, l’AGI sera atteinte.
Le nouveau benchmark comporte un ensemble d’exercices inédits (images, règles, problèmes logiques) que l’IA doit résoudre en s’adaptant, sans les avoir vus durant l’entraînement – à l’image d’un élève qui apprend les bases en classe puis doit résoudre un problème inédit en contrôle.
Si ARC-AGI-1 permettait de commencer à évaluer la capacité d’un modèle à généraliser son « intelligence » à des tâches jamais vues, ARC-AGI-2 place la barre nettement plus haut : pour le « battre », un système IA devra démontrer non seulement démontrer un haut niveau d’adaptabilité mais aussi une grande efficience dans sa manière de résoudre les problèmes.
En effet, l’une des nouveautés phares d’ARC-AGI-2 est d’intégrer désormais une mesure d’efficacité en plus du score brut : l’équipe ARC considère que l’intelligence n’est pas qu’une question de capacité, mais aussi de coût et de rapidité à acquérir et appliquer ces capacités. Dit autrement, désormais, chaque résultat sera accompagné d’un indicateur de coût de calcul (par exemple en dollars ou en énergie), afin de comparer directement l’efficience d’une IA à celle du cerveau humain sur les mêmes tâches. L’idée sous-jacente est qu’une IA passant en force brute des heures de calcul là où un humain résout un exercice en quelques secondes ne peut être qualifiée d’« intelligente ».
En parallèle du benchmark, la fondation a lancé son prix « ARC Prize 2025 » pour stimuler la communauté de la R&D en IA. Ce concours international, hébergé sur Kaggle de mars à novembre 2025, propose 1 million de dollars de prix aux chercheurs et ingénieurs qui feront progresser significativement les performances de leurs IA sur ARC-AGI-2. Les participants doivent soumettre des solutions s’exécutant avec une limite de ressources (environ 50$ de calcul par tâche) et s’engagent à publier leur code en open source en fin de compétition. Un prix « Grand Challenge » de 700 000$ sera attribué à la première équipe dépassant 85% de réussite (seuil censé correspondre à la performance humaine), s’ajoutant à des prix d’étape pour les meilleurs scores et avancées conceptuelles.
Pour rappel, l’édition précédente (ARC Prize 2024) avait attiré plus de 1 500 équipes et donné lieu à 40 articles de recherche, dont plusieurs innovations désormais adoptées dans l’industrie.
Au final, cette sortie d’ARC-AGI-2 illustre à la fois la puissance et les limites des benchmarks dans l’IA. D’un côté, ce nouveau défi ambitieux va concentrer l’émulation de la communauté sur des problèmes cruciaux (raisonnement, généralisation, efficience), et peut-être faire franchir un cap vers des systèmes plus généraux et adaptatifs.
De l’autre, il ne faut pas perdre de vue qu’aucun indicateur isolé ne définira l’intelligence : il faudra scruter les résultats d’ARC-AGI-2 aux côtés d’autres benchmarks, et surtout observer comment les modèles se comportent en dehors du laboratoire.
Pour les DSI, les benchmarks restent des outils précieux, notamment poursuivre les progrès de l’état de l’art. Mais leur lecture doit s’accompagner de recul critique : comprendre ce que teste vraiment tel benchmark, où il peut induire en erreur, et quels aspects importants (robustesse, biais, sécurité, etc.) il ne couvre pas. À l’instar d’ARC-AGI 2, les benchmarks ne sont que des moyens – et non des fins en soi – dans la quête plus large d’intelligences artificielles fiables, générales et bénéfiques.
Reste la grande question : les AGI à même de relever le défi d’ARC-AGI 2 apparaîtront elles dans quelques semaines, quelques mois, quelques années ou après la fin de cette décennie ? Et personne n’a encore de vérité à ce sujet… juste des spéculations…
À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :
