Les IA à raisonnement hallucinent plus que les IA classiques

Data / IA

En fait, les IA à raisonnement peuvent halluciner plus que les IA classiques

Par Laurent Delattre, publié le 23 avril 2025

C’est un peu une surprise mais c’est ce que confirment à la fois les tests internes d’OpenAI et les tests Hugging Face : oui, les modèles IA à raisonnement comme OpenAI o3 et o4-mini peuvent halluciner plus que les modèles GPT classiques. Et c’est aussi vrai chez la concurrence. Et c’est une très mauvaise nouvelle à l’ère de l’IA agentique.

Les hallucinations des IA sont des phénomènes bien connus de tous ceux qui jouent fréquemment avec les assistants IA basés sur les modèles LLM. Elles se traduisent par des réponses qui sont incorrectes, absurdes, sans fondement dans les données d’entraînement et parfois sans rapport direct avec le prompt. Contrairement aux hallucinations humaines, il ne s’agit pas d’une perception erronée de la réalité de la part du modèle. Elles apparaissent particulièrement lorsqu’un modèle ne trouve pas de réponses dans ses données d’entraînement et tente de combler les trous en inventant des informations plutôt que d’admettre les limites de ses connaissances. Il arrive également – parce qu’en IA tout est une question de statistiques – que le modèle préfère optimiser la cohérence linguistique (basée sur ses données) plutôt que l’exactitude factuelle. Enfin, comme les modèles ne comprennent pas le sens réel des mots, ils peuvent manquer de compréhension et s’égarer.

Jusqu’ici, on pensait que les modèles dits « à raisonnement » comme les modes « Thinking » de Grok, Gemini et Claude ou comme les modèles « o1/o3/o4 » d’OpenAI étaient moins soumis aux risques d’hallucinations. Des techniques comme le “Chain-of-Thought”, au cœur de ces modèles, encouragent l’IA à procéder étape par étape au sein d’un processus structuré moins susceptible de « sauter directement » à une conclusion non fondée. D’autant que ces modèles intègrent des étapes de vérification.

Une bien mauvaise surprise

Seulement voilà, que ce soit du côté des benchmarks réalisés en interne par OpenAI ou du côté des tests réalisés par la plateforme indépendante Hugging Face, cette croyance de fiabilité serait en réalité fausse. Et alors même qu’OpenAI a fait d’énormes progrès dans la réduction des hallucinations depuis GPT 3 et la première version de ChatGPT, force est de reconnaître qu’un grand pas en arrière a été réalisé avec la sortie des modèles « o3 » et « o4-mini » la semaine dernière !

Présentés comme la nouvelle génération « raisonnante » d’OpenAI, « o3 » et « o4-mini » devaient marquer une étape significative vers des systèmes plus fiables. Pourtant, les premiers résultats révèlent une tendance inverse : sur le benchmark interne PersonQA détaillé dans la Score Card diffusée par l’éditeur, o3 hallucine dans 33 % des réponses et o4‑mini atteint même 48 %, soit des niveaux nettement supérieurs à ceux de la première génération o1 (16 %) et au modèle classique GPT‑4.5 (19 %). Dans la documentation technique, l’équipe reconnaît que « davantage de recherches sont nécessaires pour comprendre pourquoi les hallucinations augmentent à mesure que l’on fait évoluer les modèles de raisonnement. »

Une tendance qui se confirme

Transluce, un laboratoire de recherche à but non lucratif, a également constaté que le modèle o3 invente parfois des actions qu’il prétend avoir effectuées ou des liens pour se connecter à des sites ou des API. « Notre hypothèse est que le type d’apprentissage par renforcement employé pour la série o [NDLR : et pour les autres modèles à raisonnement] peut amplifier des problèmes que les pipelines de post‑entraînement atténuent d’ordinaire », explique Neil Chowdhury, chercheur chez Transluce.

Il n’y a cependant pas que les modèles d’OpenAI qui se mettent à halluciner plus. Le « Leaderboard HHEM » d’Hugging Face, qui mesure les taux d’hallucination des modèles, tend à confirmer les résultats précédents. Oui, « o3 » et « o4-mini » hallucinent plus que « GPT-4o » ou « o1 », tout comme « Gemini 2.5 Pro » (modèle hybride à raisonnement) hallucine plus que « Gemini 2.0 Pro » (modèle sans raisonnement) ou comme « Claude 3.7 Sonnet » (en mode Think) hallucine plus que « Claude 3.7 Sonnet » (sans son mode Think).

La prudence est de mise

Pour les DSI et RSSI, la question dépasse la recherche académique : un modèle qui insère des erreurs factuelles ou des instructions fictives menace directement la conformité documentaire, la fiabilité des réponses générées et la confiance en l’IA. Plus grave encore : ces modèles à raisonnement sont justement préférés et utilisés pour animer les agents IA grâce à leur capacité à découper des problèmes complexes en étapes simples. Or, le principe même d’un agent IA est d’être autonome, de prendre des décisions en lieu et place de l’humain pour agir et réagir. Si les modèles sur lesquels sont bâtis les agents hallucinent, c’est toute l’ère de l’IA agentique qui est compromise !

Dit autrement, il est urgent d’attendre que ces phénomènes mal compris soient mieux maîtrisés avant de se lancer dans l’usage d’agents IA en production à grande échelle ! Et en dehors des contextes agentiques, tant que le lien entre raisonnement intensif et hallucination restera mal compris, les nouveaux gains de performance devront être mis en balance avec un contrôle accru du risque, notamment dans les outils de génération de réponses automatiques aux clients ou de génération de codes informatiques. Dit autrement, les DSI doivent aujourd’hui faire preuve de prudence dans l’adoption des modèles à raisonnement et dans les modes Thinking des modèles hybrides. Et ceci alors même que ces modèles envahissent le paysage IA. Car le raisonnement est aujourd’hui la piste de prédilection suivie par les chercheurs en IA pour continuer de faire significativement évoluer des modèles LLM frontières qui ont atteint un plafond technique et n’arrivent plus à progresser par la simple multiplication de leur nombre de paramètres. Il faudra qu’OpenAI et consorts trouvent rapidement des parades à cette tendance inattendue et malvenue.



À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights