OpenAI annonce deux nouveaux modèles à raisonnement : o3 et o4-mini

Data / IA

OpenAI accélère sur l’IA cognitive avec ses modèles « o3 » et « o4-mini »

Par Laurent Delattre, publié le 17 avril 2025

Le scaling des modèles plafonne, mais le raisonnement explose : OpenAI relance la course LLM avec o3 et o4-mini, ses modèles les plus futés, conçus pour réfléchir avant d’agir et se rapprocher un peu plus de l’intelligence cognitive humaine. Ils sont à essayer dès aujourd’hui.

En septembre dernier, OpenAI annonçait inaugurer une nouvelle génération de modèles capables de raisonner avant de répondre et lançait « OpenAI o1 ». Le monde de l’IA voyait ainsi se concrétiser à l’échelle des modèles frontières des pistes de recherche, comme la « chaine de pensée » (qui permet à une IA de décomposer un problème complexe en une succession d’étapes simples), le « raisonnement déductif », le « raisonnement inductif » (formulation de généralisation), le « raisonnement abductif », etc.

Les modèles « o » se différencient ainsi des modèles « GPT » par leur capacité à systématiquement réfléchir et raisonner, en se perdant dans différentes pistes de supputations et de vérifications, durant un temps déterminé avant de formuler la moindre réponse.

Pour OpenAI, mais aussi pour Google ou Anthropic, ces technologies de raisonnement se sont rapidement avérées des pistes de R&D clés pour continuer de faire progresser les modèles frontières alors que leurs chercheurs découvraient l’existence d’un plafond de verre sur les LLMs : contrairement à la croyance des années 2022/2023, l’inflation des paramètres sur les modèles n’entraîne plus, au-delà d’un certain seuil, les gains exponentiels de pertinence jusqu’ici constatés. Les GPT-5, Gemini Ultra et Claude Opus se sont retrouvés au point mort, devenus bien trop coûteux à entraîner mais aussi à inférer pour des gains de pertinence très marginaux.

Depuis l’arrivée de son modèle « o1 », OpenAI a beaucoup fait progresser ses mécanismes de raisonnement. Parallèlement, Google et Anthropic se sont attachés à créer des modèles hybrides en intégrant des techniques de raisonnement à leurs modèles classiques donnant naissance à des modèles « hybrides » dénommés « Claude 3.7 Sonnet » chez Anthopic (qui anime désormais Claude AI) et « Gemini 2.5 » chez Google (qui anime l’assistant Gemini).

De son côté, OpenAI a aussi annoncé son intention de fusionner ses technologies « GPT » et « o » pour simplifier son écosystème et donner naissance à GPT-5. Espéré au départ pour mai 2025, le projet a toutefois pris du retard. Alors, la jeune pousse de l’IA, qui veille à conserver son leadership, est en partie revenue sur sa stratégie. Elle vient d’annoncer la sortie de deux modèles à raisonnement, « OpenAI o3 » et « OpenAI o4-mini », preuve que la R&D autour des modèles « o » s’est poursuivie.

Deux nouveaux modèles à raisonnement avancé

Alors que sa sortie avait été annulée en début d’année, « OpenAI o3 » succède à « OpenAI o1 » et s’impose comme le modèle le plus intelligent du marché. Disposant d’un vaste savoir mais surtout d’une lourde infrastructure technique pour lui permettre de pousser le plus loin possible ses raisonnements, « o3 » commet 20% d’erreurs majeures en moins que « o1 » sur des tâches complexes réelles. Il n’a pas vocation à remplacer « GPT-4o » pour l’instant bien plus rapide et universel dans ses usages, mais doit être privilégié sur les tâches de programmation, de mathématiques, de sciences et d’analyse visuelle.

Plus rapide, plus léger et par voie de conséquences bien moins onéreux, « OpenAI o4-mini » succède à « OpenAI o3-mini » lancé en fin d’année 2024. D’après OpenAI, il s’agit du modèle le plus performant du marché sur les benchmarks AIME 2024 et 2025. Comme tous les modèles « o », c’est sur les tâches de codage, de mathématiques et d’analyses visuelles que ce nouveau modèle se montre le plus à l’aise.

Intégration d’outils et fonctionnalités

Pour la première fois, ces modèles peuvent utiliser de manière autonome l’ensemble des outils avancés de ChatGPT tels que la « Recherche web », l’analyse de fichiers et de données avec Python, la compréhension d’images et même la nouvelle génération d’images (récemment apparue dans GPT-4o et qui génère un buzz monstre sur les réseaux sociaux avec sa capacité à imiter le style Ghibli et à créer des « Starters Pack » de figurines). Plus besoin par exemple de sélectionner la case “Recherche Web”. Si les modèles en ont besoin, ils partent d’eux-mêmes explorer le Web pour compléter leur savoir !

Preuve que, même si le projet GPT-5 semble prendre du retard, OpenAI a quand même considérablement avancé dans l’intégration des fonctionnalités phares de ChatGPT à ses derniers modèles.

Sécurité et évaluation des risques

OpenAI affirme avoir soumis ces modèles à son “programme de sécurité le plus rigoureux à ce jour”. Conformément à son « Preparedness Framework » récemment mis à jour, o3 et o4-mini ont été évalués dans trois domaines clés que sont la cybersécurité, l’auto-amélioration de l’IA mais aussi le contrôle des utilisations « biologiques et chimiques » de ces modèles. Les résultats de ces évaluations indiquent que les deux modèles restent sous le seuil “High Risk” dans ces trois catégories.

Ainsi, les données d’entraînement pour la sécurité ont été entièrement reconstruites, avec de nouveaux prompts de refus dans des domaines tels que les menaces biologiques, la génération de logiciels malveillants et les contournements de sécurité. Un système de surveillance par LLM a également été développé, permettant de signaler environ 99% des conversations potentiellement dangereuses lors des tests de sécurité.

Ces modèles sont disponibles dès aujourd’hui sur ChatGPT Plus, Pro et Team. Les utilisateurs de la version gratuite ont accès à « o4-mini » dès qu’ils sélectionnent le mode « Think ». Ces modèles sont également disponibles dès à présent sur Azure au travers d’Azure OpenAI Service et d’Azure AI Foundry. Microsoft a également accéléré leur disponibilité sur GitHub afin de permettre aux développeurs de profiter au plus vite des capacités de programmation de ces modèles.

Au final, force est de constater que, si les progrès ne sont plus aussi fulgurants qu’autrefois, ils n’en demeurent pas moins réels, perceptibles et significatifs. Comme le rappelait cette semaine Eric Schmidt (ex-CEO de Google), « les modèles actuels sont capables de faire de la physique, des mathématiques, de la chimie avec un niveau de 80 à 90 % comparé aux doctorants. Alors, imaginez dans cinq ans ! ». Et les nouveaux modèles d’OpenAI le démontrent, ce n’est pas une vue de l’esprit. L’erreur serait de limiter l’usage de ces modèles aux seules problématiques scientifiques. Ces modèles peuvent aussi élargir les cas d’usage : copilotes métiers, agents autonomes, RAG multimodale. Ils préparent surtout l’émergence de l’IA agentique encore naissante avec des agents IA capables de raisonner, d’agir et de se coordonner, « comme des humains ».

À LIRE AUSSI :