OpenAI lance des modèles "o1" qui raisonnent avant de répondre

Data / IA

Avec “o1”, OpenAI pousse ses modèles à raisonner avant de répondre…

Par Laurent Delattre, publié le 13 septembre 2024

OpenAI a officialisé son projet « Strawberry » sous le nom de modèle « O1 Series ». Une évolution technologique majeure qui permet aux modèles génératifs de « raisonner » afin de résoudre des problèmes bien plus complexes et suivre avec plus de fidélité une longue séquence d’instructions.

Souvenez-vous… Il y a presque un an, une crise majeure secouait la jeune pousse pionnière des IA génératives. Si l’on n’a jamais réellement su les dessous réels de l’affaire qui a entraîné l’éviction momentanée de Sam Altman avant son retour triomphal, plusieurs sources ont évoqué un différend autour d’une technologie révolutionnaire de raisonnement en cours de développement alors dénommé Q* (Q-Star).

Le projet a ensuite évolué pour intégrer l’entraînement d’une nouvelle génération de modèles capables de « réfléchir », de « raisonner », avant de se lancer dans la génération d’une réponse. Pour faire simple, avec le projet Strawberry, OpenAI a appris à ses modèles à tourner 10 fois leur langue dans leur bouche avant de répondre.

OpenAI a officialisé hier soir cette nouvelle génération de modèles dotés du don de raisonnement.

« Cette nouvelle génération de modèles représente une avancée si significative, un tel nouveau niveau de capacité IA, que nous remettons à 1 notre compteur et nommons cette nouvelle série de modèles OpenAI o1 » explique la startup dans le billet de blog annonçant cette nouvelle génération.

« Nous avons entraîné ces modèles à passer plus de temps à réfléchir aux problèmes avant de répondre, tout comme le ferait une personne », ajoute OpenAI. « Grâce à leur nouvel entraînement, ils apprennent à affiner leur processus de pensée, à essayer différentes stratégies et à reconnaître leurs erreurs. »

De notables progrès dans l’IA

Dit autrement, contrairement à GPT-4o, OpenAI o1 ne cherche pas à répondre au plus vite. Chaque prompt déclenche une phase de « réflexion » durant laquelle le modèle évalue plusieurs chemins possibles et définit les étapes à franchir pour résoudre un problème avant de commencer à répondre. Ainsi, contrairement à GPT-4o, « o1 » ne cherche pas à simplement mimer un comportement déjà vu. Son entraînement est conceptuellement différent. Le modèle a été entraîné à « réfléchir », à « résoudre » par lui-même les problèmes en appui sur une nouvelle technique dont on entend parler depuis plusieurs mois et que le modèle applique à lui-même : l’apprentissage par renforcement (Reinforcement Learning). Il la combine ensuite à une autre technique connue sous le nom de « chain of thought » (enchaînement de pensées) pour découper un problème en étapes pas à pas.

Il résulte de ce mécanisme d’apprentissage plusieurs améliorations :

Si le phénomène des hallucinations n’a pas été éradiqué, les modèles « o1 » tendent à se montrer plus fiables et plus justes.

– Là où GPT-4o obtient une note de 13/100 sur l’examen de qualification aux olympiades de mathématiques, « o1 » obtient un score de 83%. D’une manière générale, OpenAI estime que « o1 » a un niveau intellectuel d’un étudiant en doctorat dans des domaines comme les mathématiques, la physique, la chimie ou la Biologie. Il est également plus performant en programmation informatique.

– S’il n’est pas encore vraiment capable de dire « je ne suis pas capable de faire ce qui est demandé, merci de m’aider », le modèle « o1 » est l’un des tous premiers modèles du marché à évaluer qu’il a pu faire fausse route et reprendre sa réflexion dans une direction différente avant de générer la moindre réponse.

– Sur le papier, et dans les tests menés par OpenAI, « o1 » est aussi un modèle plus sûr, qu’il est plus difficile de duper pour lui faire oublier ses garde-fous. « Dans le cadre du développement de ces nouveaux modèles, nous avons mis au point une nouvelle approche d’apprentissage à la sécurité qui exploite leurs capacités de raisonnement pour les faire adhérer aux directives de sécurité et d’alignement. En étant capables de raisonner sur nos règles de sécurité dans leur contexte, ils peuvent les appliquer plus efficacement » explique OpenAI. Ainsi, lors des phases des tests, « o1 » a obtenu un score de 84/100 sur l’un des tests de jailbreaking les plus difficiles imaginés par les ingénieurs d’OpenAI. Par comparaison, « GPT-4o » – qui est pourtant l’un des modèles les plus solides du marché en la matière – n’obtient qu’un 22/100.

Encore tout plein de limites

OpenAI rend disponible ce nouveau modèle sur tous les marchés, y compris la France, dès aujourd’hui. Pour l’instant il ne s’agit que d’une preview. Si le modèle est plus « intelligent » que GPT-4o, il ne dispose pas encore de toute la richesse fonctionnelle de ce dernier. C’est pourquoi les deux modèles vont encore cohabiter et pourquoi OpenAI estime que, pour l’instant, GPT-4o reste au quotidien bien plus utile (sauf si vous travaillez sur des scientifiques).

Plusieurs limitations actuelles viennent en effet réduire l’utilité de « o1-Preview » au quotidien :
« o1 » n’est pas multimodal. C’est uniquement un modèle textuel.
– De par son principe de fonctionnement, « o1 » est plus lent que GPT-4o.
« o1 » n’est pas connecté à Internet et son savoir général est inférieur à celui de GPT-4o.
« o1 » ne permet pas encore qu’on lui soumette des fichiers et documents à analyser. Il n’accepte que des prompts.
– OpenAI a pour l’instant établi des limites d’usages assez strictes. On ne peut soumettre que 30 messages par semaine à « o1 » (et 50 à sa déclinaison o1-mini).

Un modèle encore expérimental et très onéreux

Pour l’instant, deux déclinaisons sont disponibles : « o1-preview » et « o1-mini ». La déclinaison « mini » est plus rapide et plus limitée mais devrait se montrer aussi talentueuse que sa grande sœur sur toutes les questions de codage informatique pour laquelle elle a été spécialisée.

Ces modèles sont disponibles dès aujourd’hui sur ChatGPT Plus et ChatGPT Team. Ils seront disponibles sur les versions Éducation et Entreprise de ChatGPT la semaine prochaine. OpenAI ne devrait pas intégrer « o1-mini » sur la version gratuite de ChatGPT avant plusieurs semaines.

Bien sûr, « o1-preview » et « o1-mini » sont également disponibles dès aujourd’hui via les API de la plateforme OpenAI ainsi que les API OpenAI Services d’Azure, pour tous ceux qui veulent intégrer cette nouvelle intelligence dans leurs applications.

Alors qu’OpenAI a considérablement « cassé » les prix d’accès aux API avec la dernière génération de modèles « GPT-4o » et « GPT-4o mini », la génération « o1 » se révèle très onéreuse. Il faut compter 15 dollars par million de tokens en entrée et 60 dollars par million de tokens en sortie ! De quoi refroidir les ardeurs ! C’est trois à quatre fois plus cher que GPT-4o.

Et à l’avenir ?

« O1-Preview » est exactement ce qu’il prétend être : une préversion. OpenAI reconnaît avoir encore beaucoup de travail et d’exploration à réaliser. L’éditeur travaille dans un premier temps à mieux cerner le potentiel et les défauts de ses nouveaux modèles afin d’appliquer les ajustements qui s’imposent. Il travaille également à mettre le modèle à niveau en matière de richesse fonctionnelle en y ajoutant la capacité à explorer Internet, le téléchargement de fichiers pour analyse, et même l’analyse d’images (o1 serait donc plus multimodal qu’il n’y parait dans la preview).

Par ailleurs, OpenAI confirme ne pas abandonner pour autant ses modèles GPT. Une nouvelle version de GPT-4o serait en préparation en attendant l’arrivée, toujours non confirmée, de GPT-5 dans les prochains mois.


À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights