OpenAI DevDay 2024

Data / IA

OpenAI DevDay 2024 : OpenAI fait profil bas avant sa métamorphose

Par Laurent Delattre, publié le 02 octobre 2024

La startup américaine n’a pas vraiment déployé le grand jeu attendu et auquel on avait eu droit l’an dernier pour la première édition de son événement “Devs”. Durant son DevDay 2024, OpenAI s’est plutôt efforcé de séduire les développeurs d’application d’IA et de leur assurer un accès encore plus aisé et ouvert à ses modèles que tout le monde s’accorde à reconnaître comme les meilleurs même si l’éditeur n’a plus l’avance sur la concurrence qu’il avait il y a deux ans à la sortie de ChatGPT.

On savait qu’OpenAI n’évoquerait pas de nouveaux modèles, GPT-5 n’étant pas pour tout de suite et sa nouvelle technologie « OpenAI o1 » ayant été dévoilée il y a 15 jours. Mais on s’attendait tout de même à quelques annonces autour de ChatGPT Plus et des offres Business. Ça n’a pas été le cas. Après une semaine tumultueuse marquée par des départs d’exécutifs et d’importantes levées de fonds, OpenAI qui prépare sa métamorphose en entreprise de profits et s’apprête à annoncer une levée de fonds record de plus de 6 milliards de dollars, a préféré la jouer profil et focaliser ses efforts sur séduire éditeurs et développeurs et s’imposer comme la plateforme incontournable dans le développement d’applications d’IA générative.

Dit autrement ce “DevDay 2024” portait bien son nom. La startup a limité ses annonces à une collection de nouveaux outils et nouvelles fonctionnalités destinés à simplifier l’exploitation et la personnalisation de ses modèles pour créer une nouvelle génération d’applications dopées à l’IA et exploitant le potentiel de ses modèles existants.

Conquérir un marché de plus en plus compétitif

La startup s’est donc évertuée à convaincre les développeurs qu’elle reste la meilleure plateforme pour construire des applications d’IA. Et même si plus de 3 millions de développeurs utilisent ses modèles, OpenAI a bien conscience de l’intensification de la concurrence sur un marché de l’IA en plein essor et en phase d’innovations rapides. D’ailleurs, certaines annonces visaient à rattraper un retard de son offre face à certaines innovations d’autres à l’instar du caching des requêtes qui existent depuis plusieurs mois chez Anthropic. Une compétition qui a d’ailleurs eu un impact très concret sur son Business : OpenAI a réduit en 2 ans de 99% les coûts d’accès à son API grâce notamment à l’introduction de son modèle optimisé « GPT-4o mini ». La concurrence de Google mais aussi de Meta – qui ont dès le début entamé la guerre des prix – n’aide clairement pas la rentabilité des startups que sont OpenAI, Anthropic et MistralAI.

Les annonces de ce DevDay 2024

Au final, la startup a annoncé ce mardi plusieurs nouveaux outils. Voici ce qu’il faut retenir de ces annonces :

Une nouvelle API “temps-réel” pour des expériences plus instantanées

L’API Realtime permet aux développeurs de créer simplement des applications dotées d’expériences IA vocales avec une latence minimale. Bien que ce ne soit pas exactement le mode vocal avancé de ChatGPT, on s’en approche de très près. Six voix sont proposées par OpenAI, distinctes de celles de ChatGPT, et l’utilisation de voix tierces est interdite pour éviter les problèmes de droits d’auteur.
OpenAI a ainsi démontré une application de planification de voyage construite avec l’API Realtime. L’utilisateur peut dialoguer verbalement avec un assistant IA pour préparer son voyage à Londres et recevoir des réponses vocales quasi instantanément avec la possibilité d’interrompre l’IA pour partir sur une autre piste. L’API permet également d’accéder à divers outils, comme l’annotation en temps réel d’une carte avec les emplacements de restaurants mentionnés.

Appel de fonctions et intégration téléphonique

Surtout, cette « Realtime API » – qui repose sur GPT-4o – prend en charge l’appel de fonction (function calling) ce qui permet aux assistants vocaux de répondre aux demandes de l’utilisateur en déclenchant des actions ou en tirant parti d’un nouveau contexte. Typiquement, un assistant vocal peut passer une commande au nom de l’utilisateur ou récupérer des informations pertinentes sur le client pour personnaliser ses réponses.

OpenAI a aussi montré comment l’API Realtime peut être utilisée pour passer des appels téléphoniques via des services comme Twilio, par exemple pour commander de la nourriture pour un événement. Contrairement au célèbre Duo de Google, l’API d’OpenAI ne peut pas appeler directement des restaurants ou des boutiques. Fait notable, OpenAI n’a pas intégré de mécanisme pour que ses modèles d’IA s’identifient automatiquement lors de ces appels, malgré la nature réaliste des voix générées. Il incombe donc aux développeurs d’ajouter cette divulgation, une exigence qui pourrait devenir obligatoire avec la nouvelle loi en Californie et l’AI Act.

Vision fine-tuning et amélioration des modèles

OpenAI a également lancé une nouvelle API  “Vision fine-tuning“. Cette fonctionnalité permet aux développeurs d’utiliser des images, en plus du texte, pour affiner, pour « fine-tuner », leurs applications basées sur des modèles GPT-4o personnalisés. Selon, OpenAI, des centaines de milliers de développeurs ont déjà personnalisé les modèles GPT-4o via les API de « fine-tuning » textuel. Avec cette nouvelle API de fine tuning visuel, « les développeurs peuvent personnaliser le modèle afin de renforcer les capacités de compréhension des images, ce qui permet des applications telles que des fonctionnalités de recherche visuelle améliorées, une meilleure détection des objets pour les véhicules autonomes ou les villes intelligentes, ainsi qu’une analyse plus précise des images médicales » explique OpenAI. La startup précise, à toutes fins utiles, qu’il est néanmoins interdit d’utiliser des images protégées par le droit d’auteur ou violant les politiques de sécurité d’OpenAI .

Prompt Caching : baisser le coût des requêtes redondantes

« De nombreux développeurs utilisent le même contexte à plusieurs reprises dans le cadre de plusieurs appels d’API lorsqu’ils créent des applications d’IA, par exemple lorsqu’ils apportent des modifications à une base de code ou qu’ils ont de longues conversations à plusieurs tours avec un chatbot » constate OpenAI. Anthropic avait fait le même constat en début d’année et introduit une fonctionnalité de mise en cache des invites pour réduire les coûts et d’améliorer la latence en mettant en cache le contexte fréquemment utilisé entre les appels API. Promp Caching d’OpenAI fait exactement la même chose et permettrait aux développeurs d’économiser jusqu’à 50 % des coûts d’appel aux API GPT-4o, GPT-4o mini mais aussi o1-mini et o1-preview.

Une API de distillation de modèle

La distillation de modèles, également connue sous le nom de distillation de connaissances, est une technique qui consiste à entraîner un modèle plus petit et moins complexe (appelé “élève”) à reproduire les performances d’un modèle plus large et plus complexe (appelé “enseignant”). Cette méthode permet de transférer les connaissances d’un grand modèle pré-entraîné vers un modèle plus petit, plus facile à manipuler et à évaluer.

Cela n’aura échappé à aucun DSI, la tendance n’est plus à l’usage des grands modèles linguistiques tels quels, mais à l’usage de plus petits modèles que l’on peut « fine-tuner », autrement dit affiner ou personnaliser, avec les données de l’entreprise pour limiter les risques d’hallucination et améliorer la pertinence des réponses.

Outre les API de « Fine-tuning », OpenAI introduit une nouvelle API de « Model Distillation » pour gérer un pipeline de distillation directement sur la plateforme OpenAI. Typiquement « cela permet aux développeurs d’utiliser facilement les résultats des modèles frontières comme o1-preview et GPT-4o pour affiner et améliorer les performances des modèles plus économiques comme GPT-4o mini » explique OpenAI. Dit autrement, cela permet aux développeurs d’améliorer les performances de GPT-4o mini ou O1-mini en utilisant des jeux de réponse produits par les grands modèles.

Bref, on l’aura compris, OpenAI a voulu parler aux développeurs d’applications IA dans les entreprises et chez les éditeurs d’applications. Et non aux utilisateurs de ses solutions « clés en main ». Pas de GPT-5, pas de Sora, pas de nouvelles fonctionnalités ChatGPT Plus, pas non plus de nouvelles des GPTs et des évolutions du GPT-Store. Ceux qui cherchaient du neuf en la matière ont du se tourner vers Microsoft qui a profité du moment pour annoncer parallèlement pléthore de fonctionnalités nouvelles à son Copilot grand public (Copilot Voice, Copilot Daily, Copilot Discover, Copilot Vision, Think Deeper,…) sur lesquels nous ne nous étendrons pas puisque les Français n’en verront pas la couleur avant plusieurs mois (mais les curieux peuvent se plonger dans la présentation de nos confrères d’InformatiqueNews).

OpenAI promet que les bouleversements et réorganisations en cours en son sein n’auront pas d’impact sur sa capacité d’innovation et sa vitesse d’exécution. Mais il est temps que la startup accomplisse sa métamorphose en grande entreprise de l’IA et démontre qu’elle n’y a pas laissé de plumes au passage.

À LIRE AUSSI :


À LIRE AUSSI :


À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights