Data / IA
OpenAI, Google, Meta, Microsoft : les dernières annonces IA 2024 préfigurent les tendances 2025
Par Laurent Delattre, publié le 24 décembre 2024
OpenAI avait prévu de monopoliser l’attention médiatique avec 12 jours d’annonces. Mais ses concurrents en ont profité pour faire également des annonces et lui griller la vedette. Voici ce qu’il faut savoir de toutes ces nouveautés IA de fin d’année 2024 et des tendances qu’elles dessinent pour 2025.
L’absence de toute annonce d’OpenAI autour de GPT-5 / Orion, alors même que la jeune pousse se livrait à un marathon médiatique de 12 jours, illustre la principale information de cette fin d’année 2024 : les LLM frontières ont bien atteint un plateau.
Les indiscrétions venues d’OpenAI, Anthropic, ou Google confirment toutes que si les acteurs phares de l’IA ont bien déjà entraîné leur prochaine génération de modèles frontières (GPT-5, Gemini 1.5/2.0 Ultra, Claude 3.5 Opus), aucun ne les déploiera prochainement. Pourquoi ? Les améliorations dans la pertinence des résultats ne justifient pas les sommes astronomiques dépensées pour leur apprentissage et plus encore pour leur inférence.
Dit autrement, l’IA à base de technologie « Transformers » telle qu’on l’a connu ces deux dernières années a atteint un plateau. Et cela a deux conséquences majeures :
* Les poursuivants peuvent désormais se rapprocher des leaders qui stagnent. Plus concrètement et crument tous les acteurs côtoient désormais les performances d’OpenAI.
* Les acteurs de l’IA doivent redoubler leurs efforts de R&D pour trouver de nouvelles pistes et continuer de faire progresser l’IA dans la quête à l’AGI, l’IA généraliste aussi étonnante que le cerveau humain.
Puisqu’il faut bien continuer de faire avancer l’IA en attendant de trouver les nouveaux « moteurs IA » pour les modèles frontières, toutes les annonces de ces derniers jours éclairent trois grandes tendances qui vont animer le domaine de l’intelligence artificielle en 2025 :
1/ Les agents IA et leur gouvernance ;
2/ Les petits modèles « SLM » spécialisés et ancrés sur les données de l’entreprise ;
3/ Les modèles à raisonnement, des variations des modèles existants qui réfléchissent avant de répondre. Avec des capacités de raisonnement qui ne seront pas réservées aux LLM mais s’appliqueront aussi aux SLM.
Ces tendances se dessinent clairement dans les annonces de ces 15 derniers jours, des jours qu’OpenAI voulait marquer de son emprise mais durant lesquels ses concurrents lui ont volé la vedette.
Voici ce qu’il faut retenir des nombreuses nouveautés présentées en cette fin d’année…
Chez OpenAI
Pas de GPT5/Orion comme on le craignait, ni – et c’est bien plus une surprise – d’annonces autour des Agents IA au cœur de ChatGPT, mais en revanche des officialisations de technologies jusqu’ici en preview et quelques onéreuses surprises ont finalement animé les 12 jours d’annonces d’OpenAI. Voici un bref récapitulatif de ces 12 jours et de leurs annonces :
Jour 1 : Lancement du modèle o1 (jusqu’ici en preview), plus rapide et précis avec des capacités de raisonnement significativement améliorées depuis la preview. Par ailleurs, OpenAI a annoncé un nouvel abonnement ChatGPT Pro à 200 dollars par mois qui donne accès à des modèles et fonctionnalités plus coûteuses en ressources pour des utilisateurs aux besoins extrêmes. Typiquement, ChatGPT Pro introduit un « Pro Mode » pour « o1 » qui lui procure des temps de raisonnement allongés nécessaires aux problèmes les plus complexes.
Jour 2 : Enrichissement du programme de recherche en ajustement par renforcement, permettant de créer des modèles experts spécialisés avec un minimum de données d’entraînement. L’idée est de proposer en 2025 une nouvelle génération de modèles « fine-tunables ».
Jour 3 : Officialisation de Sora, le fameux modèle de génération vidéo d’OpenAI annoncé en début d’année. OpenAI a donc mis 10 mois pour faire de ce gigantesque modèle un modèle fiable et exploitable disponible sous le nom de Sora Turbo. Pour rappel, le modèle est capable de créer des vidéos à partir de textes ou d’images, avec une fonction de storyboard pour plus de précision. Le modèle n’est pas accessible aux Européens pour l’instant. Il est disponible ailleurs en deux versions, une version limitée à 5 secondes de vidéo pour ChatGPT Plus et une version plus professionnelle pour l’onéreux ChatGPT Pro à 200 dollars par mois.
Jour 4 : Intégration de Canevas dans ChatGPT, un outil collaboratif offrant un panneau latéral modifiable pour les tâches d’écriture et de programmation. Canevas était jusqu’ici en preview sur ChatGPT Plus.
Jour 5 : Partenariat avec Apple Intelligence, enrichissant Siri des capacités de ChatGPT sur l’ensemble des plateformes Apple.
Jour 6 : Déploiement de la fonction Advanced Voice with Video, associant les capacités vocales de ChatGPT à la génération vidéo, et introduction d’un mode Père Noël pour les interactions festives.
Jour 7 : Ajout de la fonction “Projets” dans ChatGPT, permettant le téléchargement de fichiers, l’organisation des conversations et la personnalisation des instructions pour une meilleure gestion du flux de travail. Une fonction qui ressemble furieusement à la fonction « Projets » de Claude AI.
Jour 8 : Dévoilement de ChatGPT Search, un outil de recherche de réponses dans les sources web, optimisé pour la vitesse et la pertinence depuis octobre 2024. Jusqu’ici la fonction était réservée à ChatGPT Plus. Désormais le ChatGPT gratuit vient officiellement marcher sur les platebandes de Google. Car oui, comme outil de recherche Web, ChatGPT est très intéressant si votre question est plus précise qu’un mot clé !
Jour 9 : Mise en avant du modèle o1 et de nouveaux outils pour développeurs, incluant des améliorations de l’API en temps réel et une nouvelle méthode d’ajustement pour créer des solutions d’IA spécialisées.
Jour 10 : Introduction d’une fonction permettant d’appeler gratuitement ChatGPT pendant 15 minutes via un numéro de téléphone dédié.
Jour 11 : Accent mis sur l’interaction avec les applications, permettant à ChatGPT de s’intégrer et de fonctionner harmonieusement avec différents logiciels comme Notion, VS Code ou WhatsApp. L’air de rien, OpenAI a ainsi dévoilé comment pourraient se concrétiser les Agents IA au sein de ChatGPT et propose une approche un peu différente au mode « Computer Use » d’Anthropic.
Jour 12 : Aperçu des modèles o3 et o3-mini, dont le lancement public est prévu début 2025, démontrant les avancées en matière de raisonnement et d’interaction IA. Pour sa seconde génération de modèles à raisonnement, OpenAI saute un numéro (pour éviter toute confusion avec l’opérateur de téléphonie O2 et avec le dioxyde de carbone).
Chez Meta
« Distillation »… C’est LE gros mot techno de l’année 2024 ! Une technique qui permet de dériver de grands modèles des plus petits modèles sans nécessairement perdre significativement en pertinence.
Du coup, en 2024, on a vu fleurir des modèles plus raisonnables voir des petits modèles qui affichaient des performances équivalentes aux modèles frontières. Des petits modèles qui peuvent en plus être aisément spécialisés, réentrainés et inférés en local à moindre coût. Que des avantages.
Preuve en est une nouvelle fois avec Meta et son modèle ouvert de référence « Llama ». L’éditeur a annoncé un « Llama 3.3 70B » qui fait mieux encore que son LLama 3.1 405B introduit deux mois plus tôt (et pourtant 6 fois plus gros) !
Llama 3.3 atteint une précision de 50,5 % sur le benchmark GPQA pour le raisonnement et obtient un score de 88,4 % au test HumanEval pour la génération de code, démontrant ainsi ses capacités avancées dans ces domaines. Le modèle prend en charge plusieurs langues, notamment l’anglais, l’allemand, le français, l’italien, le portugais, l’espagnol, le hindi et le thaïlandais, facilitant ainsi son utilisation dans divers contextes linguistiques. Et sa fenêtre contextuelle est désormais étendue à 128 000 tokens, permettant une meilleure compréhension et génération de textes complexes. Grâce à l’implémentation d’une technique dénommée « Attention à Requêtes Groupées (GQA) », le modèle bénéficie d’une efficacité accrue et d’une meilleure scalabilité. Meta a également intégré aux modèles de robustes stratégies de refus de requêtes potentiellement dangereuses.
Bien que Meta considère Llama 3.3 comme un modèle ouvert, il ne correspond pas à la définition officielle de l’open source selon l’Open Source Initiative (OSI).
Chez IBM
Un autre acteur en revanche veille à s’assurer que ses modèles “ouverts” s’accordent effectivement avec la définition officielle d’une IA open source de l’OSI. Et cet acteur n’est autre qu’IBM. L’éditeur a bien l’intention de faire désormais de ses modèles « Granite », la vraie référence des modèles open source – particulièrement dans les cas d’usage IA des entreprises – au détriment de LLama.
Rendue disponible à peine deux mois après « Granite 3.0 », la nouvelle itération « Granite 3.1 » offre des performances accrues mais aussi des mécanismes de détection des “hallucinations” dans les appels de fonctions, et de nouveaux modèles d’embeddings multilingues.
Le modèle phare, Granite 3.1 8B Instruct, avec ses 8 milliards de paramètres, surpasse d’autres modèles open source de sa catégorie, grâce à une meilleure compréhension des instructions complexes, une capacité de raisonnement améliorée sur de longs textes, et une fenêtre contextuelle de 128 000 tokens.
Ce modèle s’accompagne de deux modèles de contrôle « Granite Guardian 3.1 8B et 2B » (des modèles de contrôle des IA qui détectent les “hallucinations” notamment pour fiabiliser les workflows agentiques), et des modèles d’embeddings « Granite Embeddings Multilingual » optimisés pour la recherche sémantique et la vectorisation de documents.
Tous ces modèles sont disponibles sous licence Apache 2.0 et sont accessibles sur la plateforme IBM watsonx.ai et auprès de divers partenaires.
Chez Microsoft
Des modèles qui raisonnent avant de répondre. Ce sera la grande tendance de l’année 2025. L’idée c’est d’ajouter aux LLM des mécanismes qui leur permettent de décomposer les problématiques, d’enchaîner les réflexions, d’évaluer la pertinence des pistes suivies et des résultats obtenus avant de formuler leur réponse.
OpenAI a inauguré le concept avec son modèle « o1 » et le peaufinera en 2025 avec son modèle « o3 ». Mais d’autres se sont accaparé l’idée notamment la startup DeepSeek avec son modèle « R1 », mais aussi Google (voir plus loin).
Et Microsoft démontre que les capacités de raisonnement (pour l’instant essentiellement mathématique et scientifique) ne sont pas l’apanage des modèles frontières.
Avec Phi-4, Microsoft montre que les petits modèles peuvent aussi raisonner comme des grands. Doté de 14 milliards de paramètres, Phi-4 se distingue par ses performances exceptionnelles en matière de raisonnement complexe, notamment dans le domaine des mathématiques et du codage informatique. Malgré sa taille relativement modeste, Phi-4 surpasse, sur des benchmarks de compétitions mathématiques, des modèles beaucoup plus volumineux, tels que Gemini Pro 1.5 de Google, GPT-4o d’OpenAI et Claude 3.5 Sonnet.
Chez Google
Depuis deux ans maintenant, Google a un ennemi en ligne de mire. Et ce n’est pas Microsoft. C’est OpenAI. L’apparition de ChatGPT a déclenché chez l’éditeur un « Code Rouge » tant la menace a semblé sérieuse à son cœur de business. Et depuis, l’éditeur n’a eu de cesse de rattraper son concurrent et de faire feu de tout bois, dans tous les domaines IA, pour couper l’herbe sous le pied de la startup de Sam Altman. Au point de tout faire pour même lui briser ses élans médiatiques : Google a tout fait pour ruiner les 12 jours d’annonce d’OpenAI… et montrer que non seulement il n’avait plus de retard mais qu’il innovait davantage.
Google a ainsi dévoilé « Gemini 2.0 Flash », la nouvelle version « minimale » de son modèle d’IA multimodal. « Minimal » par la taille pas par les capacités. Gemini 2.0 offre des performances accrues, des temps de réponse rapides et des capacités avancées de raisonnement, notamment grâce à une fenêtre de contexte étendue et l’introduction d’une variante expérimentale « Gemini 2.0 Flash Thinking Experiment » concurrent direct de « o1 mini » d’OpenAI.
Ce qui étonne surtout, ce sont les capacités multimodales de « Gemini 2.0 Flash » qui surpassent désormais ce que Google avait initié avec « Gemini 1.0 Ultra » et popularisé avec « Gemini 1.5 Pro ». Au point que désormais, Gemini 2.0 Flash devrait devenir le nouveau modèle de l’assistant « Gemini ». Le modèle intègre en effet des fonctionnalités de génération native de son et d’images ainsi que des capacités en temps réel de conversation audio (façon Gemini Live).,
Ce que le Marketing de Google veut surtout faire passer comme message, c’est que la future famille « Gemini 2.0 » a été spécifiquement imaginée et entraînée pour l’ère de l’IA agentique ! Les fonctionnalités multimodales de « Gemini 2.0 Flash » sont aussi là pour faciliter la création d’agents IA capables d’agir proactivement pour assister les utilisateurs dans leur vie numérique.
Google Agentspace est un outil innovant qui préfigure les Hubs d’IA d’entreprise de 2025. Bien plus qu’un simple outil de recherche ou un assistant conversationnel d’entreprise, Agentspace centralise la recherche d’informations, l’analyse de données via l’IA Gemini, et l’automatisation des tâches dans divers logiciels. Il simplifie le quotidien des collaborateurs en offrant une interface unique pour trouver, exploiter et intégrer des informations, automatiser des tâches répétitives, et créer des agents IA spécialisés.
Agentspace utilise la technologie Gemini 2.0 Flash pour traiter des données structurées et non structurées, et intègre NotebookLM Plus pour la synthèse et l’exploration intelligente de documents. Cet outil permet de créer, gérer et déployer des agents IA via une interface visuelle et low-code, tout en assurant une sécurité et une gouvernance centralisées. Agentspace anticipe la tendance de l’IA agentique, où les assistants IA peuvent non seulement répondre à des questions, mais aussi exécuter des opérations concrètes, structurant ainsi les initiatives IA dans les entreprises. Poussant encore plus loin les concepts initiés par Copilot Studio chez Microsoft, Agentspace inaugure la notion de Hub IA central pour tous les collaborateurs de l’entreprise.
Toujours dans l’idée de venir plomber les annonces d’OpenAI, Google a répondu au lancement de Sora en présentant VEO 2, deuxième génération de son modèle de génération de vidéos. Cette IA est désormais capable de produire des séquences en 4K. Surtout, elle comprend mieux la physique du monde réel et les subtilités du mouvement humain, et réduit les artefacts indésirables. Pour l’instant uniquement accessible aux USA.
Google Labs a également lancé Whisk, un outil capable de générer des images à partir d’autres images, plutôt que de simples descriptions textuelles. Cet outil de retouche et de mixage d’images par IA se veut accessible à tous, même ceux sans compétences en graphisme. Il combine des visuels pour le sujet, la scène et le style graphique, capture l’essence des références fournies et génère des œuvres graphiques originales. Pour l’instant uniquement accessible aux USA.
Autant d’annonces qui montre déjà les grandes tendances de 2025 : la génération de vidéos par l’IA au cœur du marketing d’entreprise, les agents IA pour simplifier le quotidien de tous, les modèles à raisonnement pour bouleverser l’univers des mathématiques et de la physique, la multiplication des petits modèles hautement personnalisés pour l’entreprise et ses métiers.
À LIRE AUSSI :
À LIRE AUSSI :