Data / IA
Un an d’IA générative, et tout reste à faire…
Par Laurent Delattre, publié le 07 décembre 2023
Gemini, GPT-5, Q*, Mistral AI… Alors que les IA génératives célèbrent leur un an d’existence – avec la sortie de ChatGPT en décembre 2022 – le monde de l’IA s’agite en cette fin d’année pour se repositionner en 2024. Car la course aux IA assistantes du quotidien est loin d’être achevée. Elle ne fait, en réalité, que commencer…
Il y a un an, quasiment jour pour jour, OpenAI ouvrait un accès public à un projet de recherche dénommé ChatGPT… Et… la machine s’est emballée… presque instantanément. ChatGPT n’a pas seulement fait découvrir au monde une technologie, l’IA générative, il a surtout totalement bouleversé l’univers Tech et IT en 2023. Jamais une technologie n’était passée aussi vite du stade de la recherche au stade de l’adoption en entreprise.
En un an, l’IA générative a bouleversé la roadmap de tous les éditeurs de logiciels et services, la roadmap des grands Cloud, la roadmap de la transformation numérique des entreprises.
Pas étonnant dès lors de voir le magazine Time élire cette semaine Sam Altman « CEO Of The Year ».
Pas étonnant, non plus, de voir ces dernières les grands acteurs américains s’agiter à nouveau à grands coups de manifestations orchestrées par leurs équipes marketing. On se croirait revenu au mois de janvier dernier où, à défaut de proposer des choses tangibles, chacun y allait de sa petite démo bluffante.
Ces dernières heures en effet, Microsoft a dévoilé les fonctionnalités qui seront injectées à son Microsoft Copilot dans les prochaines semaines. Google a dévoilé son nouveau modèle fondation « Gemini » qu’il veut révolutionnaire mais qui n’est en réalité pas vraiment prêt. Pendant ce temps en France, une startup fait – elle aussi – monter la pression… tout au moins chez les investisseurs… Pendant ce temps-là, OpenAI qui se remet de sa saga d’il y a 15 jours, continue d’innover et de rendre chaque jour un peu plus habile cette IA générative « star de 2023 ».
Microsoft aligne Copilot sur ChatGPT Plus
Microsoft a ainsi dévoilé plusieurs améliorations destinées à enrichir et améliorer nos interactions avec son IA « Copilot » qui, rappelons-le, est gratuite (contrairement à « 365 Copilot » ou ChatGPT Plus) et se métamorphose même en une IA « entreprise » respectant la totale confidentialité des échanges et des données lorsqu’on s’y connecte avec un compte pro Microsoft 365.
Notebook est une nouvelle interface qui abandonne l’aspect conversationnel au profit d’un vrai travail sur les invites. Elle permet de travailler les prompts de manière itérative, offrant une interface à deux volets pour saisir et peaufiner une requête d’un côté et voir le résultat de l’IA de l’autre. Avec l’idée ensuite de pouvoir partager ces prompts savamment travaillés. La fonction est attendue en 2024 mais déjà testable par certains profils.
La « Multimodalité étendue » étant l’actuelle « Visual Search » de Copilot en combinant l’interprétation d’images et les données de recherche sur le Web via Bing. Cette association entre l’analyse d’image de GPT-4 Vision, la recherche visuelle de Bing et la recherche Web de Bing doit permettre à l’IA de mieux comprendre les requêtes basées sur des images et de réaliser des recherches complémentaires pour offrir des réponses plus pertinentes et plus complètes.
À LIRE AUSSI :
Dans un même ordre d’idées « Deep Search » est un nouveau mode de fonctionnement de Copilot lorsqu’il est utilisé pour rechercher de l’information. Dans ce mode, l’IA analyse et reformule la demande de l’utilisateur en y ajoutant des détails pour offrir des réponses plus pertinentes à des questions vagues ou complexes. Avec ce mode Deep Search, le moteur Bing analyse 10 fois plus de contenus Web afin de formuler ses réponses au détriment bien sûr d’un temps de réponse très allongé (comptez 30 secondes environ par recherche).
Autre nouveauté, qui dans un premier temps ne devrait apparaître que sous Edge et son volet, Microsoft va permettre à Copilot d’analyser les vidéos notamment de YouTube pour en obtenir un résumé, des citations, une transcription, etc.
Enfin, Copilot hérite de fonctionnalités déjà présentes dans ChatGPT Plus à commencer par la très importante fonction « Code Interpreter ». Bientôt disponible pour tous dans Copilot, elle permet d’effectuer des tâches complexes comme des calculs, du codage, de l’analyse de données, et plus encore, l’IA générant automatiquement et exécutant du code Python lui permettant ainsi d’agir pour exécuter ces tâches. Dans un même ordre d’idées, le passage début 2024 au modèle GPT-4 Turbo va permettre aux utilisateurs de charger un long document dans Copilot pour en demander l’analyse.
Google lance Gemini… tout du moins en vidéos…
À travers une communication savamment orchestrée et une multitude de vidéos pré-enregistrées, Google a officiellement lancé cette semaine ses nouveaux modèles fondation développés par sa filiale DeepMind : les modèles Gemini. Ils sont au nombre de trois : « Gemini Nano » pour les usages spécifiques et les smartphones, « Gemini Pro » et « Gemini Ultra ».
Seuls Gemini Nano et Gemini Pro sont réellement lancés. Le premier arrivera sur les Pixel 8 à travers une fonction Smart Reply intégrée au clavier Gboard et une fonction de résumé automatique intégré à l’app d’enregistrement vocal. Le second fait ses débuts sous forme de LLM textuel cette semaine sur Bard et le 13 décembre sur Google Cloud à travers les services Vertex AI, Gen App Builder et Google AI Studio. Ce « Gemini Pro » se veut supérieur à PaLM 2 (qui anime Bard et Duet AI) et à GPT 3.5 Turbo. Il ne sera cependant disponible qu’en Anglais dans un premier temps.
Mais le vrai modèle Gemini, dénommé « Gemini Ultra », n’a été démontré qu’en vidéos et ne devrait pas faire son apparition avant de nombreuses semaines. Gemini Ultra est conçu pour être intrinsèquement multimodal, combinant la manipulation et la compréhension de textes, d’images, d’audio et de vidéo. Il a été formé dès le départ avec des contenus multimodaux, lui conférant des compétences avancées dans la compréhension de requêtes complexes, y compris dans les domaines de la programmation et du raisonnement.
À LIRE AUSSI :
Les vidéos montrant Gemini Ultra interpréter en temps réel les images vidéos et discutant autour d’elles sont spectaculaires mais plusieurs experts considèrent qu’il s’agit là de contenus marketing et donc truqués qui ne reflète pas réellement les capacités actuelles du modèle.
Selon Google, Gemini Ultra surpasserait GPT-4 dans 30 des 32 benchmarks académiques mais certains observateurs notent que ces tests réalisés par Google n’ont que peu de signification car les mêmes invites n’auraient pas été utilisées sur les deux modèles ! De plus, les tests de Google ont apparemment été réalisés avec l’ancien modèle GPT-4 et non avec le nouveau modèle « GPT-4v Turbo ». Et, selon les rumeurs, Gemini Ultra aurait encore besoin de plusieurs mois d’amélioration avant d’afficher le même niveau de performance dans d’autres langues que l’anglais.
Quoiqu’il en soit, Google préparerait l’introduction de Gemini Ultra en 2024 à travers une version améliorée et payante de Bard dénommée « Bard Advanced ». Histoire de venir directement concurrencer ChatGPT Plus (payant) et Microsoft Copilot (gratuit aux abonnés à Microsoft 365). Google semble toutefois encore loin d’être en mesure de concurrencer directement ChatGPT Plus, Microsoft Copilot et Microsoft 365 Copilot dans les régions francophones, en raison de l’absence d’une version française animée par le modèle Gemini Ultra.
Mistral AI crève les plafonds…
OpenAI, Microsoft, Google mais aussi Cohere (Command AI) ou Anthropic (Claude 2.1) sans oublier la nouvelle IA « Amazon Q ». Toutes ces IA sont d’origine américaine et par leur apprentissage ont une vision très américaine du monde, de l’être humain, des cultures des peuples.
À LIRE AUSSI :
D’où l’importance pour l’Europe de rattraper son retard. À travers les plans européens ou France 2030 par exemple ou à travers les initiatives courageuses comme Kyutai. Mais aussi à travers ses startups. L’une d’elle ne cesse de surprendre et de briller toujours un peu plus haut dans les yeux des investisseurs. Après à peine quelques semaines d’existence, Mistral AI avait surpris l’univers de la Tech en levant en premier tout de table 105 millions d’euros ! Du jamais vu en Europe pour une si jeune pousse. C’était en juin dernier.
Six mois plus tard, on apprend cette semaine par Bloomberg que Mistral AI serait sur le point de réaliser un second tour de table de 445 millions d’euros portant sa valorisation à plus de 2 milliards de dollars !
Fondée par des anciens chercheurs français de DeepMind (Google) et FAIR (Meta), conseillée par Cédric O (l’ancien secrétaire d’État au numérique), le succès actuel de Mistral AI s’explique autant par le profil de ses fondateurs que par la première itération de son IA : dénommée Mistral 7B (car dotée de 7,3 milliards de paramètres, 200 fois moins que GPT-4) et développée en open-source, elle se révèlerait plus pertinente dans ses réponses, plus rapide, et moins consommatrice de ressources que d’autres modèles réputés tels que les modèles LLaMA 2 13B et 36B de Meta !
Avec Mistral AI, la France et l’Europe détiendraient donc leur pépite de l’IA générative (n’oublions pas néanmoins LightOn et son Alfred). Seule ombre au tableau, ce second tour de table serait réalisé avec le fonds Andreessen Horowitz, Nvidia et SalesForce, des investisseurs très voire trop américains ! Vu leur apport, la startup pourra-t-elle longtemps encore être considérée comme européenne ?
OpenAI retrouve de la sérénité
Pendant ce temps-là, OpenAI essaye de retrouver la sérénité nécessaire à l’innovation après la stupéfiante saga de la fin Novembre qui a vu toutes ses têtes être limogées ou démissionnaires pour finalement toutes revenir 5 jours plus tard à leurs mêmes fonctions.
On sait que l’éditeur compte bien conserver la tête de cette course aux IA en 2024. Il aurait débuté les phases préparatoires à l’apprentissage de son GPT-5 et travaillerait également sur une nouvelle technologie IA dénommée Q* et qui pourrait, selon les rumeurs, améliorer le fonctionnement des LLMs et leur capacité de raisonnement. De quoi améliorer les capacités de ChatGPT à découper un problème en plusieurs étapes et à comprendre et résoudre des énoncés complexes comme des énoncés mathématiques.
Enfin, OpenAI a annoncé que son « GPT Store » attendu pour la fin de l’année était repoussé à début 2024 après les perturbations de ces dernières semaines. Mais il devrait contribuer à voir se multiplier des IA génératives spécialisées dans des tâches ou des domaines spécifiques.
Toutes ces annonces ne font que relancer la compétition dans l’univers des IA génératives qui vont chaque jour un peu plus nous assister au quotidien en 2024. Elles démontrent que malgré le Buzz 2023, l’IA générative n’est que naissante, que bien des innovations sont encore nécessaires pour la faire grandir, et que l’on n’a pas fini d’être surpris et impressionnés par son potentiel. Voilà qui nous promet une nouvelle année technologique très dominée par l’IA.
À LIRE AUSSI :
À LIRE AUSSI :