GPT-4o, le premier modèle multimodal temps réel, pour de nouvelles interactions plus riches et dynamiques avec l'IA

Data / IA

Ce que les DSI doivent retenir de la conférence Spring Update d’OpenAI

Par Laurent Delattre, publié le 14 mai 2024

Avec GPT-4o, OpenAI repousse une nouvelle fois les frontières connues de l’Intelligence Artificielle et révolutionne non seulement les interactions vocales avec les IA mais aussi leurs capacités de perception du monde.

Yann Le Cun (le patron de l’IA chez Meta) et tous ceux persuadés qu’OpenAI fait fausse route en continuant d’investir aussi lourdement dans des modèles « GPT » jugés inadéquats ont dû faire une drôle de grimace hier soir en découvrant les démonstrations d’OpenAI et les évolutions de ChatGPT.

Contredisant leurs affirmations sur les incapacités de tels modèles à percevoir le monde, OpenAI a démontré de façon aussi stupéfiante que pragmatique que nous étions encore très loin d’avoir exploré le potentiel des modèles GPT.

Avec son nouveau GPT-4o (o pour omni), OpenAI fait entrer l’IA dans l’ère du multimodal temps réel. Et cela change absolument tout ! GPT-4o n’est pas seulement un modèle plus rapide, moins onéreux et plus capable, il est le moteur d’une nouvelle révolution IA, d’un nouveau saut quantique dans les capacités des machines à percevoir notre environnement et à interagir en temps réel avec nous (à défaut pour le moment de pouvoir interagir avec notre monde physique, ce qui ne tardera plus avec les androïdes animés par de telles IA).

Une nouvelle fois, OpenAI démontre sa supériorité dans la maîtrise des modèles GPT et LLM. La startup semblait se faire rattraper par des jeunes pousses comme Mistral (et ses modèles Large et Next particulièrement doués pour le français et pour la concision) ou encore Anthropic (dont le fameux modèle Claude 3 et le chat ClaudeAI sont enfin disponibles en Europe depuis le 13 mai : https://claude.ai/). Elle a démontré cette semaine qu’elle conservait une large avance dans la maîtrise de ces technologies et continuait de dicter au monde le rythme de la révolution IA.

Voici donc ce que les DSI doivent absolument retenir de la conférence Spring Update d’OpenAI.

Avec GPT-4o, l’IA peut percevoir le monde

Avec GPT-4 Vision et GPT-4 Turbo Vision, OpenAI avait déjà démontré sa capacité à faire évoluer son modèle « GPT-4 » vers des capacités multimodales et notamment la capacité à analyser le contenu d’images téléchargées.

Mais GPT-4o va bien plus loin. Non seulement ses capacités multimodales comprennent désormais la compréhension des contenus audios/vocaux et l’analyse d’images animées/contenus vidéos, mais ces nouvelles facultés peuvent s’exécuter en temps réel ! Et ce n’est pas une mince affaire. Le temps réel est une composante clé de toute forme d’interaction.

OpenAI explique que les capacités d’analyses multimodales jusqu’ici proposées nécessitaient la collaboration de plusieurs modèles différents. Avec GPT-4o, c’est un même modèle qui s’exprime en comprenant, analysant, produisant un contenu mixant voix, flux vidéo et texte. Ce qui permet d’atteindre un temps de réaction de l’ordre de 250 à 350 millisecondes, très proche d’une réactivité humaine.

YouTube

En chargeant cette vidéo, vous acceptez la politique de confidentialité de YouTube.
En savoir plus

Charger la vidéo

Cette démo montre comment l’IA peut percevoir le monde capté par la caméra d’un smartphone, décrire cet environnement, le partager avec une autre IA ou interagir avec un humain. Elle montre également la capacité de l’IA à faire deux choses simultanément et à se souvenir. À un moment, une seconde personne vient faire une blague. L’IA poursuit son explication sans se laisser perturber. Mais lorsque l’humain lui demande si elle a remarqué quelque chose peu avant, elle revient sur cette intervention inopinée d’une seconde personne preuve qu’elle a continué à percevoir le monde tout en répondant à une question. Et a suffisamment de mémoire pour se souvenir de choses survenues dans les secondes/minutes préalables.

Avec GPT-4o, l’IA peut converser comme un humain

Sur la forme, GPT-4o transforme ChatGPT en assistant vocal. Mais relaye Siri, Google Assistant et Alexa au rang d’antiquités décérébrées !

Sur le fond, non seulement ChatGPT, grâce à GPT-4o, peut comprendre la voix mais il peut surtout « converser » comme un humain en pur temps réel. Autrement dit, à tout moment on peut interrompre l’IA pour réorienter la conversation et même converser à plusieurs, l’IA reconnaissant les émotions, les intentions, les pauses et répondant oralement en y mettant les intonations nécessaires. Elle sait même chanter si le contexte s’y prête.

Dans ses démos, OpenAI a montré comment on pouvait relancer la conversation ou corriger l’IA sans attendre qu’elle ait fini une phrase. On a aussi vu comment l’IA pouvait moduler ses intonations, se montrer ou non très théâtrale, faire preuve d’humour et de sarcasme, et suivre et reconnaître plusieurs interlocuteurs simultanément en, par exemple, participant comme toute autre personne à une conversation Teams.

YouTube

En chargeant cette vidéo, vous acceptez la politique de confidentialité de YouTube.
En savoir plus

Charger la vidéo

Au-delà de la conversation, l’IA peut aussi jouer les interprètes et traduire un dialogue vocal entre deux personnes ne parlant pas la même langue. Combien de temps avant que les politiques et autres représentants fassent davantage confiance à une IA qu’à un humain dans un tel rôle ?

GPT-4o est plus rapide, plus puissant… moins cher !

Derrière les prouesses des démos et du nouveau ChatGPT se cache le modèle GPT-4o. Et celui-ci est rendu accessible à tous les développeurs au travers d’une API et du portail d’OpenAI.

Officiellement, GPT-4o devrait offrir des performances en anglais similaires à GPT-4 turbo, mais bénéficie d’améliorations dans ses processus de raisonnement et dans le traitement des problèmes mathématiques. Selon OpenAI, GPT-4o devrait se montrer sensiblement meilleur que précédemment dans les 50 autres langues que l’anglais.

GPT-4o a probablement nécessité des mois d’entraînement sur les HPC les plus puissants d’Azure. Mais au niveau de l’inférence, le modèle semble bien plus efficient que les précédentes moutures. Non seulement il est suffisamment réactif pour donner l’impression de temps réel, mais il est aussi annoncé comme 50% moins coûteux, preuve que l’on peut optimiser les LLM pour les rendre plus efficients, moins gourmands, moins onéreux et néanmoins plus puissants.

GPT-4o est déjà disponible sur Azure

Le modèle GPT-4o n’est pas seulement rendu accessible via l’API public d’OpenAI. Il est aussi disponible sur les Azure OpenAI Services, ce qui permet aux entreprises d’en explorer le potentiel dans des environnements personnalisés et contrôlés, avec leurs propres données en toute sécurité.

GPT-4o ouvre de nouveaux cas d’usage

Les nouvelles capacités multimodales permettent selon OpenAI et Microsoft d’adresser certains usages jusqu’ici difficilement réalisables avec GPT-4 Turbo.

Typiquement les capacités d’intégration de données variées et multimodales permettent de créer des interactions plus dynamiques et plus informées des contextes d’usage pour créer des bots de support client plus conviviaux et efficaces.

L’introduction de la reconnaissance vocale en temps réel et d’une génération vocale très humaine ouvre de nouveaux scénarios d’interaction.

GPT-4o permet aussi d’offrir des analyses plus avancées et « parlantes » non seulement grâce à sa capacité à analyser différents types de données mais aussi grâce à ses capacités génératives multimodales pour créer des contenus multimédias attrayants et variés.

YouTube

En chargeant cette vidéo, vous acceptez la politique de confidentialité de YouTube.
En savoir plus

Charger la vidéo

L’application pour malvoyants Be-My-Eyes va bénéficier des capacités étendues d’interactions vocales et de perception du monde physique de GPT-4o pour devenir bien plus pratique, dynamique et réactive.

ChatGPT en version Desktop et nouvelle interface Web

L’interface Web de ChatGPT évolue pour gagner en simplicité et en convivialité mais aussi préparer l’arrivée de nouveaux scénarios vocaux.

Dans la foulée, OpenAI a également dévoilé l’arrivée d’une version « Desktop » de ChatGPT capable d’interagir avec l’écran et les autres applications ouvertes. Pour l’instant, seule une version Mac a été présentée. OpenAI s’est gardée de toute précision sur une version Windows probablement pour ne pas couper l’herbe sous le pied de son partenaire Microsoft qui doit faire toute une série d’annonces IA sur l’IA dans Windows au cours d’une conférence Presse le 20 mai et de sa grande conférence Build 2024 à partir du 21 mai.

Il est probable que nombre d’interactions présentées cette semaine à travers ChatGPT Desktop for Mac seront directement implémentées dans Copilot for Windows.

Avec GPT-4o, OpenAI révolutionne l’interaction homme-machine

Le succès immédiat de ChatGPT en 2022 s’explique par la révolution qu’il a instantanément apportée aux interactions entre l’homme et la machine. Soudain, la machine pouvait comprendre le langage humain et s’exprimer dans ce langage avec une « intelligence » que l’on croyait jusqu’ici réservée à l’humain.
Le modèle multimodal temps réel GPT-4o fait faire un bond aux interactions homme-machine encore plus important que celui réalisé avec l’introduction de ChatGPT en 2022 et de son modèle GPT-3.5.

Sam Altman, CEO d’OpenAI, écrit dans un billet de blog publié juste après la conférence « Le nouveau mode vocal (et vidéo) de ChatGPT est la meilleure interface informatique que j’aie jamais utilisée. On a l’impression d’être face à l’IA des films de science-fiction ; et cela me surprend encore un peu aujourd’hui que ce soit réel. Atteindre des temps de réponse et une expressivité de niveau humain s’avère être un changement majeur. Le ChatGPT original donnait un aperçu de ce qui était possible avec les interfaces linguistiques ; mais ce nouveau mode vocal & vidéo semble viscéralement différent. L’IA est rapide, intelligente, amusante, naturelle et utile. Parler à un ordinateur ne m’a jamais semblé vraiment naturel ; maintenant, c’est le cas. Alors que nous ajoutons la personnalisation (optionnelle), l’accès à vos informations, la capacité d’agir en votre nom, et bien plus encore, je peux vraiment entrevoir un avenir passionnant où nous serons en mesure d’utiliser les ordinateurs pour faire beaucoup plus que jamais auparavant ».

YouTube

En chargeant cette vidéo, vous acceptez la politique de confidentialité de YouTube.
En savoir plus

Charger la vidéo


À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights