SORA c'est le nouveau modèle génératif d'PpenAI pour générer des vidéos à partir de simples prompts textuels et il est impressionnant.

Data / IA

Sora : le nouveau modèle IA vidéo d’OpenAI va vous en mettre plein la vue

Par Laurent Delattre, publié le 16 février 2024

OpenAI avait déjà surpris tout le monde par la qualité des illustrations générées par son modèle Dall-E. La startup va de nouveau nous en mettre plein la vue avec son nouveau modèle qui génère des séquences vidéo à partir d’un simple prompt. Impressionnant.

L’IA générative ne cesse de nous étonner par son potentiel créatif et sa capacité à révolutionner tous les domaines professionnels et artistiques. Elle est reconnue pour ses compétences en écriture, son aptitude à retoucher des photos, sa capacité surprenante à générer des photos et illustrations réalistes, et même son pouvoir envoutant de créer de la musique. Désormais, il ne fait plus aucun doute que la création d’images virtuelles animées et de vidéos est à sa portée.

Depuis quelques mois, on voit différents acteurs s’essayer avec plus ou moins de réussite à la génération de séquences vidéos. C’est le cas de Google avec ses modèles Imagen Video et Phenaki, mais aussi d’InVideo.io, de FlexClip, d’Opus Clip, de Gen-2, de SynthesIA ou encore de Fliki. Mais il manquait un acteur clé : OpenAI. L’attente n’aura pas été longue… Et la startup de Sam Altman démontre, une nouvelle fois, sa redoutable maîtrise des technologies GenAI !

Son nouveau modèle Sora est à la vidéo ce que Dall-E 3 est à l’image fixe. Un modèle capable de générer des vidéos à partir d’un prompt, autrement dit d’une description textuelle de la scène.

Attention, vous allez en prendre plein les mirettes

Et pour un premier essai, les résultats sont plutôt bluffants… Jugez plutôt…

Le prompt : « Vues depuis un drone, des vagues s’écrasent contre les falaises escarpées de la plage de Garay Point à Big Sur. Les eaux bleues qui s’écrasent créent des vagues aux pointes blanches, tandis que la lumière dorée de l’aube et de l’aurore est plus forte que celle du soleil. »

Le prompt : « Un Kangourou style dessin animé danse le disco. »

Le prompt : « Un chat réveille sa maîtresse endormie et lui demande son petit déjeuner. La propriétaire essaie d’ignorer le chat, mais celui-ci tente de nouvelles tactiques. »

Le prompt : « La ville de Tokyo enneigée est en pleine effervescence. La caméra se déplace dans une rue animée de la ville, suivant plusieurs personnes qui profitent du beau temps enneigé et font leurs courses dans les échoppes voisines. De magnifiques pétales de sakura volent dans le vent, accompagnés de flocons de neige. »

Le prompt : « Une portée de chiots golden retriever jouant dans la neige. Leurs têtes émergent de la neige et en sont couvertes. »

Avouez-le, ces démonstrations sont impressionnantes. Il est évident que les démos sélectionnées par OpenAI mettent en avant les productions du modèle Sora sous leur meilleur jour. Cependant, en y regardant de plus près, on peut facilement identifier de nombreuses imperfections, telles que l’étrange troisième patte avant d’un chat, le rendu quelque peu « jeu vidéo » de la séquence Tokyo, ou encore le positionnement imprécis de certains personnages dans cette même séquence. De plus, certains éléments ne sont pas correctement mis à l’échelle, comme les voitures qui paraissent plus petites que les personnages dans la vidéo de Tokyo. OpenAI précise également que si un personnage sort du cadre et que la caméra revient sur lui, il ne sera probablement plus présent. Cela suggère que le modèle peut « oublier » certains éléments au cours de la génération.

Mais reconnaissons qu’avec Sora, la « GenAI vidéo » fait un nouveau bond en avant. Au point où certains déjà s’inquiètent des usages malveillants d’un tel outil comme de l’avenir aussi bien des modèles publicitaires que des acteurs.

OpenAI est bien consciente des dangers. Pour l’instant, le modèle Sora n’est pas accessible et l’éditeur n’a encore aucun plan ni roadmap pour sa diffusion publique. « Si nous parlons dès aujourd’hui de ce projet de recherche, c’est en partie pour que nous puissions commencer à obtenir les informations dont nous avons besoin pour effectuer le travail nécessaire afin de déterminer comment le système pourrait être déployé en toute sécurité » explique l’éditeur.

Un peu de technique

Sora n’est pas seulement une démonstration, mais une réalité. OpenAI prévoit de le confier aux équipes responsables de le tester et de garantir sa sécurité. Par exemple, l’efficacité des filtres destinés à limiter la création de deepfakes impliquant des personnalités politiques ou des célébrités, les contenus violents ou à caractère sexuel seront évalués. De plus, OpenAI a sélectionné un certain nombre de partenaires, créateurs de films et artistes pour recueillir leurs avis sur la pertinence d’un tel outil, ses limites, et la qualité des productions.

Sora est capable de produire des vidéos Full HD détaillées, d’une durée maximale d’une minute. Pour développer ce nouveau modèle de génération vidéo GenAI, OpenAI s’est appuyé sur son modèle de génération d’images fixes, Dall-E 3, qui utilise une technique de “diffusion des pixels” similaire à celle de Stable Diffusion. Cependant, les chercheurs d’OpenAI ont innové en combinant les algorithmes de diffusion avec un réseau neuronal de type “Transformer”, semblable au réseau utilisé pour leur GPT-4. Initialement conçus pour manipuler des mots, les modèles GPT ont été adaptés par les chercheurs d’OpenAI pour traiter des segments de vidéos, considérant ces segments comme des “mots” à assembler de manière cohérente.

Les chercheurs ont divulgué davantage de détails techniques dans un document de recherche publié : Video generation models as world simulators

En fin de compte, Sora est un sacré accomplissement technologique et démontre une nouvelle fois non seulement le fabuleux potentiel des IA génératives, mais aussi le savoir-faire extraordinaire d’OpenAI.

Finissons par une dernière vidéo… « Des images historiques de la Californie à l’époque de la ruée vers l’or… » (c’est le prompt…)