Data / IA
ChatGPT Pro & Sora : ce que les DSI doivent retenir des dernières annonces d’OpenAI
Par Laurent Delattre, publié le 10 décembre 2024
OpenAI a lancé en trois jours, trois nouveautés phares dont un abonnement ChatGPT Pro à 200 dollars qui a étonné plus d’un observateur. On sait désormais pourquoi cette offre est si onéreuse : elle débloque les fonctionnalités avancées du nouveau modèle de génération vidéo SORA!
OpenAI a promis 12 annonces en 12 jours ouvrés. En trois jours, nous avons eu droit à l’officialisation des versions finalisées des modèles “o1” et “o1-mini”, l’apparition d’une nouvelle offre “ChatGPT Pro” hors de prix mais qui permet d’accéder au nouveau modèle frontière “o1 pro mode” et surtout à l’annonce la plus attendue, celle de la disponibilité du très attendu et déjà très populaire modèle de génération vidéo “Sora”!
Les nouveaux modèle “o1” et “o1-mini”
En septembre dernier, OpenAI dévoilait en preview une nouvelle gamme de modèles “OpenAI o1” conçus un peu différemment des modèles “GPT” afin d’étoffer leurs capacités de raisonnement. L’idée avec “o1” est d’introduire une nouvelle génération de modèles qui “réfléchissent” avant de répondre.
OpenAI a donc officialisé et publié les versions finalisées de ces modèles jusqu’ici en preview. Les versions finalisées masquent l’un des principaux problèmes des versions “preview” : que l’on pose une question simple ou complexe, le modèle “o1-preview” prenait le même temps d’une vingtaine de secondes pour formuler sa réponse. Désormais son temps de réflexion reflète la difficulté de la question et le modèle répond rapidement aux questions qui lui paraissent plutôt évidentes et ne nécessitent pas de réflexion avancée.
Autre limitation levée avec cette version finalisée, le modèle “o1” peut désormais exprimer ses talents multimodaux en analysant des images.
À LIRE AUSSI :
Le modèle “Open o1” se différencie du modèle “GPT-4o” par des capacités de réflexion très étendue. Le modèle “réfléchit” et “évalue différentes pistes” avant de formuler une réponse. Il est donc plus adapté pour résoudre des problèmes complexes en sciences, technologies, ingénierie et mathématiques que les modèles “GPT”. Preuve en est, la version finalisée démontre des performances équivalentes à celles de doctorants en physique, chimie et biologie, et a résolu 83 % des problèmes (soit le double de la version preview) lors de l’American Invitational Mathematics Examination, surpassant largement GPT-4o et ses seulement 13 % de problèmes résolus. Pour OpenAI, “o1” est le modèle idéal pour des analyses scientifiques complexes, le développement de logiciels sophistiqués et la modélisation mathématique avancée.
Le modèle “o1-mini” est une version allégée et efficiente, peu onéreuse, bien adaptée à la génération de code et les tâches techniques. Son usage est particulièrement préconisé pour les tâches techniques de base, le débogage simple et les calculs mathématiques élémentaires, notamment dans des environnements nécessitant une faible latence.
Quoiqu’il en soit, ni “o1”, ni “o1-mini” ne remplacent pour le moment “GPT-4o” qui reste un modèle bien plus polyvalent, plus multimodal (capable de traiter et générer de l’audio) et qui dispose de fonctionnalités très avancées comme le mode vocal étendu, l’analyse de documents (PDF, Docx; etc.) et l’analyse de données (avec exécution de code Python) qui n’ont pas encore été implémentées dans “o1”.
ChatGPT Pro, une nouvelle offre…
Outre ces nouveaux LLMs, OpenAI a surpris tous les observateurs en annonçant un nouvel abonnement “ChatGPT Pro” à 200 dollars par mois!
Lors de l’annonce, OpenAI a expliqué qu’à l’avenir les prochains modèles frontières allaient réclamer beaucoup plus de ressources machines que les modèles actuels. Dès lors, pour les utilisateurs avancés ou spécialisés recherchant le meilleur de ce que l’IA peut produire, OpenAI lançait un nouvel abonnement qui leur est spécialement destiné : ChatGPT Pro ! Des modèles plus couteux à entraîner et opérer pour OpenAI et qui imposent donc une nouvelle offre plus onéreuse pour couvrir ses frais. D’où les 200 dollars réclamés par mois et par utilisateur.
Et pour illustrer la différence, ChatGPT Pro donne accès à une version encore plus ‘frontière” du modèle “o1”, dénommée “o1 Pro mode”, qui laisse au modèle davantage de temps pour réfléchir, explorer et évaluer les différentes pistes de raisonnement. Ainsi, le “Pro Mode” améliore la pertinence des résultats et permet typiquement à “o1” d’atteindre un score mathématique de 86% en “pro mode” contre “83%” sans ce mode pro.
Evidemment, nombreuses sont les voix qui se sont élevées ne jugeant pas utile de payer 10 fois plus cher pour si peu de différence de pertinence.
Ce qu’OpenAI n’a révélé que quelques jours plus tard, c’est que les 200 dollars de ChatGPT Pro ne se justifient pas pour “o1 pro mode”, mais pour l’accès à sa toute dernière nouveauté… le modèle génératif de séquences vidéos “Sora”.
… taillée pour Sora !
Ce lundi, OpenAI a en effet officialisé la disponibilité de son très attendu modèle “Sora” dévoilé en février dernier. Il aura donc fallu 10 mois à la startup pour construire les infrastructures capables de supporter un tel modèle et pour implémenter les garde-fous imposés à une telle technologie aux risques “deepfakes” particulièrement étendus. Conscient des risques potentiels liés à l’utilisation de l’IA pour la création de contenus nuisibles, OpenAI a mis en place des mesures pour empêcher les abus, tels que la génération de deepfakes à caractère sexuel ou de contenus impliquant des mineurs. De plus, les vidéos générées par Sora sont marquées avec des filigranes et des métadonnées C2PA pour indiquer leur origine artificielle.
D’ailleurs, OpenAI précise que l‘une des fonctionnalités de Sora reste pour l’instant inaccessible (et réservée à des partenaires) : la possibilité d’utiliser une photo-portrait pour se mettre ensuite en situation dans une vidéo (ou mettre en situation d’autres personnes) avec un réalisme maximal. OpenAI cherche encore comment implémenter les bonnes protections pour éviter tout mauvais usage et respecter le droit à l’image de chacun.
À LIRE AUSSI :
Sora est une IA générative capable de créer des vidéos à partir de simples descriptions textuelles permettant ainsi de transformer les idées écrites des utilisateurs en séquences vidéos réalistes ou imaginaires, sans avoir besoin de caméras, d’acteurs, de décors, d’éclairagistes, de studio… Voilà qui ouvre évidemment de nouvelles perspectives pour tous les créateurs de contenus, les YouTubers, les services marketings des entreprises, mais aussi les producteurs de films et séries TV.
D’autant que Sora rend la création plus simple. Car le modèle ne se limite pas aux prompts textuels.
Il peut aussi donner vie à des images fixes (comme la photo d’un produit par exemple) en les transformant en séquences animées.
Mieux encore, grâce à son mode “remix”, il permet de personnaliser, retoucher et éditer des vidéos existantes soit pour en allonger la durée (en la complétant en amont ou en aval), soit pour en modifier, supprimer, remplacer des éléments (via des instructions comme remplace le décor par une jungle, habille le personnage comme au 17ème siècle, etc.).
Sora est disponible dès aujourd’hui dans les abonnements ChatGPT Plus et ChatGPT Pro… Mais ce n’est pas exactement le même Sora dans les deux abonnements! Et soudain l’existence de ce “ChatGPT Pro” onéreux prend tout son sens!
En effet, sous ChatGPT Plus, c’est un Sora limité qui est mis à disposition : les séquences vidéos sont limitée à 5 secondes, la résolution a du 720p, le logo Sora est appliqué à toutes les vidéos et vous n’avez droit qu’à 50 vidéos par mois.
Alors que ChatGPT Pro vise des usages beaucoup plus professionnels mais qui réclament à la fois plus de mémoire, plus de puissance, plus de stockage et plus de bande passante qu’OpenAI facture donc 200 dollars par mois. Mais les limitations précédentes sautent : la durée des séquences est portée (pour l’instant) à 20 secondes, la résolution au 1080p, 500 vidéos peuvent être générés par mois en mode prioritaire (un nombre illimité en mode asynchrone non prioritaire) et le “watermark” Sora peut être retiré.
Un bémol d’importance cependant : en raison de réglementations spécifiques, Sora n’est pas encore disponible dans l’Union européenne, en Suisse et au Royaume-Uni. Autrement dit, les utilisateurs français vont devoir attendre.
2025 sera l’année des générateurs de vidéos
Les modèles de génération d’images ont déjà largement infiltré le quotidien des créateurs, des graphistes et des services marketing et médias. En 2025, ce sont les modèles de génération de vidéos qui devraient connaître la même popularité. Car Bien sûr, Sora est loin d’être le seul modèle génératif de vidéos soit disponible soit en passe de l’être.
Google a officialisé la semaine dernière la disponibilité de son modèle Veo sur sa plateforme développeur Vertex AI. L’accès à Veo reste relativement restreint tout comme ses fonctionnalités d’édition mais Veo peut générer des clips d’une minute en 1080p. Une version restreinte de Veo, permettant de générer des séquences de 6 secondes est accessible par certains Youtubers américains via la fonctionnalité Shorts.
Adobe a également commencé à ouvrir son IA génératrice de vidéos, Firefly Video, accessible en bêta directement depuis Premiere Pro. Pour y accéder, il faut actuellement s’inscrire sur une liste d’attente : AI video generator: generate video from text – Adobe.
Meta dispose également d’un modèle génératif « text-to-vidéo » dénommé Movie Gen, qui dispose notamment de puissantes fonctions d’édition. Movie Gen est en accès restreint sur le service Meta AI qui n’est pas accessible aux européens.
Dream Machine de Luma Labs est l’un des modèles actuellement les plus accessibles pour les européens. Le modèle permet de générer des vidéos à partir de prompts textuels ou d’images fixes. a Dream Machine propose plusieurs niveaux d’abonnement, y compris une option gratuite, permettant aux utilisateurs de créer un certain nombre de vidéos par jour. Les plans payants offrent des fonctions d’édition vidéo et permet de créer des vidéos à usage commercial et sans watermark en 720p ou en 1080p.
Gen-3 Alpha de Runway marque déjà la troisième génération du modèle de génération vidéo de la startup. Il permet de générer des vidéos à partir de prompts textuels mais aussi d’images fixes ou même de séquences vidéos. Il prend en charge des modes de contrôle introduits avec la Gen-2 comme Motion Brush, Advanced Camera Controls et Director Mode, ainsi que de nouveaux outils pour un contrôle plus détaillé de la structure, du style et du mouvement. Le service est accessible pour 15 dollars par mois et par utilisateur offrant 656 crédits soit 124 secondes de vidéos.
Kling AI Vidéo est un générateur de vidéo chinois qui a récemment fait beaucoup parler de lui avec sa capacité à générer des séquences de deux minutes en 1080p et 30 fps. Il intègrera bientôt des fonctions d’édition avancée.
Enfin, InVideo AI (disponible depuis peu en v3) transforme lui aussi des prompts textuels en vidéo. Il est possible d’éditer les séquences vidéo avec des prompts d’édition et retouche. L’outil s’accompagne d’un éditeur de script pour enchaîner les séquences ainsi que d’une IA de cloning de voix. Il peut être testé gratuitement à raison de 10 minutes de génération vidéo par semaine.
On le voit les modèles génératifs vidéos sont en train de se multiplier sur le marché et Sora devra batailler dur pour s’imposer. D’autant que les autres modèles sont tous moins onéreux. OpenAI prévoit d’ailleurs d’introduire une tarification adaptée à différents types d’utilisateurs au début de l’année prochaine, afin de rendre Sora accessible à un public plus large. L’entreprise continue également de travailler sur l’amélioration de la qualité des vidéos générées et sur l’expansion de la disponibilité géographique de Sora.
À LIRE AUSSI :
À LIRE AUSSI :
À LIRE AUSSI :
À LIRE AUSSI :