Cloud

Google Cloud Next’24 : Des modèles et du muscle pour l’IA

Par Laurent Delattre, publié le 10 avril 2024

Sans surprise, la conférence Google Cloud Next’24 se révèle essentiellement focalisée sur l’IA et ses applications en entreprise avec une multitude d’annonces et de nouveaux services. Voici ce que les DSI doivent retenir des annonces autour du matériel et des IA de cet événement.

Google a profité de son événement annuel Google Cloud Next 2024 pour dorénavant se concentrer sur l’IA dans le cloud pour les grandes entreprises. Thomas Kurian, CEO de Google Cloud, a déclaré que la société souhaitait aider les entreprises à devenir des leaders du numérique et de l’IA en utilisant le cloud. Cette année, l’accent est donc mis sur les témoignages et les partenariats autour des cas d’usage et des outils et services permettant de mettre en œuvre facilement le potentiel des IA, plutôt que sur les démonstrations technologiques prometteuses, mais indisponibles de l’année dernière.

Google Cloud se positionne comme le cloud qui simplifie l’implémentation de l’IA dans l’entreprise, avec des coûts compétitifs et une approche écoresponsable. Selon l’hyperscaler, l’IA dans le cloud est l’opportunité idéale pour gagner des parts de marché sur AWS et Microsoft.

Le CEO de Google Cloud a également souligné l’importance de la sécurité et de la confidentialité des données dans le cloud, en insistant sur le fait que Google Cloud offre des garanties de sécurité de pointe pour protéger les données des clients. Il a également annoncé de nouveaux partenariats avec des entreprises de différents secteurs, tels que la santé, la finance et la vente au détail, pour aider à accélérer leur transformation numérique grâce à l’IA dans le cloud.

Enfin, Thomas Kurian a abordé la question de l’écoresponsabilité du cloud, en soulignant les efforts de Google pour réduire l’empreinte carbone de ses centres de données et pour aider les clients à réduire leur propre empreinte carbone grâce à des outils et des services de cloud écoresponsables. Selon lui, l’IA dans le cloud est non seulement une opportunité pour les entreprises de se transformer numériquement, mais aussi pour contribuer à un avenir plus durable.

Alors oui, forcément, cette édition 2024 de Google Cloud parle autant de modèles que d’outils et de services pour exploiter l’IA. Nous allons ici nous concentrer sur les briques fondamentales annoncées et reviendrons demain et après-demain sur les briques IA supérieures et sur les annonces sans rapport avec l’IA.

L’IA naît dans le hardware

L’IA prend corps au cœur des machines. Et Google l’a rappelé par de nombreuses annonces comme pour rappeler que le défi de l’IA est aussi un défi d’optimisation des infrastructures et une lutte contre la surconsommation énergétique. Pour réduire les coûts et la consommation, il faut de nouvelles pistes et de nouveaux processeurs. Et Google n’a pas été avare en la matière…

Des TPU v5p pour la performance

Des TPU v5p : Google continue de tabler sur ses accélérateurs maison nés dès 2015, les fameux TPU. Toujours pas de « gen 6 », mais une nouvelle déclinaison « v5p » qui succède au « v5e » introduit l’an dernier. On ne sait pas grand-chose si ce n’est que les v5p sont deux fois plus performants (2 fois plus de FLOPS) et disposent de 3 fois plus de bande passante mémoire que les TPU v4. Les « v5e » cherchaient à accélérer l’apprentissage des LLM en s’appuyant sur des entiers (Int8) et en proposant les coûts les plus bas possibles, mais ne remplaçaient pas les TPU v4 sur les calculs en virgules flottantes. Les « v5p » ont un spectre d’usage plus large et affichent 459 TFLOPs (en Bf16) et 918 TOPs (en Int8). Conséquence, ils accélèrent de 2,8 fois l’entraînement des grands LLM (comme Gemini Pro) par rapport aux TPU v4. Ils peuvent entraîner des modèles riches en embeddings presque deux fois plus rapidement que des TPU v4.

Des pods et des Hypercomputers

Ces TPU v5p vont animer de nouveau « TPU Pods », ces clusters de TPU que l’on peut allouer le temps d’un apprentissage par exemple. Les nouveaux TPU Pods v5p embarquent 8960 chips TPU v5p (contre seulement 256 chips pour les TPU v5e et 4096 chips sur les TPU v4). « TPU v5p est notre accélérateur d’IA le plus puissant, le plus évolutif et le plus flexible pour l’entraînement comme pour l’inférence, avec une puissance de calcul par pod multipliée par 4 par rapport à la génération précédente », affirme Thomas Kurian.

Google annonce par ailleurs que non seulement GKE (Google Kubernetes Engine) supporte déjà les TPU v5p, mais également que durant l’année 2023, l’usage des TPU sur GKE a explosé avec une croissance de 900% en un an. Selon Google, « près de 90 % des licornes de l’IA générative et plus de 60 % des startups de l’IA générative sont des clients Google Cloud ».

Enfin, ces TPU v5p serviront aussi de fondation à l’AI Hypercomputer imaginé par Google. Il s’agit d’une architecture de supercalculateur qui combine des logiciels ouverts, les principaux frameworks IA du marché et du matériel assemblé par Google pour optimiser les performances et la consommation énergétique. Les AI Hypercomputers de Google reposent sur du refroidissement liquide et la technologie réseau Jupiter de Google. Un AI Hypercomputer combine à minima une instance CPU et 1 TPU pod v5p (avec ses 8960 puces TPU). La location d’AI Hypercomputers est ouverte en passant par des échanges avec les équipes commerciales. Selon Google

Des GPU NVidia bien sûr

Et même si Google pousse autant que possible ses TPU mettant en avant leur excellent rapport « performance/prix », l’éditeur n’en oublie pas pour autant les GPU de NVidia. Il annonce la disponibilité de « méga-instances A3 » basées sur les GPU H100 disposant de deux fois plus de bande passante que les instances A3 classiques.

Par ailleurs, il n’a pas échappé à Google que NVidia avait récemment annoncé sa nouvelle plateforme GPU Blackwell. Ces monstres de puissance IA seront disponibles début 2025 dans le cloud de Google dans deux variantes : des instances B200 pour l’entraînement et l’inférence et des instances « GB200 NVL72 » conçues pour « atteindre la prochaine frontière en matière d’entraînement et exploitation des modèles IA », autrement dit celle des LLMs dotés de milliards de milliards de paramètres (et non plus des milliers de milliards de paramètres comme aujourd’hui).

Vertex AI, la pierre angulaire de l’édifice IA de Google Cloud

Au-delà du hardware, du côté des services, Vertex AI est la clé de voute de l’IA sur Google Cloud. C’est le service qui permet de concevoir aisément des applications et agents Gen AI, mais aussi la plateforme pour les déployer et en gérer le cycle de vie.

Il n’y a pas d’IA dans Google Cloud sans Vertex AI, à moins de tout vouloir gérer soi-même de A à Z. Vertex AI permet d’accéder aisément à une multitude de modèles (130 modèles disponibles) prêts à l’emploi et optimisés pour l’infrastructure Google Cloud, de personnaliser ces modèles par des techniques RAG ou autres, d’entraîner de nouveaux modèles, réentraîner des modèles, exploiter aisément les modèles dans ses propres applications métiers ou créer des agents IA s’appuyant sur ces modèles.

De nouveaux modèles

Le « Vertex AI Model Garden », sorte de hub ou de magasin à modèles, comporte désormais 130 modèles mis à disposition. Parmi les nouveaux modèles disponibles, ont notera l’arrivée des modèles Claude 3 d’Anthropic (qu’AWS a beaucoup mis en avant de son côté la semaine dernière à l’occasion de l’AWS Summit Paris), des modèles open source de Mistral AI (Mistral 7B et Mixtral), mais aussi de deux nouveaux modèles Google : Gemini Pro 1.5, Code Gemma et Imagen 2.0.

Gemini Pro 1.5

En fin dernière, Google avait lancé ses nouveaux modèles Gemini en grande pompe, mais sans forcément époustoufler des spécialistes bien plus impressionnés par Mistral Large ou Claude 3.
Google revoit sa copie et officialise l’arrivée dans Vertex AI de « Gemini Pro 1.5 ». Multimodal, ce nouveau modèle se veut plus performant que « Gemini Ultra 1.0 ».
Il est décliné en deux versions par Google. Une version très réactive dotée d’une fenêtre classique que 128.000 tokens. Et une version plus élaborée dotée d’une fenêtre de 1 million de tokens qui ouvre la porte à de nouveaux cas d’usage où la réactivité de l’IA importe moins que sa capacité à analyser de très vastes documents. C’est 4 fois plus que la fenêtre contextuelle de Claude 3 et 8 fois plus que celle de GPT-4 Turbo ! L’IA de Google peut ainsi ingurgiter des ouvrages de plus de 700.000 mots, des codes sources de plus de 30.000 lignes ou encore une heure de vidéo ou 11 heures d’enregistrement audio.
Car elle est aussi multimodale. Elle peut directement analyser des contenus vidéos et des contenus audio et en extraire les informations qui vous intéressent pour générer des transcriptions, effectuer des comparaisons, réaliser de la recherche sémantique sur ces contenus, etc.

Imagen 2.0

Imagen, c’est le modèle de génération d’images de Google qui concurrence Stable Diffusion, Adobe Firefly, Dall-E 3 d’OpenAI ou MidJourney. Il permet de générer des images à partir d’une description textuelle. À Google Next, l’hyperscaler a annoncé l’arrivée d’une génération 2.0 disponible via Vertex AI. Imagen 2.0 offre une pléthore de fonctionnalités d’édition d’images pour les recadrer, supprimer des éléments, changer de style, etc. Le modèle introduit notamment des fonctionnalités de « inpainting » (pour retoucher une zone d’une image en la régénérant) et d’outpainting (pour étendre une image existante en générant les pixels manquants). Mais plus original, Imagen 2.0 introduit une nouvelle fonctionnalité « Text-To-Live » (texte vers images vivantes) qui permet de créer de courtes vidéos de quatre secondes à partir de textes. Cette fonctionnalité d’Imagen 2.0 ne prétend pas créer de véritables vidéos façon SORA d’OpenAI mais générer des images « vivantes ». De tels clips de courte durée sont en vogue et ont été popularisés par des startups comme Runway ou Pika.

Code Gemma

Il y a un mois, Google lançait en open source une nouvelle génération de SLM (Small Language Model) répondant au nom de Gemma. Comme Mistral 7B, ces modèles sont suffisamment compacts pour être embarqués et exécutés en local à des fins bien spécifiques.

À Google Next 2024, l’éditeur a introduit un nouveau membre « Gemma » disponible dès aujourd’hui dans Vertex AI. Code Gemma est un nouvel outil de génération de code pour assister les développeurs dans la création de lignes de code.

Vertex AI Agent Builder

Google a lancé Vertex AI Agent Builder, un nouvel outil No-Code pour créer des agents IA de manière simple et rapide. Cet outil permet de créer des agents IA qui sont ancrés dans le patrimoine informationnel de l’entreprise. L’apprentissage et l’amélioration de ces agents se font de manière conversationnelle, en guidant l’agent comme on le ferait avec un humain. Les utilisateurs peuvent préciser comment l’agent doit se comporter et quelles sont les sources d’informations fiables sur lesquelles il peut s’appuyer. Cet outil permet ainsi de faciliter la création d’agents IA performants et adaptés aux besoins spécifiques de chaque entreprise.

Bien évidemment, les annonces IA de Google Next 2024 ne s’arrêtent pas à ces briques fondamentales. Elles s’étendent plus haut dans la stack IA avec une pléthore d’assistants et d’outils pour aider les développeurs à coder (comme Gemini Code Assist), pour aider à mieux exploiter les données par l’IA (Gemini for Databases, Gemini in BigQuery, AlloyDB AI, etc.). Nous déchiffrerons demain ces briques nouvelles dopées à l’IA et leur impact sur les processus IT et la façon d’imaginer l’intégration de l’IA dans le quotidien.


À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights