Data / IA
Les 7 grandes tendances de l’IA en 2024 et au-delà…
Par Laurent Delattre, publié le 22 février 2024
Deux rapports récents respectivement publiés par IBM et Microsoft tracent les grandes tendances qui doivent marquer l’IA dans les entreprises en 2024 et un peu au-delà. Voici ce qu’il faut en retenir…
ChatGPT a profondément et définitivement transformé notre vision de l’intelligence artificielle. En démontrant magistralement à quel point les IA pouvaient comprendre le langage et engager des conversations avec l’humain tout en se montrant créatives (bien plus créative d’ailleurs que ce que les mauvais esprits ne veulent l’admettre), l’IA conversationnelle générative d’OpenAI a – mieux que toute autre tentative préalable – su populariser les concepts IA et favoriser l’adoption de l’IA. À tel point qu’elle a aussi, mécaniquement, forcément et inévitablement, engendré des peurs, des inquiétudes et une infinité de débats sur l’avenir de l’être humain dans un monde envahi, voire régi, par l’IA…
La sortie de ChatGPT et son adoption instantanée par les internautes puis par les entreprises a libéré l’innovation en la matière. En moins d’un an, on a vu les IA capables d’interpréter des images et des vidéos, créer des images et photos terriblement réalistes à partir de vague description textuelle, écrire des livres, composer des musiques originales, transcrire des réunions, produire des résumés, suggérer des réponses aux emails, imiter l’humain dans ses tâches les plus créatives et les plus « intelligentes ». Et ce n’est pas fini. Les IA ne sont encore que balbutiantes. Et si l’AGI, cette intelligence artificielle générale supérieure à l’humain n’est pas encore là, l’IA ne cesse de progresser et de se diversifier dans ses capacités avec par exemple SORA d’OpenAI et sa génération vidéo qui en met plein la vue, Gemini 1.5 et sa fenêtre contextuelle d’un million de Tokens qui lui permet de rédiger des romans d’une traite ou encore le nouveau Mistral Next qui – outre sa maîtrise extraordinaire du français – pense en européen (et non en américain).
Néanmoins, selon Dave Bergmann, si les grands modèles IA capturent toute l’attention des médias, « les développements les plus impactants seraient plutôt à chercher du côté des innovations en matière de gouvernance, de middleware, de techniques d’apprentissage et de pipelines de données qui cherchent à rendre l’IA générative plus fiable, plus durable, plus accessible ».
Ainsi, des réflexions des chercheurs d’IBM et de Microsoft publiées récemment se dégagent quelques grandes tendances autour de l’IA que tout DSI doit garder en ligne de mire :
1. Les SLM : Small Language Models
« Small is beautiful »… En matière d’IA, si 2023 a marqué l’expansion des LLM (les Large Language Models comme LLama 2, PaLM 2, GPT 3.5, GPT 4, Gemini Pro/Ultra) dotés de centaines de milliards de paramètres, 2024 marque l’arrivée de modèles plus compacts mais plus ciblés, plus spécialisés, plus rapides et bien moins consommateurs de ressources GPU.
Les « SLM » (Small Language Models) restent en réalité de grands modèles IA dotés de milliards de paramètres. Mais ils peuvent se montrer plus pertinents et plus efficaces que les LLM dès lors qu’on les entraîne dans une seule langue ou sur un domaine de connaissance précis avec des jeux de données de grande qualité. Ils s’appellent Mistral 7B, Microsoft Phi, Microsoft Orca, Google Gemma. « Les petits modèles de langage peuvent rendre l’IA plus accessible en raison de leur taille et de leur coût d’exploitation abordable », explique Sébastien Bubeck, qui dirige le groupe Machine Learning Foundations chez Microsoft Research. « Parallèlement, nous découvrons de nouveaux moyens de les rendre aussi puissants que les grands modèles de langage. »
Le truc, c’est que ces SLM peuvent aisément être hébergés en local (voire intégralement s’exécuter sur les NPU des AI PC) et ne pas poser les problèmes de latence et de confidentialité des LLM Cloud.
2. L’IA Multimodale
Jusqu’ici les LLM étaient des modèles exclusivement textuels. Avec l’arrivée de GPT-4 Vision, de PaLM 2, de LLaVA, d’Adept ou encore Qwen-VL, l’idée de modèles entraînés avec autre chose que des données textuelles et capables de comprendre les images a commencée à se populariser. En 2024, des modèles comme GPT-4 Turbo Vision et Gemini Ultra montrent les progrès réalisés et le potentiel plus étendu des modèles « multimodaux ». Les modèles multimodaux peuvent traiter différents types de données telles que le texte, les images, l’audio et la vidéo. Ce qui étend non seulement leur capacité d’analyse des informations, mais également leur capacité de recherche (la réponse à une question peut se trouver dans une image ou une vidéo par exemple) et plus encore leur créativité (cf. SORA). Typiquement, ChatGPT Plus, Copilot ou Gemini Advanced peuvent fournir des informations très pertinentes sur une image téléchargée grâce à leur modèle multimodal.
À LIRE AUSSI :
« La multimodalité a le pouvoir de créer des expériences plus humaines qui peuvent mieux tirer parti de l’éventail des sens que nous utilisons en tant qu’êtres humains, tels que la vue, la parole et l’ouïe », explique ainsi Jennifer Marsman, ingénieur principal chez Microsoft.
Cette « multimodalité » favorise aussi l’apparition d’applications IA et d’assistants virtuels plus intuitifs et plus polyvalents. À long terme, elle permet surtout aux modèles de traiter des données plus diverses, améliorant ainsi la compréhension globale des IA et leur faculté à comprendre le monde physique.
3. Les techniques d’optimisation
Les LLM ont changé l’IA et le monde. Mais ils soulèvent de nombreux défis tant ils consomment de ressources informatiques (mémoire, stockage, réseau, puissance) et de GPU. Si les SLM sont une approche à ces défis, ils ne sont pas les seuls. Les chercheurs multiplient les techniques pour optimiser leur fonctionnement.
Typiquement, une startup comme ThirdAI a démontré que plus de 99% des opérations réalisées au cœur des LLMs retournent un « zéro » ce qui ouvre un important champ d’optimisation permettant d’éviter de gâcher des cycles et de l’énergie pour rien (autrement dit des zéros sans importance). Une technique dénommée « Sparsity » permet une telle optimisation. Elle est au cœur des solutions de ThirdAI mais aussi des optimisations implémentées par AMD pour son GPU MI300.
Autre technique, au cœur notamment de Gemini 1.5 (mais probablement aussi de GPT-4 Turbo et de GPT-5), le MoE (Mixture of Experts) consiste à combiner au sein d’un large modèle les prédictions de plusieurs petits modèles spécialisés entraînés sur des sous-ensembles thématisés de données pour résoudre un sous-problème spécifique. Le MoE divise un problème en sous-problèmes confiés à différents modèles ‘experts’. Non seulement cela simplifie l’apprentissage multimodal mais cela permet aussi de mieux répartir les charges de calcul IA sur différentes machines. Typiquement, Mixtral, le nouveau modèle de Mistral, utilise une technique MoE pour intégrer 8 réseaux Mistral 7B en 1 et offrir non seulement des résultats plus pertinents qu’un modèle LLama 2 70B mais surtout 6 fois plus rapidement.
Dans son rapport, IBM met en avant d’autres techniques d’optimisation dont on va probablement beaucoup entendre parler en 2024 :
– LoRA, ou Low-Rank Adaptation, permet d’adapter un modèle LLM ou SLM pré-entrainé à un ensemble de données spécifiques (celles d’une entreprise par exemple) sans avoir à réentraîner le modèle dans toutes ses dimensions (ses milliards de paramètres) mais en ajustant simplement un sous-ensemble de paramètres. Le principe consiste à « geler » le modèle pré-entraîné puis à lui injecter des matrices de rang faible sur chaque couche afin de modifier les poids du modèle initial tout en conservant les connaissances acquises lors de la longue phase d’apprentissage initial.
– La Quantification (Quantization) consiste à réduire la précision utilisée pour représenter les points de données d’un modèle afin de réduire l’utilisation mémoire et la bande passante. C’est un peu comme lorsque l’on cherche à réduire le débit binaire – la taille – d’un fichier audio et vidéo en réduisant le sampling.
– La DPO ou Direct Preference Optimization est une technique qui consiste à apprendre à un modèle les résultats qui nous paraissent plus pertinents. Les grands modèles comme GPT-4 ou Gemini sont fiabilisés au travers d’une technique appelée RLHF de renforcement par feedback (rétroaction) humain. DPO permet d’obtenir des résultats similaires sans intervention humaine tout en étant plus efficace et moins consommateur de ressources que les techniques RLHF.
On pourrait aussi ajouter à cette liste une autre technique : la distillation de modèles. Cette technique récente permet de transférer un ensemble de connaissances d’un grand modèle vers un modèle plus réduit sans perdre en cohérence ni pertinence. La technique permet d’obtenir des modèles moins coûteux en ressource ou de transférer un grand modèle Cloud sur un périphérique (smartphone) edge par exemple.
4. La transparence par l’Open Source
Au-delà des problématiques de régulation qui sont en train de naître un peu partout mais notamment en Europe avec l’AI Act et aux USA avec l’Executive Order de l’administration Biden (et ses 150 obligations) et de respect des copyrights (les premières jurisprudences dérivant des actuelles Class Actions aux US et en Europe devraient apparaître en 2024), la clé d’une IA éthique repose en grande partie sur la transparence des IA. La transparence passe par l’abandon des boîtes noires et par l’open source.
De plus en plus d’acteurs – notamment en Europe à l’instar de Mistral et de Kyutai – mais aussi aux USA (avec Meta ou Google notamment), veulent jouer la carte de l’open source. Reste à bien définir ce qu’est une IA open source. La plupart du temps, les acteurs (notamment américain) se contentent de publier le modèle pré-entrainé avec ses poids. Ce n’est pas la même chose que de publier le code source de l’apprentissage et de publier les jeux de données qui ont servi à l’entraînement comme nous le rappelait Patrick Pérez le directeur de la fondation Kyutai dans un récent entretien : « Le partage du modèle final est une chose, mais le savoir-faire développé pour y parvenir est une autre histoire. Chez Kyutai, nous allons partager ce savoir-faire, en détaillant dans nos publications scientifiques les techniques et les méthodologies utilisées. L’idée est de permettre à d’autres équipes, qu’elles soient scientifiques ou composées de développeurs, de comprendre pleinement le modèle, au-delà de sa simple version finale. »
À LIRE AUSSI :
5. Des agents virtuels plus puissants et plus faciles à créer
Les modèles comme GPT-4, Gemini Ultra ou Mistal Next sont impressionnants, c’est certain. Mais ce ne sont que des modèles. Ce qui fait la force d’un ChatGPT Plus n’est pas tant le modèle sous-jacent que les capacités ajoutées pour sublimer le potentiel de ce modèle à l’instar des GPTs ou de l’analyse de documents.
Dans un même ordre d’idées, ce qui intéresse les entreprises, ce n’est pas le modèle, mais ce qu’il permet de réaliser. Le rapport IBM rappelle qu’une fonction « Smart Compose » au cœur de Gmail, « Generative Fill » au cœur de Photoshop, ou « Retranscrire la réunion » au cœur de Teams ont bien plus d’impact direct au quotidien (ces fonctions s’appuyant néanmoins sur des grands modèles IA).
De même, les agents virtuels qui ont la capacité de « faire les choses pour vous » seront plus utiles aux entreprises que les simples IA conversationnelles comme ChatGPT ou Copilot. Et ces agents virtuels qui mixent « interaction » et « actions » vont se multiplier avec la généralisation d’outils GenAI permettant de les créer sans connaissance en IA ou même en programmation : IBM watsonx Assistant Virtual Agent, Google Gen App Builder, Microsoft Copilot Studio,
À travers des plugins, des IA comme Microsoft Copilot et ChatGPT Plus sont désormais capables d’agir, de faire des réservations, de planifier un voyage de A à Z, de se connecter aux services numériques via les API, etc. Microsoft vient même d’intégrer un plugin « Power Automate » dans « Copilot for Windows » pour permettre à l’IA d’automatiser des tâches complexes comme l’édition automatique de PDF, déplacer intelligemment des documents en fonction de thématiques ou transformer en fichier Excel des réponses à une question.
6. RAG et modèles locaux personnalisés
L’un des enjeux de 2024 et des années à venir sera de permettre aux entreprises de personnaliser les grands modèles IA à leurs propres besoins et leur propre savoir informationnel en toute simplicité plutôt que d’utiliser tels quels les grands LLM d’OpenAI, Google et autre Mistral AI.
Bien évidemment la multiplication des modèles en open source simplifie une telle personnalisation pour peu que l’on maîtrise les techniques de « Fine Tuning » lorsqu’elles sont permises par ces modèles ou les techniques LoRA évoquées plus haut.
Et des techniques comme RAG (Retrieval Augmented Generation) sont aussi indispensables. Ces techniques permettent à une IA de récupérer des informations importantes dans les bases de données de l’entreprise (et autres sources de données sélectionnées comme un ensemble de documents internes) et d’utiliser un modèle génératif pour créer une réponse cohérente et contextuellement appropriée. L’utilisation du RAG pour accéder aux informations pertinentes plutôt que de stocker toutes les connaissances directement dans un LLM permet d’éviter le réentraînement du modèle mais aussi de réduire la taille du modèle, ce qui accroît encore la rapidité et réduit les coûts.
Comme le rappelle IBM, « garder en local l’apprentissage de l’IA avec les bons jeux de données, l’inférence et la génération augmentée de recherche (RAG) évite le risque que des données propriétaires ou des informations personnelles sensibles soient utilisées pour former des modèles propriétaires et passent entre les mains de tierces parties ». Au-delà de la personnalisation de l’IA, se joue aussi la capacité à maîtriser en local ou dans un cloud managé l’intégralité du pipeline IA ce qui peut être totalement essentiel dans des secteurs comme la défense, la finance, le juridique ou la santé.
7. L’IA au service de la science
Dans son document, Microsoft voit comme une tendance forte « l’usage de l’IA pour accélérer les découvertes scientifiques ». Ses chercheurs utilisent déjà l’IA générative et le Deep Learning pour améliorer la prédiction météorologique, estimer l’impact carbone et développer des outils pour une agriculture durable. Comme l’ont démontré récemment ses chercheurs, dans les sciences de la vie, l’IA contribue à la lutte contre le cancer, à la découverte de nouveaux médicaments pour les maladies infectieuses et à la création de nouvelles molécules pour des traitements révolutionnaires. De même, l’IA a déjà commencé à transformer la science des matériaux, en accélérant par exemple la recherche de matériaux moins toxiques pour les batteries. « L’intelligence artificielle est déjà à l’origine d’une révolution dans le domaine de la découverte scientifique », affirme ainsi Chris Bishop, directeur de l’équipe AI4Science chez Microsoft Research. « Cela pourrait s’avérer être l’application la plus passionnante, et en fin de compte la plus importante, de l’IA ».
Après avoir joué avec les IA génératives en 2023, les entreprises passent en 2024 à leur déploiement. Garder toutes ces tendances à l’esprit permet de fixer des directions, de lutter contre les désillusions causées par des modèles aux résultats en réalité « médiocres » une fois l’excitation de la découverte passée, de comprendre les pistes à poursuivre pour que l’IA ne soit pas un jouet mais une véritable source de valeur pour l’entreprise.
À LIRE AUSSI :
À LIRE AUSSI :