IA open source : LLama 3 et Mixtral 8x22B changent la donne

Data / IA

Les modèles IA open source passent à la vitesse supérieure

Par Laurent Delattre, publié le 22 avril 2024

Mistral et Meta ont annoncé ces derniers jours et publiés en open source leurs nouveaux modèles à même de défier les GPT-4, Gemini Pro et autre Claude 3, ces modèles propriétaires qui se veulent les plus évolués au monde. De quoi relancer les débats sur les risques et la définition d’une IA open source…

Depuis plus d’un an maintenant, le monde de l’IA générative est particulièrement bouillonnant. Entre les débats passionnés autour des régulations et de l’AI Act européen, les grandes théories des uns et des autres sur ce qui définit une IA responsable et sur qui est responsable, et les bonds technologiques qui se succèdent bien plus vite et bien plus haut que les politiques et nos sociétés, l’IA n’a pas fini de remplir nos colonnes et d’animer les discussions.

Pour preuve, les innovations s’enchaînent ces dernières semaines avec une telle célérité que même les observateurs les plus attentifs ont du mal à suivre : l’efficacité de GPT4-Turbo Vision (réentraîné en décembre 2023), les prouesses vidéos de Sora (OpenAI), l’intégration de Firefly dans Premiere Pro, les capacités d’imitation de Voice Engine (OpenAI), les facultés de synthèse de Mistral Next, les records aux benchs IA de Claude 3 (Anthropic), la fenêtre contextuelle d’un million de tokens de Gemini Pro 1.5, etc.

La semaine dernière, Mistral et Meta chacun dans leur coin, ont de nouveau fait parler la poudre de l’innovation avec leurs nouveaux modèles par ailleurs distribués en open source : Mixtral 8x22B et Llama 3. Des solutions qui interpellent les DSI en quête de plus de contrôle sur leurs données et les IA qu’ils mettent à disposition des entreprises.

Mistral lance un modèle de 291 Go sur Torrent

Très critiqué (particulièrement en France, nul n’est décidément prophète en son pays) pour son partenariat (pourtant non exclusif) avec Azure et pour avoir « osé » commercialiser des modèles fermés avec ses remarquables modèles Mistral Large et Mistral Small (qui animent notamment son IA conversationnelle « Le Chat »), la startup vedette de l’IA en France, Mistral AI, a lancé un nouveau modèle en open source, un LLM gonflé dénommé « Mixtral 8x22B ».
Mistral fait ainsi taire les mauvaises langues en démontrant que sa volonté d’exister commercialement n’était pas incompatible avec une R&D privilégiant l’open source. « Plus économique, plus pertinent, plus rapide et plus fort »… C’est ainsi que Mistral AI a dévoilé son modèle paraphrasant une célèbre chanson des Daft Punk.

Ce nouveau modèle reprend les concepts fondateurs de son précédent modèle « Mixtral 8x7B », avec une approche « Sparse Mixture of Experts » ou SMoE qui repose sur l’idée de combiner des petits modèles spécialisés (experts) avec un mécanisme de sélection dynamique des modèles à utiliser pour formuler la réponse (ou accomplir une tâche) tout en s’assurant de n’activer qu’un sous-ensemble des « experts » disponibles pour réduire la quantité de calculs nécessaires.
Ainsi, Mixtral 8x22B n’active que 39 milliards de paramètres parmi ses 141 milliards ce qui lui permet de combiner à la fois la puissance d’un très grand modèle tout en offrant une efficience bien meilleure (réponses plus rapides et consommation moindre en ressources et en énergie).

Ce nouveau modèle parle couramment anglais, français, italien, allemand et espagnol. Il affiche des capacités de programmation (génération de code informatique) et de raisonnement mathématique très supérieures aux précédents modèles de Mistral. Il dispose d’une fenêtre contextuelle de 64.000 tokens (le double de Mixtral 8x7B) et se révèle capable d’appeler des fonctions.

Le modèle est diffusé en open source sous la très permissive licence Apache 2.0 et peut-être téléchargé via un lien Torrent, solution préférée vu la taille du modèle : 291 Go !

Le modèle est aussi disponible sur « La Plateforme », le service en ligne de Mistral qui permet d’exploiter ses modèles par de simples appels API.

Meta poursuit l’aventure LLM avec LLama 3

De son côté, Meta a annoncé LLama 3, le très attendu successeur de Llama 2, son célèbre modèle LLM open source que l’on retrouve sur toutes les plateformes et qui sert souvent d’étalon à la plupart des benchmarks du marché.

LLama 3 se distingue de LLama 2 sur de très nombreux points. À commencer par sa conception multimodale qui doit lui permettre d’analyser et comprendre des images. Mais Meta a également repensé ses phases de « pré-entraînement » pour améliorer ses capacités de raisonnement et de « post-entraînement » pour limiter les situations d’hallucination et améliorer la diversité des réponses. Meta a également réécrit le « Tokenizer » pour mieux encoder les langages et adopté un mécanisme « GQA » (Grouped Query Attention) pour accélérer les inférences. Enfin, Meta explique que LLama 3 a été entraînée sur une base d’informations publiques de plus de 15 000 milliards de Tokens, base savamment filtrée pour améliorer la qualité des informations, éviter les déduplications, limiter certains biais. De façon amusante, Meta s’est notamment appuyé sur LLama 2 pour automatiser certains filtrages.

Tout ceci pour obtenir au final un modèle plus fiable et moins sujet aux hallucinations. Jusqu’à quel point ? Au point d’obtenir un LLM « 70B » plus performant (en anglais) que Claude 3 ou Gemini Pro 1.5 si on en croit les benchmarks présentés par Meta.

LLama 3 est actuellement disponible en version « 8B » et « 70B » (70 milliards de paramètres). Il est diffusé en open source (téléchargeable sur GitHub) mais selon une licence propre à Meta relativement permissive.

LLama 3 est déjà implémenté sur l’assistant « Meta AI » (le concurrent de ChatGPT version Meta) qui n’est malheureusement pas accessible aux européens.

Par ailleurs, Meta a annoncé travailler sur d’autres versions de LLama 3 dont une version « 400B » qui devrait pouvoir converser dans une trentaine de langages, supporter l’envoi de contenus multimédias et surtout proposer des fenêtres contextuelles plus étendues.

Meta annonce par ailleurs que LLama 3 sera très rapidement proposé sur les clouds de Google (Vertex AI), d’AWS (Bedrock API), d’Azure (AI Services), mais aussi sur les plateformes de Hugging Face, d’IBM (WatsonX), de NVidia (NIM), de Databricks et de Snowflake.

L’IA en open source en question

L’arrivée de ces deux modèles à même de concurrencer les LLM propriétaires d’OpenAI et Google relance les débats autour des IA en open source. Des débats d’ordres très multiples puisque tout dépend de ce que l’on entend par « modèle en open source ». Dans la plupart des cas, ce sont simplement les poids du modèle qui sont rendus disponibles ainsi que le code d’inférence. C’est le cas de LLama 3 et Mixtral 8x22B.

Pour autant, certains estiment qu’un modèle ne peut pas être véritablement open source si l’on n’a pas accès à sa base de documents de formation et au code du pipeline d’apprentissage, deux conditions nécessaires mais pas suffisantes selon eux pour qualifier une IA de « transparente ».

Bien évidemment, de nombreuses voix s’inquiètent de voir des LLM si puissants désormais rendus accessibles à tous et donc y compris aux usages les plus noirs et illégaux de l’IA. Selon eux, ainsi démocratiser des IA “aussi puissantes” mais encore “très immatures” ne fait qu’augmenter les risques sur la sécurité de nos sociétés voire sur l’humanité tout entière en simplifiant encore un peu plus l’usage de l’IA pour inonder – à moindre coût – les réseaux sociaux de fausses informations et de propagandes. Avec également la crainte ultime que ces IA open source ne simplifient et n’accélèrent le développement dans l’ombre d’IA dangereuses et malveillantes.

Pour d’autres en revanche, de tels LLM en open source encouragent la transparence et permettent à davantage d’entreprises de développer et déployer des IA spécifiquement adaptées à leurs besoins et dans des cadres mieux contrôlés et respectant la confidentialité des données.

Quoi qu’il en soit, force est de reconnaître que si les SLM (les petits LLM spécialisés entraînés avec soin) avaient beaucoup le vent en poupe ces dernières semaines (Mistral 7B, Google Gemma, Microsoft Phi-2 et Orca-Math, etc.), les LLM sont loin d’avoir dit leurs derniers mots avec une R&D toujours aussi galopante pour en découvrir tout le potentiel. De quoi continuer à débattre sur les atouts et risques des IA encore très longtemps…


À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights