Mistral AI lance Mathstral et Codestral Mamba

Data / IA

Mistral AI lance deux nouveaux modèles : Codestral Mamba et Mathstral

Par Laurent Delattre, publié le 17 juillet 2024

La startup phare de l’IA en France, Mistral AI, poursuit ses efforts de recherche aussi bien dans le domaine de l’amélioration des capacités de raisonnement des IA que dans celui de l’efficience des modèles.

Qu’on se le dise, les IA génératives sont encore balbutiantes. Nous n’avons jusqu’ici qu’effleuré leur potentiel. Et plus les chercheurs comprennent le fonctionnement intime des réseaux de neurones, plus ils progressent dans la maîtrise des IA pour à la fois en améliorer les performances, en réduire les consommations de ressource, en augmenter les capacités d’analyse et de raisonnement.

Preuve en est les annonces cette semaine par Mistral AI de nouveaux modèles démontrant les capacités de la jeune pousse française à faire évoluer les technologies Gen AI sur tous ces axes.

Codestral Mamba 7B

Le T de GPT, signifie « Transformer » et désigne le type d’architecture fondamentale qui donne vie à la plupart des LLM (Large Langage Model) avec lesquels on discute depuis la sortie de ChatGPT.

Fin 2023, une équipe de chercheurs de Carnegie Mellon et de l’Université de Princeton a imaginé une toute nouvelle approche, une toute nouvelle architecture de LLM dénommée Mamba.

Mamba se distingue radicalement des architectures traditionnelles comme les Transformers en s’appuyant sur l’utilisation de modèles d’espace d’état structurés (SSM) qui permettent de traiter efficacement de longues séquences de données, alors qu’en la matière les Transformers ont déjà atteint leurs limites. En remplaçant les blocs d’attention complexes des Transformers par un seul bloc SSM cohérent, Mamba parvient à réduire considérablement la complexité de calcul. Dit autrement, Mamba traite les longues séquences plus rapidement avec une complexité de calcul réduite.

Il en résulte à la fois une architecture plus simple mais aussi plus performante grâce à un parallélisme optimisé pour les GPU modernes.

Et c’est justement sur le potentiel de cette nouvelle architecture que les chercheurs de la startup française Mistral AI ont planché ces derniers mois. Et les fruits de leurs recherches commencent à se concrétiser.

L’éditeur vient en effet de dévoiler un nouveau modèle basé sur Mamba : Mistral Codestral Mamba 7B. Pour rappel, il y a quelques semaines, Mistral lançait son premier modèle dédié à la génération de code informatique : Codestral 22B.
Codestral Mamba 7B en est une variation basée sur une architecture Mamba afin d’obtenir un modèle de génération de code suffisamment performant pour une utilisation en local. Il n’est pas aussi « pertinent » que Codestral 22B mais offre une fenêtre contextuelle de 256.000 tokens et affiche des résultats de qualité supérieure à celle de tous les autres modèles 7B du marché ou de CodeLlama 34B.

Codestral Mamba est publié en open source sous licence Apache 2.0 mais peut être directement testé et évalué sans effort de déploiement depuis « La Plateforme » Mistral et ses API.

Mathstral a la bosse des maths

Outre Codestral Mamba, Mistral AI a également lancé cette semaine un nouveau modèle spécialisé dans la résolution des problèmes mathématiques avancés démontrant les progrès réalisés par ses chercheurs en matière d’implémentation de raisonnements complexes par-dessus des LLMs classiques.

MathΣtral atteint des performances de pointe dans sa catégorie sur divers benchmarks standards du monde scientifique. Le modèle « instruit » atteint 56,6% sur MATH et 63,47% sur MMLU. Mais avec un peu de fine-tuning et d’optimisations sur l’inférence, il peut atteindre des scores de 68,37% sur MATH.

MathΣtral s’appuie sur le modèle LLM le plus populaire de Mistral, Mistral 7B, mais le spécialise sur les sujets STEM (Science, Technologie, Ingénierie et Mathématiques). MathΣtral est ainsi un modèle de 7 milliards de paramètres, conçu spécifiquement pour le raisonnement mathématique et la découverte scientifique. Selon Mistral AI, il illustre l’efficacité des « modèles spécialisés » et le potentiel des nouvelles fonctionnalités de « fine-tuning » mis à disposition des entreprises via « La Plateforme » de Mistral AI.

MathΣtral dispose d’une fenêtre de contexte de 32 000 tokens et est publié en open-source sous licence Apache 2.0.

En suivant des pistes un peu différentes d’OpenAI (ChatGPT) et Anthropic (Claude AI), Mistral AI ne ralentit pas le rythme du côté des innovations et poursuit sa quête d’Intelligences artificielles toujours plus pertinentes et plus utiles au quotidien, mais aussi plus efficientes et moins énergivores. Avec une volonté de proposer la plupart de ses innovations en open-source. Aux DSI maintenant de suivre le rythme et d’imaginer les applications pratiques de ces technologies au sein de leurs entreprises…

À LIRE AUSSI :

Une troisième levée de fonds en 1 an d'existence pour Mistral AI

Data / IA

Mistral AI : De nouveaux services pour les entreprises et une troisième grosse levée

Laurent Delattre

12 Juin

À LIRE AUSSI :

Quand les services publics utilisent l'IA générative de Mistral AI pour mieux répondre aux concitoyens....

Data / IA

Laurent Blanc (Services Publics+) : « Avec Mistral 7B, on a réduit les délais de réponse de plus de 50% ! »

Thierry Derouet

9 Jan

En direct du Forum InCyber Lille – Jour 2 – Souveraineté européenne et Résilience cyber

Thierry Derouet

2 Avr
Le dilemme Quantique : naviguer vers le prochain grand saut technologique

La rédaction

2 Avr
Replay Forum InCyber Lille – Jour 1 – Zero Trust & NIS 2

Thierry Derouet

1 Avr
La conformité RGPD en 2025 : nouvelles obligations et impacts pour les entreprises

La rédaction

1 Avr
Régulation européenne sur le numérique : ne reculons pas !

La rédaction

31 Mar
Short S2E27 – Docs, la nouvelle solution bureautique souveraine

Alessandro Ciolek

31 Mar
Le Forum InCyber 2025 débute demain, 1er Avril : Retrouvez-nous en Direct !

Laurent Delattre

31 Mar
OMI, un studio virtuel de contenus marketing 3D

Stéphane Moracchini

31 Mar
JP Roederer (Cisco) : « L’approche sécuritaire des applications IA est très différente de celle d’une application classique »

Laurent Delattre

28 Mar
Comment fonctionnent vraiment les LLM ? Les révélations des chercheurs d’Anthropic !

Laurent Delattre

28 Mar

Mistral AI lance deux nouveaux modèles : Codestral Mamba et Mathstral

Codestral Mamba 7B

Mathstral a la bosse des maths

Abonnez-vous à la newsletter hebdo d'IT for Business !

Nous vous envoyons un e-mail de validation !

Dans l'actualité

En direct du Forum InCyber Lille – Jour 2 – Souveraineté européenne et Résilience cyber

Le dilemme Quantique : naviguer vers le prochain grand saut technologique

Replay Forum InCyber Lille – Jour 1 – Zero Trust & NIS 2

La conformité RGPD en 2025 : nouvelles obligations et impacts pour les entreprises

Régulation européenne sur le numérique : ne reculons pas !

Short S2E27 – Docs, la nouvelle solution bureautique souveraine

Le Forum InCyber 2025 débute demain, 1er Avril : Retrouvez-nous en Direct !

OMI, un studio virtuel de contenus marketing 3D

JP Roederer (Cisco) : « L’approche sécuritaire des applications IA est très différente de celle d’une application classique »

Comment fonctionnent vraiment les LLM ? Les révélations des chercheurs d’Anthropic !

Mistral AI lance deux nouveaux modèles : Codestral Mamba et Mathstral

Codestral Mamba 7B

Mathstral a la bosse des maths

Abonnez-vous à la newsletter hebdo d'IT for Business !

Nous vous envoyons un e-mail de validation !

Dans l'actualité

En direct du Forum InCyber Lille – Jour 2 – Souveraineté européenne et Résilience cyber

Le dilemme Quantique : naviguer vers le prochain grand saut technologique

Replay Forum InCyber Lille – Jour 1 – Zero Trust & NIS 2

La conformité RGPD en 2025 : nouvelles obligations et impacts pour les entreprises

Régulation européenne sur le numérique : ne reculons pas !

Short S2E27 – Docs, la nouvelle solution bureautique souveraine

Le Forum InCyber 2025 débute demain, 1er Avril : Retrouvez-nous en Direct !

OMI, un studio virtuel de contenus marketing 3D

JP Roederer (Cisco) : « L’approche sécuritaire des applications IA est très différente de celle d’une application classique »

Comment fonctionnent vraiment les LLM ? Les révélations des chercheurs d’Anthropic !

Abonnement GRATUIT

Accès à Albert (ChatGPT for IT)

Contenus réservés à la communauté d’IT for Business

La newsletter hebdo d’IT for Business

Des invitations privilégiées à nos événements