

Newtech
OpenEuroLLM : l’une des offensives IA de l’Europe ?
Par Thierry Derouet, publié le 18 février 2025
Confronté à l’hégémonie des superpuissances américaines et chinoises, un groupe de pays européens s’engage à promouvoir une alternative multilingue, inclusive et indépendante. L’Europe est-elle enfin prête pour la compétition ?
OpenEuroLLM est un peu l’histoire d’une Europe qui se réveille face à la domination des géants américains et chinois dans le domaine de l’intelligence artificielle générative. D’un côté, ChatGPT, Gemini ou les modèles de Meta dominent un marché centré sur l’anglais et quelques langues majeures. De l’autre, une myriade de start-ups et d’instituts de recherche européens qui tentent de combler un retard devenu criant. En toile de fond se trouve la détermination de ne pas laisser un continent dépendre de technologies étrangères pour des besoins qui peuvent être très éloignés de ceux des pays de l’Union.
Le projet OpenEuroLLM, dont les détails sont révélés par Tagesspiegel Background, est une collaboration entre une vingtaine d’entités (en France avec LightOn) dont des centres de calcul haute performance, des universités, des équipes de recherche spécialisées et des entreprises technologiques. Leur ambition commune est simple à énoncer et redoutable à mettre en œuvre : concevoir des modèles de langage multilingues, libres de droits, et dont le code ainsi que les données d’entraînement seront accessibles à tous. Autrement dit, proposer une alternative crédible à la fois pour la recherche, pour les services publics et pour les entreprises européennes, le tout avec une transparence maximale.
Ce choix de l’ouverture tranche nettement avec les pratiques des leaders du secteur. Les acteurs américains et chinois — que ce soit OpenAI, Google ou encore Deepseek — publient rarement leurs données d’entraînement et conservent jalousement leurs algorithmes d’apprentissage. Résultat : un marché concentré autour de quelques puissants acteurs et une Europe parfois reléguée au rang de simple consommatrice d’outils développés hors de ses frontières. OpenEuroLLM prétend inverser cette logique. Selon Tagesspiegel Background, Jan Hajic, coordinateur du projet, et Jenia Jitsev, chercheur au Centre de recherche de Jülich, insistent sur la dimension « reproductible » de leur approche : n’importe quelle équipe, qu’elle soit universitaire ou industrielle, doit pouvoir reprendre le modèle, le modifier, l’améliorer ou simplement l’inspecter pour en comprendre le fonctionnement.
JUPITER, un supercalculateur made in France
Bien sûr, un tel chantier demande des ressources matérielles considérables. Les grands modèles de langage nécessitent une puissance de calcul vertigineuse. Pour entraîner un modèle de plusieurs centaines de milliards de paramètres, il faut mobiliser des centaines, voire des milliers de cartes graphiques de pointe. C’est ici qu’intervient JUPITER, le futur supercalculateur exascale du centre de Jülich. Lorsque son installation sera complètement finalisée, JUPITER devrait dépasser le quintillion d’opérations par seconde *.
En attendant, son module de transition baptisé JETI (photo ci-dessous), déjà opérationnel, atteint 83 pétaflops et se classe parmi les machines les plus puissantes au monde. La France, avec Jean Zay (36 pétaflops) ou Tera-1000 du CEA, n’atteint pas encore ces sommets et reste à une distance respectable de l’exaflopique en attendant que son “Jules Verne” entre en opérations en 2026.

Le financement constitue un autre défi majeur. La Commission européenne a alloué une somme de 21 millions d’euros sur trois ans, qui a été portée à 34,6 millions grâce aux contributions des partenaires. Cette somme peut sembler insignifiante en comparaison des centaines de millions d’euros investis par des entreprises comme Microsoft et Google. Pourtant, l’exemple de Deepseek, une start-up chinoise, montre qu’une approche ingénieuse peut parfois réduire drastiquement les coûts d’entraînement. Deepseek affirme avoir dépensé « seulement » six millions de dollars pour mettre au point son modèle R1, même si certaines estimations parlent plutôt d’un investissement réel vingt fois supérieur. En définitive, l’innovation dépend également de la capacité à optimiser l’utilisation des ressources, notamment grâce à des algorithmes plus efficaces et à des méthodes d’entraînement plus performantes.
OpenGPT-X, l’autre projet européen
Reste la question de la concurrence. D’autres projets européens ont déjà émergé, comme OpenGPT-X, mais ils n’ont pas réussi à atteindre le niveau de performance et de multilinguisme nécessaire. Par exemple, les modèles de la gamme Teuken ont été formés sur les 24 langues officielles de l’Union, mais leur nombre de paramètres dépassait à peine le milliard, ce qui est bien loin des centaines de milliards que comptent des versions plus avancées comme GPT-4 ou LLaMA 3. OpenEuroLLM veut justement corriger le tir : en laissant d’abord le modèle acquérir des compétences de base (raisonnement, compréhension fine des textes) avant de multiplier les langues, on espère éviter la dilution des ressources et obtenir une IA réellement polyvalente.
Cette approche, où la logique précède la diversité linguistique, s’inspire en partie des travaux de Deepseek. L’idée est de construire un socle robuste, puis d’ajouter les briques multilingues, au lieu d’essayer de gérer d’emblée plusieurs dizaines de langues. Il faut toutefois du temps, de l’énergie et une solide cohésion entre les partenaires européens pour que cette vision se réalise. L’Open Strategic Partnership Board devrait y contribuer en intégrant des experts de l’extérieur et en encourageant les commentaires de la communauté internationale, en particulier des chercheurs coréens ou de la plateforme Hugging Face.
La route sera longue, mais l’espoir est là : si OpenEuroLLM réussit à rassembler suffisamment de ressources financières, de capacité de calcul et de talents, alors l’Europe pourrait enfin offrir une IA plus transparente, plus équitable, et adaptée à toute sa diversité linguistique. Autrement dit, ce projet s’ajoutera à la liste des projets européens inachevés, incapables de rivaliser avec l’accélération chinoise et la puissance des GAFAM. L’histoire reste à écrire.
* Un quintillion d’opérations par seconde correspond à 10^{18} FLOP/s, soit 1 ExaFLOP/s (1 000 000 000 000 000 000 FLOP/s)
Fondation Kyutai : la révolution Hibiki dans la traduction vocale
L’initiative Hibiki, portée par la Fondation Kyutai, marque un tournant majeur dans l’univers de la traduction vocale. Pour la première fois, un système d’intelligence artificielle parvient à délivrer une traduction simultanée tout en préservant le timbre et l’intonation du locuteur d’origine. Dans sa version actuelle, Hibiki traduit avec une précision inédite du français vers l’anglais, offrant un résultat d’une fluidité remarquable, tant sur le plan oral qu’écrit.
L’architecture d’Hibiki permet en outre un déploiement en temps réel, que ce soit sur des plateformes cloud ou des appareils mobiles. Cette accessibilité s’inscrit pleinement dans la philosophie ouverte de la Fondation Kyutai : mettre à disposition du public le code et les modèles, afin de stimuler l’innovation et d’encourager l’adaptation de cette technologie à d’autres langues.
Hibiki représente ainsi une étape décisive vers l’abolition des barrières linguistiques, où la conversation humaine – dans toute sa richesse – trouve désormais un écho numérique.
À LIRE AUSSI :
