Après la Hype "DeepSeek", quelles leçons les DSI doivent en tirer

Data / IA

Les DSI face à l’après « hype » DeepSeek

Par Laurent Delattre, publié le 11 février 2025

Il y a deux semaines, DeepSeek faisait s’effondrer Wall Street et douchait les convictions suprématistes de l’écosystème IA américain. Mais que reste-t-il aujourd’hui de cette douche froide ? Pour les DSI, il est temps d’en tirer des enseignements utiles et éclairants…

Si DeepSeek, en lançant son modèle « R1 », a autant traumatisé l’écosystème de la Tech américain, c’est parce que l’entreprise a réussi à développer un modèle frontière à raisonnement aussi performant que les meilleurs modèles US sans, en théorie, recourir aux infrastructures coûteuses et aux dernières technologies IA de Nvidia et consorts.

Officiellement, le modèle R1 a été entraîné avec des GPU moins puissants et à un coût estimé à seulement 6 millions de dollars. Et pourtant, il rivalise avec les meilleurs modèles américains dont l’entraînement se chiffre en centaines de millions de dollars.

De quoi forcément remettre en question la nécessité d’investissements massifs en matériel de pointe alors même que les USA annonçaient 500 milliards de dollars d’investissement dans les centres de données IA du projet Stargate !

L’effet médiatique passé, que reste-t-il de ce « moment Spoutnik » pour l’IA ? Essentiellement d’intéressantes leçons que les DSI peuvent intégrer dans leur réflexion afin d’affiner leurs stratégies IA pour les mois et années à venir…

Des innovations qui rappellent que l’IA est encore naissante

Ce que DeepSeek a en réalité souligné, c’est l’importance de l’efficacité et de l’optimisation dans le développement de l’IA. La technologie est encore naissante. Chaque progrès coûte plus cher, mais chaque progrès invite ensuite à des phases d’optimisation, de simplification, de quête de frugalité. C’est d’ailleurs ce qu’ont toujours fait les Américains. Après GPT4, OpenAI a lancé GPT4-Turbo bien moins consommateur. Aujourd’hui, l’IA Gemini de Google est animée avec plus de brio encore par un modèle compact « Gemini 2.0 Flash » bien plus économe et performant que « Gemini 1.0 Ultra » qui l’animait il y a à peine un an. Accuser OpenAI et Google de pratiquer une course à l’innovation au détriment d’une optimisation des IA existantes est donc en réalité assez infondé, même si chaque acteur a son agenda.

Reste que l’approche de DeepSeek, qui consiste à optimiser les ressources disponibles pour développer des modèles d’IA performants à moindre coût, reflète une culture d’innovation et d’efficacité très ancrée dans la culture chinoise et qui, probablement, fait en partie défaut à l’écosystème américain avec son accès libéré aux capitaux et aux innovations.

Ainsi, les ingénieurs de DeepSeek ont imaginé et déployé à l’échelle bien des astuces d’optimisation, dont certaines sont plus originales que d’autres. Ainsi, l’architecture MoE (Mixture-of-Experts) souvent mise en avant pour expliquer l’efficacité de DeepSeek n’a rien de bien novateur, elle est au cœur des approches de Mistral AI par exemple, mais est également utilisée par OpenAI, Google et autres. De même, l’utilisation d’une précision FP8 n’est pas une nouveauté. Elle permet de diminuer les coûts de calcul et la consommation mémoire. Et elle est largement employée aujourd’hui par bien des acteurs, ce qui explique d’ailleurs pourquoi AMD et NVidia en ont fait une spécialité sur leurs derniers GPU. Typiquement, Mistral AI a utilisé du « Mixed Precision Training » bien avant DeepSeek, et son modèle Mistral NeMo est en FP8.

Les optimisations « Multi-Head Latent Attention », qui compressent efficacement le cache des clés et valeurs en un vecteur latent, sont plus novatrices. La méthode MLA utilisée par DeepSeek réduit l’utilisation de la mémoire à seulement 5 à 13 % de ce que consomme l’architecture MHA (Multi-Head Attention) plus courante.

Autre innovation, l’algorithme DualPipe de DeepSeek améliore le parallélisme des pipelines en superposant les phases de calcul et de communication. Cela réduit les latences et améliore l’évolutivité du modèle sur plusieurs nœuds, optimisant ainsi l’utilisation des ressources matérielles.

Enfin, en programmant les GPU directement en PTX plutôt qu’en CUDA, DeepSeek a réalisé un effort de conversion que peu d’acteurs de l’IA ont voulu faire. Un effort qui lui a permis d’exploiter de façon plus efficace le potentiel des GPU à sa disposition.

Reste que, si la sortie de R1 a effectivement attiré l’attention de tout l’écosystème IA sur les optimisations mises en œuvre, il ne faut pas croire que seule DeepSeek pratique de telles optimisations. Chez tous les acteurs, d’importants travaux de R&D sont réalisés pour optimiser les algorithmes existants. Et une startup comme Mistral AI ne pourrait exister ni survivre si ses talentueux ingénieurs ne cherchaient pas en permanence non seulement à optimiser les algorithmes IA, mais aussi les pipelines de fabrication des modèles. Il n’est d’ailleurs pas exclu que les travaux de Mistral AI autour des techniques de « Quantization », de « Pruning », de Knowledge Distillation, n’aient pas inspiré les ingénieurs de DeepSeek.

Tout ceci pour rappeler que l’IA est encore un vaste terrain d’expérimentation et de recherche que chaque acteur de l’IA explore en suivant en priorité, selon ses capacités, soit l’axe d’amélioration du potentiel de l’IA, soit l’axe de l’optimisation de l’efficience de l’IA.

Une Chine talentueuse

L’autre leçon inculquée par DeepSeek aux USA, c’est que la Chine peut innover dans l’IA avec ses propres talents (là où les grandes entreprises US viennent piocher leurs talents en France, en Europe, en Asie). Au cours de la dernière décennie, la Chine a considérablement augmenté le nombre de programmes de formation en IA, avec environ 2 000 programmes de premier cycle créés, dont plus de 300 dans les universités et instituts de recherche les plus élitistes du pays. En conséquence, la Chine produit désormais près de la moitié des chercheurs en IA dans le monde, surpassant très largement les 18 % des États-Unis.

Des coûts truqués ?

Reste que toutes les optimisations présentées par DeepSeek n’expliquent pas comment la startup chinoise a pu entraîner son modèle pour seulement 6 millions de dollars avec seulement 10 000 GPU H800. Et la réponse se cache dans les non-dits de DeepSeek.

Selon plusieurs études, à commencer par celle très détaillée de SemiAnalysis, les rapports techniques de DeepSeek comportent volontairement des « oublis » parce que la startup ne pouvait dévoiler avoir eu accès à des technologies théoriquement inaccessibles aux entreprises chinoises. Les 6 millions de dollars annoncés ne sont que la surface émergée de l’iceberg. Ces coûts ne prennent en compte ni la R&D, ni les coûts de préentraînement, ni les multiples runs précédents, ni les coûts d’infrastructure, ni le salaire des ingénieurs, ni les coûts d’utilisation des clusters « non officiels ». Selon SemiAnalysis, DeepSeek aurait en réalité accès à un cluster d’environ 50 000 GPU de génération Hopper, notamment des H20 (un GPU spécialement conçu par NVidia pour la Chine), mais également des GPU H100 interdits en Chine.

Au final les coûts d’entraînement de DeepSeek V3 puis DeepSeek R1 seraient assez alignés sur les coûts des modèles occidentaux avec une infrastructure qui a probablement coûté plus d’un milliard de dollars à assembler. Et même les coûts d’inférence affichés par DeepSeek seraient volontairement « au rabais » afin d’accroître sa visibilité et rapidement conquérir le marché asiatique notamment.

Une adoption mondiale

Car à bien y regarder, les coûts d’inférence de DeepSeek-R1 ne semblent pas si exceptionnellement bas (cf plus bas). Et cela va vite devenir très visible maintenant que le modèle a été intégré dans toutes les offres MaaS (Model as a Service) du marché, de Hugging Face à Azure, en passant par AWS, NVidia NIM, Google Cloud, etc. Même Microsoft en a implémenté une des distillations SLM pour Windows 11 et une exécution locale sur les Copilot+ PC (à base de processeurs Qualcomm pour l’instant).

AInsi, si l’on en croit Nvidia, pour exécuter en local le modèle DeepSeek-R1 complet via la plateforme Nvidia NIM , il faut une installation “solide”. Un système équipé de 8 GPU Nvidia H200 permet de traiter environ 3872 tokens par seconde. À titre d’information, et selon AIwire, l’exécution du modèle intégral (650 Go) sur un serveur bi-socket avec deux processeurs AMD EPYC (9005) et 768 Go de RAM, mais sans GPU (une configuration estimée à environ 6000 dollars) permet d’inférer DeepSeek-R1 à raison de 6 à 8 tokens par seconde (à ce rythme là on ne va pas bien loin).

Bien évidemment, la nature « open source » du modèle (en réalité c’est plus un modèle ‘open weight’) simplifie son intégration sur toutes les grandes plateformes IA du marché. Mais ses qualités intrinsèques expliquent aussi cette adhésion massive du marché : rapidité de réponse, modèle à raisonnement, multiplicité des versions distillées…

Les risques liés à DeepSeek

Reste que cette adoption de DeepSeek sur les plateformes IA ne doit pas masquer la réalité des risques associés à l’usage des modèles de DeepSeek dans les entreprises.

On passera rapidement sur l’utilisation directe des API DeepSeek et de l’assistant DeepSeek AI puisque les politiques d’usage de DeepSeek indiquent clairement que les données des utilisateurs sont stockées sur des serveurs en Chine et peuvent être utilisées aussi bien par DeepSeek que le gouvernement Chinois.

Exécuter DeepSeek-R1 sur les infrastructures des hyperscalers ou sur son infrastructure locale permet évidemment de contourner ces risques de confidentialité et de conformité. Mais cela ne diminue en rien les autres risques liés au modèle :

* Risque de sécurité : des experts en cybersécurité ont démontré que le modèle était très vulnérable aux techniques de « jailbreaking » et aux injections de commandes, permettant à des personnes malveillantes de contourner les mesures de sécurité et d’exploiter le modèle à des fins néfastes.

* Risque sur les contenus générés : des tests ont révélé que DeepSeek-R1 est plus susceptible que d’autres modèles de générer du contenu nuisible, y compris des instructions pour fabriquer des armes, des informations favorisant l’automutilation, du code malveillant et des discours de haine.

* Risque éthique : DeepSeek-R1 a tendance à refléter les positions du gouvernement chinois, ce qui peut entraîner la diffusion de désinformation ou de contenu biaisé, en particulier sur des sujets politiquement sensibles.

* Risque géopolitique : des entités telles que la marine américaine ont interdit l’utilisation de DeepSeek en raison de préoccupations liées à la sécurité nationale, craignant que le modèle puisse être utilisé pour des opérations d’influence ou de surveillance par le gouvernement chinois.

* Risque juridique : une menace pèse sur DeepSeek et sur ceux qui utilisent ses modèles. OpenAI est persuadé que le modèle a été créé en distillant illégalement son modèle GPT-4o et mène une enquête (toujours en cours) pour le démontrer.

De l’importance de la transparence au-delà de l’open source

L’une des leçons à retenir de la « hype » DeepSeek est que l’IA a besoin de plus de transparence. Déjà dans sa conception, comme dans son fonctionnement.

DeepSeek a voulu faire preuve de transparence avec son document technique de 50 pages expliquant les innovations mises en œuvre. Mais on a vu à quel point ce rapport contient des zones d’ombres qui cachent la réalité des moyens utilisés. En outre, bien que publié selon la très permissive licence MIT, DeepSeek-R1 n’est pas un pur modèle open source, dans le sens OSI du terme. Bien des scripts et codes de son entraînement n’ont pas été publiés, ce qui a d’ailleurs donné naissance sur le hub Hugging Face à un projet « Open-R1 » visant à recréer tout ce que DeepSeek n’a pas publié en open source. Ce qui a été en revanche publié en open source est aujourd’hui décortiqué par tous les labos IA du monde pour apprendre de leurs optimisations et techniques innovantes. C’est tout l’intérêt de l’open source, permettre à la communauté de s’enrichir des trouvailles de ses membres.

Du côté du fonctionnement du modèle, on peut en revanche largement remercier DeepSeek puisque l’éditeur chinois a sur son assistant IA toujours ouvertement affiché l’enchainement de « pensées » de son modèle à raisonnement. Une transparence qui a finalement notamment inspiré OpenAI (mais aussi Google Gemini) qui, eux aussi désormais, dévoilent plus ouvertement comment le modèle pense avant de répondre.

La concurrence a réagi face à DeepSeek R1

Enfin, il faut aussi rappeler que si DeepSeek R1 a démontré à quel point l’écosystème Chinois de l’IA avait su refaire son retard sur l’écosystème occidental, DeepSeek R1 n’est en réalité meilleur en rien.

Des modèles comme ceux de Mistral AI ou Google Gemini 2.0 sont plus rapides avec des latences de réponse très inférieures.

DeepSeek R1 ne surpasse « OpenAI o1 » que sur quelques benchmarks (pour lesquels il a été optimisé) et non sur l’intégralité des benchs. En outre, OpenAI a depuis dévoilé « OpenAI o3-mini » et « OpenAI o3-mini High » qui surpassent largement DeepSeek R1 sur la quasi-totalité des benchmarks. En attendant la libération du vrai modèle « OpenAI o3 » dans les semaines à venir.

DeepSeek-R1 n’est pas le moins cher en inférence. Il coûte (sur l’API officielle) 0,55 $ par million de tokens en entrée et 2,19 $ par million de tokens en sortie. En comparaison, Gemini 2,0 Flash coûte 0,10 $ par million de tokens en entrée, 0,40 $ par million de tokens en sortie. Gemini 2.0 Flash-Lite coûte 0,075 $ par million de tokens en entrée et 0,30 $ par million de tokens en sortie. Mistral Small 3 coûte 0,1 $ par million de tokens en entrée et 0,3 $ par million de tokens en sortie. Et même OpenAI n’est plus 27 fois plus cher ! Son modèle OpenAI o3-mini est facturé 1,10 $ par million de tokens en entrée et 4,40 $ par million de tokens en sortie (des prix divisibles par deux si utilisation en mode Batch).

Enfin, la guerre ne se joue évidemment pas que sur les modèles. La Tech US en a lancé une nouvelle sur le terrain des agents. OpenAI a ainsi lancé depuis le début de l’année (en accès limité aux citoyens américains) son agent Operator (contrôle du PC et du Web) et son agent Deep Research (exploration du Web pour création automatique de rapports de recherche et rapports de veille).

Au final, la « hype » DeepSeek aura eu deux effets : secouer la Tech américaine et l’ébranler sur ses convictions de suprématie, ce qui n’est pas forcément une bonne nouvelle pour la concurrence, et mettre en lumière les travaux d’optimisation d’autres jeunes pousses, comme la startup française « Mistral AI » qui sans avoir les financements ni des géants américains ni des entreprises chinoises, arrive à exister et à faire jeu égal sur ce marché où, finalement, tout reste encore à inventer…


À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights