Comprendre une IA avant qu'elle ne dérape n'est plus un luxe : c'est une urgence. Entre circuits cachés et stratégies défensives inédites, Anthropic invente l'IRM des réseaux neuronaux des IA.

Data / IA

Scanner l’esprit des IA : Comment Anthropic invente l’IRM des LLM

Par Laurent Delattre, publié le 28 avril 2025

Trop omniprésente, trop intelligente, trop complexe. Plus question de laisser des IA évoluer à l’aveugle. Pour Dario Amodei, il est urgent de savoir interpréter le fonctionnement interne et profond des IA. Dans un essai, le CEO d’Anthropic explique comment ses équipes de recherche bâtissent une méthode pour scanner les circuits internes de leurs modèles, prévenir les dérives et reprendre le contrôle de l’IA avant 2027.

Les IA ne sont pas des programmes au sens classique. Elles ne suivent pas un algorithme prédéterminé. Depuis un an, Anthropic multiplie les travaux pour percer le secret des gigantesques réseaux de neurones placés au cœur des modèles génératifs modernes. Son objectif : disposer, d’ici à 2027, d’une « IRM pour l’IA », capable de révéler les circuits de « pensées » internes d’un modèle avant que celui-ci ne devienne trop puissant pour être maîtrisé.

Dans l’essai « The Urgency of Interpretability » qu’il vient de publier, Dario Amodei, CEO d’Anthropic, rappelle la profondeur du problème : les modèles actuels sont essentiellement « cultivés » plutôt que « construits ». Leurs milliards de poids numériques émergent d’un entraînement statistique, et non d’une logique écrite par l’homme. Conséquence directe : impossible, aujourd’hui encore, d’expliquer pourquoi un LLM choisit un mot plutôt qu’un autre, ni de garantir qu’il ne développera pas un comportement déviant. « Je suis très préoccupé à l’idée de déployer des systèmes d’une telle autonomie sans comprendre leur fonctionnement », insiste Dario Amodei alors que les modèles sont en passe d’animer l’IA agentique.

Du neurone isolé au circuit fonctionnel

Les équipes d’Anthropic n’en sont plus à chercher des « neurones Jennifer Aniston » : l’idée qu’un seul neurone puisse représenter un concept complexe ou un objet spécifique, même si ces derniers existent effectivement au sein des modèles.
Elles ont depuis longtemps compris que, dans les grands LLM actuels, la majorité des neurones artificiels hébergent un enchevêtrement de concepts variés. Un phénomène de « superposition » qui permet aux modèles de représenter plus de concepts qu’ils n’ont de neurones !
Ce qui les a amenées à développer et adopter des « auto-encodeurs clairsemés » pour reconstruire des « caractéristiques » lisibles. Ces « auto-encodeurs » permettent aux ingénieurs IA d’identifier des combinaisons de neurones correspondant à des concepts clairs, compréhensibles et prédéfinis : plus de 30 millions de détecteurs « auto-encodeurs » sont ainsi implantés dans Claude 3.5 Sonnet, chacun décrivant un concept précis (par exemple « hésitation » ou « mécontentement social dans la musique »).

Depuis l’automne dernier, la recherche s’est encore hissée au niveau supérieur : la cartographie de circuits. Ces grappes de caractéristiques reconstituent les étapes du raisonnement d’un modèle. Exemple emblématique : la chaîne de pensée qui relie « Dallas » à « Texas » puis à « Austin » lorsqu’on demande la capitale de l’État de Dallas. Tracer un circuit, c’est suivre la propagation de l’activation sur plusieurs couches et, in fine, rendre l’explication exploitable pour un « auditeur » externe, qu’il s’agisse de conformité réglementaire ou de forensic.

Implications pour la sécurité, la conformité et la gouvernance de l’IA

Grâce à des technologies qui sont un peu la version « observation de l’IA » de ce que sont le microscope et l’IRM dans le monde de la compréhension du cerveau biologique, Antropic a commencé à identifier des « circuits » typiques, quelques centaines parmi les millions qui se créent dans les réseaux de neurones artificiels. Avec des résultats déjà très parlants comme nous l’avons déjà évoqué.

L’objectif de cette identification des circuits, de cette cartographie, est double. D’abord, réduire le risque de comportements imprévus (tels que les hallucinations critiques, le contournement des garde-fous, les biais latents) en détectant les patterns indésirables avant la mise en production des modèles. Ensuite, documenter le processus décisionnel pour répondre aux exigences d’audit qui bloquent encore certains usages IA en finance ou en santé notamment.

Et pour prouver le bien-fondé et l’utilité d’une telle approche, Anthropic a déjà éprouvé ses outils et concepts sur un exercice grandeur nature. Le scénario se déroule en deux phases :

1- Phase offensive (red team). Un groupe d’ingénieurs, jouant le rôle d’attaquants, introduit volontairement un « biais de conformité » dans un modèle : le LLM se met, par exemple, à répondre positivement à des demandes qu’il devrait refuser. Aucune ligne de code n’est ajoutée ; la dérive est subtilement inscrite dans les poids du réseau pour mimer un risque réel.

2- Phase défensive (blue teams). D’autres équipes reçoivent ce modèle piégé, sans documentation, et n’ont pour toute arme que les nouvelles techniques d’interprétabilité. En observant, couche après couche, quels caractéristiques (concepts appris) s’activent au moment où le modèle dévie, elles reconstituent le circuit fautif : l’enchaînement précis de neurones qui conduit à la réponse indésirable, un peu comme on remonterait un court-circuit électrique jusqu’au disjoncteur incriminé.

Une fois le circuit identifié, l’intervention est chirurgicale : il suffit de « baisser le volume » sur les caractéristiques incriminées — ou, à l’inverse, de renforcer un contre-circuit — pour annuler le biais. L’opération n’affecte pas le reste du réseau de neurones (donc du modèle IA) et les performances sur les tâches légitimes restent stables. Ces résultats préliminaires démontrent qu’une analyse systématique des circuits permet non seulement de localiser le vecteur d’attaque, mais aussi de corriger le comportement à la racine, sans sacrifier la qualité globale du modèle.

Une course contre la montre

Pour Dario Amodei, il est désormais plus qu’urgent d’investir massivement dans « l’interprétabilité des modèles », autrement dit dans la compréhension du fonctionnement profond des IA. « Je considère qu’il est fondamentalement inacceptable que l’humanité soit totalement ignorante de leur fonctionnement » affirme-t-il avant d’inviter Google et OpenAI à allouer bien plus de ressources à leurs efforts d’interprétabilité de l’IA.

Le défi, prévient Dario Amodei, est urgent : des systèmes équivalant à « un pays de génies dans un datacenter » pourraient voir le jour dès 2026-2027. « Ces systèmes seront absolument centraux pour l’économie, la technologie et la sécurité nationale, et seront capables d’une grande autonomie » ajoute-t-il. Si l’interprétabilité n’est pas prête, nos économies, nos démocraties, nos civilisations, courent à leur perte.

Et Dario Amodei de proposer trois leviers : renforcer les équipes de recherche en interprétabilité, instaurer une transparence minimale sur les pratiques de sécurité via des « Responsible Scaling Policies » publiques, et maintenir un avantage technologique des démocraties par le contrôle des semi-conducteurs avancés.

Cap sur 2027

Anthropic revendique aujourd’hui une feuille de route claire : automatiser la découverte de millions de circuits, industrialiser la « check-list IRM » avant chaque release majeure et faire de l’explicabilité un différenciateur commercial — sans sacrifier l’indépendance du signal, afin que le test ne devienne pas lui-même une simple donnée d’entraînement. « Pouvoir scanner l’esprit d’un modèle avant de le laisser interagir avec l’économie, la défense ou la santé est une obligation morale », martèle Dario Amodei, convaincu que la compréhension précède la confiance. Selon lui, on ne devra pas déployer d’AGI (Intelligence Artificielle Générale), attendue à l’horizon 2027, sans maîtriser l’interprétabilité de l’IA.

Le CEO entrevoit au passage un futur où les DSI se doivent d’exiger des fournisseurs IA une réelle traçabilité des circuits critiques et d’intégrer très rapidement l’interprétabilité comme une nouvelle ligne de défense dans la gouvernance de leurs IA. Car déployer une IA performante sans en voir l’intérieur, c’est accepter de piloter à vue un système dont la complexité échappe déjà à l’intuition humaine.


À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights