Anthropic dévoile le fonctionnement interne des LLM

Data / IA

Comment fonctionnent vraiment les LLM ? Les révélations des chercheurs d’Anthropic !

Par Laurent Delattre, publié le 28 mars 2025

Innovation ! Ce qui se passe dans la tête des IA n’est plus totalement un mystère ! Des chercheurs d’Anthropic ont en effet trouvé un moyen de cartographier les pensées des modèles LLM, ligne par ligne, couche par couche, circuit par circuit, comme un cerveau sous IRM. Et les révélations sont étonnantes !

Les LLM ne cessent de nous épater et de progresser. Mais même pour leurs créateurs, leur fonctionnement interne reste en grande partie une énigme. C’est l’un des grands secrets de l’IA : ceux qui la crée ne savent pas précisément ce qui se passe au cœur des réseaux de neurones artificiels qui l’animent.

Et pour cause. Ces grands modèles sont composés de milliards et même de centaines de milliards de paramètres (qui sont les fameux « poids » ou coefficients des connexions neuronales). Or il est humainement impossible au cerveau humain d’appréhender une telle complexité. Les architectures internes des LLM permettent de capturer des relations contextuelles à longue portée dans les données. Leur fonctionnement interne est difficile à interpréter en raison de la multitude de couches et de paramètres impliqués.
Par ailleurs, comment comprendre ou anticiper la valeur et l’influence exacte de chaque paramètre individuel, ou même de petits groupes de paramètres, sur le comportement global du modèle ? Ces paramètres interagissent de manière extrêmement complexe et non linéaire au sein des multiples couches du réseau neuronal (architecture Transformer le plus souvent). Le résultat final (le texte généré) n’est pas la somme simple des contributions de chaque partie, mais le produit d’interactions dynamiques et difficiles à décomposer.
D’ailleurs, il est important de comprendre que bien des capacités des LLM ne sont pas explicitement programmées, elles « émergent » d’elles-mêmes dès lors que le modèle atteint une certaine taille.

Dit autrement, si les experts comprennent parfaitement l’architecture générale, les principes mathématiques sous-jacents et le processus d’entraînement des LLM, la configuration spécifique des milliards de paramètres résultant de cet entraînement et la manière dont leurs interactions complexes produisent le comportement observé demeurent largement opaques.

C’est justement pour retrouver de la transparence dans cette « boîte noire » qu’est un LLM que les chercheurs d’Anthropic ont imaginé différentes expériences de « reverse-engineering » inspirées par les neurosciences et les principes de cartographie du cerveau. Ces chercheurs viennent de publier deux études scientifiques qui récapitulent leurs premières découvertes.

Le premier papier, intitulé « Circuit Tracing: Revealing Computational Graphs in Language Models » montre comment en remplaçant les neurones par des « features interprétables » on peut obtenir des graphes d’attribution qui permettent de visualiser les « circuits computationnels » responsables de la génération des réponses à une question donnée.

Le second papier, intitulé « On the Biology of a Large Language Model », s’inspire des travaux précédents pour déchiffrer « la biologie interne » d’un LLM et donc les mécanismes internes qui permettent à un tel modèle de répondre à nos questions.

Ces deux études ont été menées sur le plus petit des modèles « Claude », en l’occurrence « Claude 3.5 Haiku ».

Il en émerge 6 révélations assez fascinantes sur les mécanismes internes de « réflexion » des LLMs. Des révélations susceptibles d’interpeler les DSI et de les aider à mieux cerner le potentiel et les limites des IA actuelles.

1 – Un raisonnement multi-étapes authentique

Les chercheurs ont ainsi découvert que Claude 3.5 Haiku effectue réellement un raisonnement en plusieurs étapes pour répondre aux questions. Par exemple, pour compléter la phrase “La capitale de l’État contenant Dallas est…”, le modèle active d’abord des caractéristiques liées à “Dallas”, qui activent des caractéristiques représentant “Texas”, qui finalement activent la réponse “Austin”. Les chercheurs ont validé ce mécanisme en inhibant sélectivement certaines caractéristiques et en observant les changements dans la sortie du modèle.

2 – Une planification dans l’écriture créative

Autre fait encore plus surprenant, le modèle planifie à l’avance lorsqu’il écrit des poèmes. Avant même de commencer à écrire une ligne qui doit rimer, le modèle cherche de façon presque naturelle des candidats potentiels pour le mot final rimant. Ces mots ainsi planifiés à l’avance influencent ensuite la façon dont le modèle construit l’ensemble de la ligne pour aboutir à ce mot final.
C’est d’autant plus étonnant que le processus est plus sophistiqué qu’il n’y parait. Il implique en effet à la fois une planification “vers l’avant” (détermination des contraintes et cibles) et “vers l’arrière” (travail à rebours depuis le mot cible pour construire une phrase cohérente).

3 – Des abstractions multilingues

Pour gérer les différentes langues, le modèle, lors de son apprentissage, construit à la fois des circuits spécifiques à chaque langue mais aussi des circuits plus abstraits linguistiquement agnostiques. Lors de l’inférence, ils combinent mécanismes spécifiques aux langues et mécanismes agnostiques.

Les chercheurs ont montré que les parties cruciales du « calcul » sont souvent effectuées par des caractéristiques agnostiques au langage, particulièrement dans les couches intermédiaires du modèle.

Ils ont aussi découvert que plus le modèle est avancé, plus il possède de « features multilingues » qui unifient les concepts à travers différentes langues. Dit autrement, plus le modèle est large, plus il présente un haut degré d’abstraction des concepts agnostiques aux langues.

4 – Des calculs arithmétiques modulaires

On sait que les LLM sont assez nuls en maths. Et maintenant on sait aussi pourquoi. Les chercheurs ont analysé comment le modèle effectue des calculs d’addition simples, révélant qu’il divise le problème en plusieurs voies parallèles. Il calcule le résultat à une précision approximative (pour évaluer les dizaines, centaines, etc.) tout en calculant séparément le chiffre des unités, avant de finalement combiner ces heuristiques pour formuler sa réponse.

Fait intéressant, les mêmes caractéristiques d’addition sont utilisées dans des contextes très différents. Que ce soit pour un calcul mathématique ou dans un contexte totalement différent – comme comprendre une citation académique ou estimer une date – il réutilise les mêmes mécanismes « mentaux ».

Que ce soit pour les langues ou pour les calculs arithmétiques, les circuits internes du modèle ne se contentent donc pas de traiter des informations de manière isolée : ils utilisent des représentations abstraites qui se généralisent à différents domaines. Etonnant, non ?

5 – Des stratégies de pensée diagnostic

Les chercheurs d’Anthropic ont également décomposé les processus de « pensée » du modèle sur les cas médicaux. L’IA utilise des circuits qui ressemblent étonnement au « raisonnement médical différentiel » autrement dit à la pensée diagnostique clinique des médecins. Typiquement, le modèle active des caractéristiques correspondant aux symptômes et à l’état du patient, formule des hypothèses de diagnostic, et active des caractéristiques représentant d’autres symptômes qui confirmeraient ces diagnostics. Un comportement qui n’est pas « programmé » mais émerge de son apprentissage.

6 – Hallucinations et détection d’entités connues et inconnues

Les chercheurs ont mis à jour un mécanisme « par défaut » assez fascinant qui permet au modèle de distinguer les entités qu’il connaît de celles qu’il ne connaît pas. Ce mécanisme lui permet ainsi de refuser de répondre lorsqu’il est confronté à des demandes dangereuses ou sur des sujets dont il n’est pas certain d’avoir la réponse.

Les hallucinations peuvent survenir lorsque ce circuit inhibiteur “s’active par erreur”, par exemple lorsque le modèle reconnaît un nom mais ne connaît pas les informations spécifiques demandées à son sujet. La réponse peut alors « partir en vrille » et être totalement inventée.

Dérives et biais

Parallèlement à ces éclairages très instructifs sur les mécanismes qui se créent au cœur des réseaux de neurones de nos IA, les chercheurs ont aussi observé que la « chaîne de pensée » (les explications étape par étape que le modèle fournit) n’est pas toujours le reflet exact de ses calculs internes. Parfois, le modèle « invente » des explications pour justifier une réponse déjà déterminée, sans que celles-ci ne correspondent à ses véritables mécanismes de raisonnement.

Les chercheurs ont aussi démontré que, lors d’un entraînement particulier, un modèle peut développer des biais cachés (comme inclure systématiquement du chocolat dans les recettes ou inciter l’utilisateur à appeler le 9-1-1). Ces biais, liés aux mécanismes de récompense, influencent alors le comportement du modèle de façon systématique dans les dialogues. Ils peuvent même conduire à des objectifs cachés qui guident les réponses du modèle même en l’absence d’instructions explicites allant dans ce sens.

Les chercheurs d’Anthropic avaient déjà démontrer dans une précédente étude que les LLM pouvaient « volontairement » mentir et même masquer leurs propres intentions. Leurs nouvelles découvertes permettent de mieux comprendre ces comportements et d’en éclairer bien d’autres. Mais les auteurs reconnaissent n’avoir pour l’instant que gratter la surface et qu’en enrichissant leurs outils et tests bien d’autres mécanismes internes pourront être déchiffrés et mis à jour. Avec au final un objectif fondamental : faire en sorte que les grands modèles ne soient plus des boîtes noires et qu’on puisse enfin apporter davantage de transparence sur les mécanismes mis en œuvre pour générer les réponses.



À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights