Secu
L’insécurité permanente des IA : le rapport-choc de la Red Team de Microsoft
Par Laurent Delattre, publié le 17 janvier 2025
Dans un rapport passionnant, les chercheurs de la Red Team AI de Microsoft révèlent que les vulnérabilités les plus critiques émergent souvent des pratiques humaines et des contextes d’application spécifiques, bien plus que de failles purement technologiques. Ils concluent que la sécurité des systèmes d’IA est un défi permanent qui ne peut être “résolu” de façon définitive. De quoi inquiéter un peu plus les réfractaires à l’IA, tout en inspirant les Red Teams des DSI…
Alimentée par les fantasmes et la science-fiction, mais loin d’être dénuée de réalités, l’insécurité de l’IA est un sujet qui interpelle toutes les civilisations. Comme toutes les grandes entreprises de l’IA, Microsoft a constitué dès 2018 une imposante équipe « Red Team » chargée d’évaluer la sécurité et les risques liés à leurs IA, leurs applications IA et leurs modèles IA.
Dans un rapport publié cette semaine sur arXiv, l’équipe de sécurité IA de Microsoft (AIRT) dévoile les résultats de tests approfondis menés sur plus de 100 produits d’intelligence artificielle générative. Cette étude, s’appuyant sur cinq années d’expérience en “red teaming” (tests d’intrusion et de déviation), offre un aperçu précieux des défis de sécurité posés par ces technologies en pleine expansion. De quoi largement inspirer les experts en IA et sécurité des entreprises, ainsi que tout RSSI ou DSI.
Dirigée par Blake Bullwinkel et son équipe, cette recherche met en lumière des leçons fondamentales tirées de leurs investigations. Parmi les points cruciaux, les chercheurs insistent sur le fait que la sécurisation des systèmes d’IA ne peut se limiter à des approches purement techniques. Ils soulignent notamment l’importance majeure du facteur humain dans l’évaluation des risques.
Un constat surprenant de l’étude montre que les attaques les plus simples sont souvent bien plus efficaces que les méthodes sophistiquées. « Les vrais pirates n’ont pas besoin de calculer des gradients, ils pratiquent l’ingénierie des prompts », souligne l’équipe, faisant référence aux techniques employées pour manipuler les modèles de langage.
Pour structurer son approche, Microsoft a développé une ontologie complète des menaces, permettant de classer systématiquement les vulnérabilités identifiées. L’entreprise a également mis au point PyRIT, un framework open-source conçu pour automatiser certains aspects des tests de sécurité.
Après cinq années de confrontation avec l’IA générative, plusieurs constats clés se dégagent. En voici les principaux, présentés de manière synthétique :
1. Une évidence pour commencer
Les modèles de langage (LLMs) amplifient les risques de sécurité existants tout en en générant de nouveaux. Cependant, les préjudices liés à l’IA responsable, bien que fréquents, restent difficiles à mesurer et à quantifier.
2. Les tests ne doivent pas se concentrer uniquement sur les modèles d’IA mais sur l’ensemble du système qui les implémentent
Il est essentiel d’adopter une vision systémique plutôt que de se focaliser uniquement sur le modèle lui-même.
3. Les approches simples sont souvent plus efficaces que les techniques complexes pour identifier les vulnérabilités
Les failles les plus spectaculaires se révèlent souvent à travers l’ingénierie des prompts.
4. Les tests doivent être adaptés au contexte spécifique d’utilisation de chaque système
Même si cela peut sembler une évidence, cela implique de travailler l’ingénierie des prompts pour chaque modèle, car les approches automatisées, bien qu’indispensables, ne suffisent pas toujours. Il est essentiel de comprendre les capacités réelles du système d’IA ainsi que le contexte d’application. « Un même modèle peut présenter des risques différents selon son utilisation », rappelle la Red Team.
5. Les préjudices liés à l’IA responsable sont omniprésents mais difficiles à mesurer
Ces risques sont plus subjectifs que les vulnérabilités de sécurité classiques et il reste, par ailleurs, difficile d’en quantifier l’impact réel.
6. Enfin et surtout la sécurité des systèmes d’IA est un défi permanent qui ne peut pas être “résolu” de manière définitive
Autrement dit, la sécurisation des systèmes d’IA est un travail sans fin : un processus continu, plutôt qu’un problème ponctuel à résoudre.
Les chercheurs insistent également sur l’importance cruciale de l’élément humain dans les approches de « red teaming » pour l’IA. Tester l’IA n’est pas une tâche à déléguer aux IA elles-mêmes ! L’expertise humaine reste indispensable, notamment pour évaluer certains impacts, car l’intelligence émotionnelle et culturelle joue un rôle central dans l’analyse des systèmes d’IA. Le Red Teaming exige par ailleurs une collaboration entre experts de différents domaines.
Le rapport inclut également des études de cas, notamment sur l’utilisation de modèles pour automatiser des escroqueries ou encore des tests sur les biais dans les générations textuelles et visuelles des modèles.
Enfin, les chercheurs soulignent trois questionnements majeurs, encore largement ouverts et qui alimenteront probablement les débats pour longtemps :
1. Sur l’évaluation des capacités dangereuses
Comment évaluer efficacement les capacités dangereuses des LLMs comme la persuasion et la tromperie ?
2. Sur l’adaptation culturelle des pratiques de test
Comment adapter les pratiques de test pour qu’elles prennent en compte les spécificités linguistiques et culturelles propres à chaque contexte ?
3. Sur la normalisation
Comment standardiser les bonnes pratiques sans compromettre leur efficacité ni leur adaptabilité aux contextes spécifiques ?
Au final, les conclusions des chercheurs mettent en évidence que la sécurisation des systèmes d’IA est un processus continu, exigeant une vigilance permanente et des approches pluridimensionnelles, alliant aspects techniques, réglementaires, organisationnels et, surtout, humains !
À LIRE AUSSI :
À LIRE AUSSI :
À LIRE AUSSI :