Secu
6 leçons de la panne Crowdstrike faussement attribuée à Microsoft
Par Laurent Delattre, publié le 22 juillet 2024
Vendredi 19 juillet, le monde a été totalement paralysé si l’on en croit les médias. En pratique, c’est surtout le secteur de l’aéronautique, certaines chaînes TV, certaines chaînes industrielles – mais aussi malheureusement quelques hôpitaux – qui ont réellement été touchés. Un plantage « mondial » – bien qu’il ait impacté à peine 1% des PC actifs – causé par une mise à jour du client EDR « Falcon » de Crowdstrike sous Windows. Un incident riche en leçons…
Les titres étaient gros et la ficelle aussi : « Le bug mondial de Microsoft », « La panne géante de Microsoft », « Panne informatique mondiale chez Microsoft », « Une panne géante affecte les services de Microsoft dans le monde », « Microsoft, une longue histoire de couacs »… Chez Microsoft, les responsables de la communication doivent désormais tous être chauves depuis Vendredi. Se voir ainsi accusé par des médias reprenant un peu trop vite des informations mal comprises et réalisant des amalgames malheureux pour faire du sensationnel, il y a de quoi s’arracher les cheveux.
Car Microsoft n’y est vraiment pas pour grand-chose dans le « fantastique » fiasco de son concurrent dans le domaine de l’EDR : Crowdstrike. Un fiasco que trop de médias ont fait se retourner contre Microsoft, un peu trop facilement et certainement injustement.
Pour rappel, Vendredi matin, un défaut dans une mise à jour du logiciel Falcon de Crowdstrike sous Windows a déclenché un écran bleu et empêché les PC mis à jour de redémarrer, les machines souffrant d’un écran bleu provoqué par la protection EDR de Crowdstrike. La mise à jour concernant uniquement les machines Windows, les versions Mac et Linux de Crowdstrike n’ont pas été impactées.
Leçon 1 : Ne jamais faire de mise à jour un Vendredi !
Tous les DSI le savent… On ne fait jamais de mise à jour une veille de Week-End. Surtout quand ce Week-End est un Week-End de grands départs en vacances et quand ce Week-End est celui qui précède l’ouverture des Jeux Olympiques…
À bien y réfléchir, Crowdstrike aurait eu bien du mal à choisir un pire « Vendredi » en 2024 que celui de la semaine dernière. Certes, la cybersécurité n’attend pas, mais une mise à jour d’un composant d’aussi bas niveau à ce moment-là, c’est l’assurance du chaos. Pour être tout à fait honnête, le plantage est lié à des fichiers de configuration qui sont chargés par une protection de bas niveau. C’est un fichier de configuration corrompu qui fait planter le capteur logiciel Falcon et engendre l’effondrement du système. Or ces mises à jour mineures de fichiers de configuration se font plusieurs fois par semaine, voire plusieurs fois par jour, jusqu’ici sans incident notable. Mais il manque probablement une étape dans la chaîne de tests de l’éditeur de cybersécurité. Ou alors, chez Crowdstrike, on a tout simplement oublié la Loi de Murphy : « Tout ce qui est susceptible de mal tourner tournera mal »… Un pilier de l’informatique…
Leçon 2 : En cas de doute, re-re-re-re…-re-boot !
C’est un vieil adage de l’univers Windows. Il fait aussi écho au fameux « Have you turned it off and on again? » de la série The IT Crowd. Contrairement aux affirmations de certains, Windows embarque bien des mécanismes pour se protéger des « choses malvenues » qui l’empêche de démarrer. Quand un boot se passe mal, l’OS essaye de déterminer ce qui l’empêche de démarrer et isole le fichier qu’il pense fautif. Dans le cadre du bug Crowdstrike, certains DSI et utilisateurs ont récupéré la main sur la machine en réalisant plusieurs reboots successifs (jusqu’à 15), le temps pour Windows de détecter le bon élément fautif…
Leçon 3 : Les bonnes idées tournent parfois mal
Les outils de cybersécurité qui protègent les postes de travail et serveurs tendent à s’installer au plus bas niveau possible pour mieux surveiller et contrer les menaces. Apple a toujours verrouillé ses systèmes pour interdire de telles pratiques. Dans l’univers Windows, lorsque Microsoft a aussi tenté de verrouiller cet accès bas niveau au système en 2009 (tout en lançant son propre antivirus), la Commission Européenne lui a imposé – suite à des plaintes portées par les éditeurs d’antivirus – d’ouvrir cette API à ses concurrents. Cette décision a empêché Microsoft de régner en seul maître sur la sécurité de Windows. Et c’est une bonne chose. Mais sans un tel accès bas niveau, un bug chez Crowdstrike n’aurait jamais eu la même répercussion sur le système d’exploitation et sur le monde !
Leçon 4 : Il existe un outil de récupération
Windows propose aux utilisateurs de créer une clé de récupération. C’est une bonne idée non seulement d’accepter cette préconisation mais surtout de garder cette clé à portée de mains. En l’occurrence avec elle, se dépêtrer de la situation bloquante était une opération relativement aisée (une simple commande pour effacer le fichier fautif). Par ailleurs, suite à « l’incident Crowdstrike », Microsoft a enrichi et réédité l’outil Microsoft Recovery Tool. Il permet de redémarrer un PC inbootable depuis une clé USB ou un CD (ou un fichier ISO si on cherche à redémarrer une VM) soit en mode Sans-Echec (très utile pour ceux qui n’ont pas de clés Bitlocker sous la main), soit sous WinPE (un environnement Windows minimaliste). Un outil que tout utilisateur Windows et tout administrateur de parc informatique devrait avoir sous la main : New Recovery Tool to help with CrowdStrike issue impacting Windows endpoints
Leçon 5 : Réagir vite en 2024 se chiffre en millions
Il a fallu exactement 1 heure et 18 minutes à Crowdstrike pour découvrir le problème, l’analyser et bloquer la mise à jour défectueuse. Durant ce temps, près de 8,5 millions de machines Windows ont été impactées par cette mise à jour défaillante. Cela représente moins de 1% du nombre de PC actifs dans le monde. Mais il est fort probable que cela représente une part considérable des machines protégées par Crowdstrike, une compagnie qui compte 29.000 entreprises clientes.
Selon IDC, Crowdstrike possédait en 2023 une part de marché de plus de 18% des outils de sécurisation des endpoints d’entreprise. C’est le second plus grand éditeur cybersécurité derrière Microsoft (et ces 26% de parts de ce marché).
Leçon 6 : Tout est interconnecté et interdépendant
Il suffit de planter 8,5 millions de machines dans le monde pour considérablement impacter des pans industriels complets ou un secteur donné. Il est – en un sens – surprenant de voir à quel point le trafic aérien mondial a été impacté par cet incident.
Cela démontre à quel point aujourd’hui, tous les acteurs d’un même écosystème sont interdépendants et comment finalement tous les business sont plus ou moins interconnectés.
L’incident Crowdstrike doit inviter chaque DSI et RSSI à se reposer la question non seulement de leur propre résilience mais aussi de la résilience du domaine dans lequel leur société opère. Cet incident est aussi un entraînement face aux risques d’une cyberattaque mondiale. Une mise à l’épreuve avant les JO ?
Il sera intéressant de voir quels enseignements Crowdstrike tirera de ce chaos, quelles mesures l’éditeur mettra en place. Il lui faudra faire preuve de transparence pour sauver son image et retrouver la confiance de ses clients.
Il sera aussi intéressant de voir quels enseignements et quelles parades Microsoft tirera d’une telle débâcle médiatique et de ce chaos technologique. Pointer le doigt vers les décisions européennes comme a pu le faire maladroitement un porte-parole, n’est certainement pas la bonne approche.
Enfin, il faudra aussi se méfier dans les prochains jours de la récupération de l’incident par les cybercriminels qui ne manqueront pas de surfer sur cet épisode pour mener toutes sortes d’attaques de phishing et de diffusion de faux outils de réparation.
À LIRE AUSSI :
À LIRE AUSSI :
À LIRE AUSSI :