Dev
Un rapport fait le point sur le rôle stratégique croissant des ingénieurs SRE
Par Laurent Delattre, publié le 30 mars 2022
Le nouveau rapport « State of SRE 2022 » trace un paysage des pratiques SRE en entreprise, et décrypte l’évolution du rôle des ingénieurs SRE dans les équipes informatiques.
Disposer de systèmes plus fiables et plus efficaces pour procurer aux utilisateurs des services et applications plus disponibles et plus stables est au cœur des missions de la DSI.
La fiabilité est la clé de tout business. Pour certains, elle est même l’ultime fonctionnalité commune à tout service ou logiciel.
Cette science de la fiabilité porte un nom : Site Reliability Engineering, SRE.
Les ingénieurs SRE combinent des connaissances en développement et des connaissances en administration des systèmes et des infrastructures. Ce qui en fait un profil à part mais bien aligné aux exigences de livraison et déploiement continu qui rythment les démarches DevOps.
Google, qui a popularisé le concept à partir de 2003, décrit l’ingénierie SRE comme un framework permettant de mesurer, hiérarchiser et partager des informations afin d’aider les équipes à trouver le meilleur équilibre entre rapidité de livraison de nouveaux services et prévisibilité du comportement de ces nouveaux services. Objectif : réduire les risques et libérer les ressources d’ingénierie pour des taches ayant plus de valeur ajoutée.
La démarche SRE complète la démarche DevOps : là où DevOps cherche essentiellement à fluidifier la mise en production des codes applicatifs, SRE veille à s’assurer de leur bon fonctionnement une fois déployé et souvent du bon fonctionnement de la chaîne DevOps elle-même. Autrement dit, les SRE sont davantage focalisés sur les tâches opérationnelles de l’infrastructure que sur les tâches de développement des applications (davantage DevOps). Et leur objectif est d’implanter un maximum de métriques et d’automatisations pour surveiller les infrastructures, mesurer le respect des engagements pris, éviter les erreurs humaines et fluidifier davantage les tâches opérationnelles et les chaînes DevOps.
Un nouveau rapport « State of SRE 2022 » – sponsorisé par Dynatrace et s’appuyant sur une enquête indépendante auprès de 450 ingénieurs SRT – tente de faire un point sur les pratiques SRE et l’évolution du rôle des ingénieurs SRE dans les équipes informatiques.
Sans surprise, le rapport relate l’importance stratégique croissante des ingénieurs SRE : pour 88% des répondants, leur rôle est aujourd’hui bien mieux compris et assimilé qu’il y a trois ans.
Selon les rapporteurs, le SRE évolue vers un rôle plus stratégique, visant à équiper les équipes de développement des outils, des données et des capacités dont elles ont besoin pour favoriser les pratiques modernes de développement et l’innovation.
« La fiabilité, l’expérience et la sécurité sont devenues des facteurs clés de succès, dans un monde où la moindre seconde d’indisponibilité suffit à faire perdre des revenus, baisser la valeur des actions et nuire durablement à la réputation d’une marque. La SRE est ainsi devenue essentielle pour accélérer la transformation digitale » , explique Bernd Greifeneder, Fondateur and CTO de Dynatrace.
20% des entreprises utilisent SRE depuis plus de 5 ans et en ont des pratiques avancées alors que 42% des entreprises l’utilisent depuis 2 à 5 ans et s’estiment encore en phase d’acquisition de maturité.
Réduire le temps moyen de résolution des incidents (le MTTR) demeure la priorité numéro 1 des ingénieurs SRE pour 67% des participants.
Mais une partie très importante de leur temps est également consacré à la construction et à l’entretien des codes d’automatisation. Les SRE utilisent principalement l’automatisation pour réduire les vulnérabilités de sécurité (61%) et les défaillances applicatives (57%), accélérer le rythme de livraison (56%) et prévoir les infractions aux SLO avant qu’elles ne se produisent (55%).
La résolution des problèmes de sécurité figure aussi dans le top 3. Ce n’est guère étonnant, la sécurité étant un pilier de la fiabilité. D’ailleurs 68% des SRE s’attendent à ce que leur rôle en matière de sécurité devienne toujours plus central à l’avenir. Comme le rappellent les rapporteurs, « la vulnérabilité Log4J découverte en décembre illustre bien comment des bibliothèques de codes tiers peuvent contenir des risques de sécurité majeurs et combien le rôle des équipes SRE est aujourd’hui clé pour s’assurer que ces failles sont identifiées et éliminées rapidement ».
On notera au passage que plus de la moitié des SRE affirment accorder un temps significatif à influencer les décisions de design des architectures et donc à échanger avec les équipes de développement de sorte à ce que de bonnes pratiques de fiabilité, résilience et montée en charge soient mises en place très tôt dans les processus.
Mais la donnée la plus surprenante de ce rapport est que 99% des répondants rencontrent les plus grandes difficultés à définir des SLO (Service Level Objectives). Définir des métriques est au cœur du rôle des SRE. Cette difficulté apparemment très universelle à définir et implémenter des objectifs de niveaux de services pour les applications et les infrastructures doit interpeler les DSI comme les responsables métiers. Selon le rapport, elle s’explique par un trop grand nombre de sources de données (selon 64% des répondants), la difficulté à trouver les indicateurs les plus pertinents (pour 54% des répondants) et l’incapacité des outils de monitoring à définir et suivre les performances de niveaux de service (pour 36% des SRE).
De façon plus générale, ce défi posé par la définition des SLO est complexifié par la difficulté à rapprocher « objectifs métiers » et « mesures techniques ». Comprendre ce que sont réellement les niveaux de service attendus par les métiers reste d’ailleurs un défi d’autant que les perceptions des niveaux de service à atteindre changent d’une unité Business à l’autre. L’étude montre d’ailleurs que pour 68% des ingénieurs SRE interrogés, le fonctionnement en silos des équipes et la multiplication des outils empêchent la définition d’une version unique de la réalité des niveaux de service au sein de l’entreprise.
Pour terminer, on notera que 85% des SRE interrogés estiment que leur capacité à adapter leurs pratiques SRE dépendra des capacités d’automatisation et d’IA de leur entreprise. Pour les SRE, l’AIOps permet aux équipes d’automatiser davantage de processus essentiels pour vérifier que les niveaux de service sont continuellement atteints (64%), de prioriser les problèmes ayant le plus grand impact sur la satisfaction des utilisateurs (63%) et de prioriser les vulnérabilités de sécurité pour minimiser les temps d’indisponibilité (62%).
Pour Bernd Greifeneder, « la plupart des organisations manquent encore de maturité dans l’adoption de pratiques SRE… Les ingénieurs SRE sont encore trop accaparés par des tâches manuelles et des efforts inutiles, ce qui constitue un frein majeur pour les organisations. Ils doivent trouver un “Golden Path”, un ensemble d’étapes que les équipes de développement peuvent suivre pour mieux gérer la complexité des livraisons dans le cloud, surmonter les obstacles et déployer leur plein potentiel d’innovation digitale. »
Source : State of SRE Report: 2022 Edition | Dynatrace
À lire également :
> Les mainframes survivent en s’inscrivant dans les tendances DevOps et AIOps.
> Vers l’observabilité et au-delà : comment avoir une visibilité ininterrompue à travers le cloud.
> Comment faire décoller DevOps ?
> DevOps : de la philosophie aux outils
> Comment l’agile peut déployer une application auprès de 150 000 utilisateurs en 6 mois…
> Le jargon technique que tout DSI doit maîtriser.
> Management Agile : maîtriser les leviers technologiques
> Dynatrace étend l’AIOps vers les services open source