Data / IA
Stratégie data et Green IT : comment travailler la sobriété de vos données ?
Par Marie Varandat, publié le 21 mars 2023
Face au volume de données qui ne cesse d’exploser et aux contraintes écologiques, les entreprises vont devoir adopter des approches plus responsables. Pour réduire l’empreinte environnementale de la data, elles doivent non seulement apprendre à l’exploiter avec sobriété, mais surtout à la partager.
En janvier dernier, le Cigref a publié un intéressant rapport intitulé « Gouvernance et Architecture Data & Analytics – Elaborer et mettre en œuvre la stratégie data ». Véritable mode d’emploi élaboré à partir de la synthèse de diverses approches des contributeurs au groupe de travail « Gouvernance et architecture data », il passe en revue toutes les étapes d’une bonne stratégie… en omettant toutefois la composante Green IT.
On ne peut que regretter cet oubli de taille ! D’autant que comme le soulignait une étude menée par Splunk en 2020, le volume des données numériques stockées devrait être multiplié par 5 entre 2019 et 2025 en France.
À l’heure où les entreprises cherchent à réduire l’empreinte environnementale du numérique, cette explosion des données va à l’encontre des stratégies de sobriété, car qui dit plus de données, dit aussi plus d’infrastructures de stockage et de traitements.
Aussi, pour compléter l’étude du Cigref, nous vous proposons ici quelques pistes de réflexion pour réduire l’empreinte environnementale des données.
Mieux maitriser et exploiter son capital de données
L’ère Big data, et plus récemment l’essor de l’IA, ont entrainé les entreprises dans des cercles peu vertueux : de peur de passer à côté d’une donnée qui pourrait s’avérer indispensable un jour ou de n’avoir pas suffisamment de données pour entrainer un modèle, elles ont massivement engrangé la data.
Data & Sobriété : Il faut privilégier le recyclage de la donnée plutôt que systématiquement chercher à en engranger toujours davantage.
Nicolas Faret, DSI Adjoint, Randstad France
Du point de vue financier, cette stratégie pouvait se justifier par un cout du stockage en nette diminution ces dernières années. Mais aujourd’hui, les entreprises ne peuvent plus se permettre de faire abstraction du cout environnemental de ces approches.
Ainsi que le souligne Nicolas Faret, DSI Adjoint, Innovation, SI Opérationnel & Solutions Digitales pour Randstad France, il faut envisager la problématique de la data sous ce nouvel angle et privilégier le recyclage et la réutilisation au lieu de chercher à en engranger toujours plus : « Plutôt que de chercher forcément à recruter de nouveaux talents, autrement dit des intérimaires en ce qui nous concerne, il serait plus judicieux de chercher à identifier les profils déjà actifs dans notre base… ».
Privilégier la qualité et l’accessibilité
Parallèlement, avec son approche « Data Centric AI », Andew NG, chercheur américain dans le domaine de l’apprentissage automatique et de la robotique, met en évidence le fait que l’on peut améliorer de façon significative les scores d’une IA en travaillant sur la qualité des données, plutôt que sur la quantité. Ce modèle de développement permettrait même de créer des IA plus robustes et généralisables, capables de s’adapter à différents scénarios. Il suppose toutefois une ingénierie rigoureuse des données ainsi qu’une infrastructure qui facilite l’accès et le partage.
Instructif, le rapport du Cigref conseillant les entreprises sur la mise en place d’une stratégie data évoque bien l’importance de la qualité de la Data mais passe sous silence son rôle dans la sobriété numérique, un volet totalement oublié par ce rapport. Et c’est bien dommage.
De fait, en IA comme en analytique, la quantité ne compense jamais l’absence de qualité. À moins de vouloir prendre des risques inconsidérés. Il est donc plus que jamais essentiel dans une perspective de Green IT, mais aussi d’optimisation des développements, de travailler la qualité des données afin de ne conserver que ce qui est vraiment essentiel.
De la même façon, la donnée brute doit être accessible, de sorte que les utilisateurs puissent y accéder pour réaliser leurs développements et/ou analyses sans avoir à créer des bases intermédiaires (de type datamart par exemple), consommatrices de ressources. Autrement dit, pour une donnée plus verte, les entreprises doivent travailler l’urbanisation de leur data afin de limiter les redondances. Ces approches s’appuient sur des solutions de type data Hub, data catalogue pour découvrir et exposer les jeux de données disponibles, virtualisation, etc.
Développer frugal
L’éco-conception s’applique aussi aux infrastructures data, notamment en termes de gestion de cycle de vie de la donnée. Typiquement, les applications alimentent des fichiers logs qui peuvent rapidement prendre une taille considérable. Or, au bout d’une semaine, une grande partie de ces données devient obsolète. Une solution qui purge automatiquement ces fichiers évite la consommation inutile de stockage.
De la même façon, les processus ETL peuvent être optimisés de façon à limiter leur consommation en ressources : chargements incrémentaux limités aux données vivantes (modifiés depuis le dernier chargement), meilleure utilisation de la mémoire en évitant de charger toutes les données avant un tri, etc.
À LIRE AUSSI :
Plusieurs bonnes pratiques peuvent également être appliquées aux requêtes SQL : requêtage des lignes et colonnes réellement “utiles”, indexation des colonnes des tables les plus utilisées pour rendre les requêtes plus performantes lors des chargements de données, optimisation de la syntaxe SQL pour réduire la consommation de ressources du moteur de calcul, etc.
Prises individuellement, ces bonnes pratiques DBA pèsent souvent peu sur l’empreinte environnementale de la data. Mais, mises bout à bout, elles permettent de la réduire de façon significative surtout quand elles sont appliquées à des téraoctets ou des pétaoctets de données.
Développer des écosystèmes de partage
Enfin, dernier point et non des moindres, « les écosystèmes au sein desquels les entreprises se partagent des données répondent parfaitement aux contraintes du Green IT », estime Marion Gardais, directrice du centre d’excellence pour l’IA et la DATA chez Capgemini pour la région Europe du Sud. « Malheureusement la plupart des entreprises ne sont pas prêtes. Elles ont beaucoup de mal à passer du modèle auto-centré – je suis propriétaire des données que je manipule, je les achète ou je les vends – à un modèle collaboratif autour de la donnée avec un ensemble d’acteurs ».
« les écosystèmes au sein desquels les entreprises se partagent des données répondent parfaitement aux contraintes du Green IT »
Marion Gardais,
directrice du centre d’excellence pour l’IA et la DATA chez Capgemini
Et c’est bien dommage, car ces écosystèmes permettraient de réduire de façon significative des données stockées de part et d’autre : plutôt que de chercher à tout centraliser, les entreprises entrent dans un modèle collaboratif, chacune proposant un accès sécurisé à des jeux de données qu’elle accepte de partager. Dès lors, on évite les données dupliquées à gogo par une multitude d’entreprises pour être stockées en interne. « Le frein est bien évidemment culturel, estime Marion Gardais. Néanmoins, on commence à voir émerger ces écosystèmes, plus pour des raisons business que dans un objectif d’optimisation environnementale ».
De fait, selon l’étude « Collaborative Data Ecosystems – Succeed beyond your frontiers » de Capgemini, les entreprises qui s’engagent dans le partage de données au sein d’écosystèmes pourraient accroitre leur chiffre d’affaires de 9%.
Preuve que la sobriété numérique en matière de données peut aussi être payante…
À LIRE AUSSI :