Data / IA
Mesurer la valeur économique des données
Par La rédaction, publié le 02 juillet 2018
Les données représentent l’un des actifs majeurs de toute entreprise. Mais sont-elles sujettes à une dépréciation comme tout actif ? Ou bien prennent-elles de la valeur à l’instar d’une oeuvre d’art ? Aussi étonnant que cela puisse paraître, la réponse est oui aux deux questions.
Pour mesurer la valeur des données, nous pouvons appliquer certains principes économiques simples. Par exemple, nous savons, d’après les prévisions dans le secteur de l’informatique, que le volume des données numériques produites est bien supérieur à l’espace de stockage acheté.
Pourquoi cette situation ? En termes simples, certaines données sont produites, mais non stockées. L’application d’une simple courbe d’offre et de demande (source : IDC Digital Universe, Recode) fournit une partie de l’explication.
La courbe « offre » représente la capacité de stockage. Cette capacité est disponible à différents niveaux de tarifs, mais il existe un seuil minimal de prix. La courbe « demande » correspond aux données produites. Ces données créent une demande de capacité de stockage. Elles sont conservées tant que leur valeur reste supérieure à leur coût de stockage et d’accès. Ce qui peut se traduire par l’équation suivante : Valeur des données (t) ≥ (Sc + Mc + Ac)/Go/an × Duree de conservation
En clair, la valeur des données en fonction du temps doit être supérieure à la somme du coût des infrastructures réseau, de traitement et de stockage (Sc), du coût de maintenance des données et de l’infrastructure (Mc) et du coût d’accès aux données (Ac). Par souci de normalisation entre les environnements IaaS cloud et non-cloud, toutes les mesures sont calculées par unité (Go) et par an. Ce coût est lui-même fonction du temps, comme le mesure la durée de conservation des données.
Bien entendu, dans le monde réel, l’équation n’est pas tout à fait aussi simple. Le coût de stockage et de maintenance des données dépend de leur durée de conservation obligatoire, de la nécessité ou non de les protéger et de les sécuriser, etc. La conservation des données présente également un risque accru d’atteinte à leur sécurité ou encore de perte ou de dégradation dans le temps.
Problème : comment définir la valeur des données ? Il s’agit en fait de la valeur que celles-ci génèrent pour l’entreprise à la suite de leur utilisation ou de leur analyse, d’une manière ou d’une autre. En outre, il existe une corrélation entre le volume des données conservées, leur niveau d’accessibilité et leur valeur. Par exemple, une grande quantité de données leur donne plus de valeur si leur utilisation dépend d’une tendance historique, ou si, dans le cadre du machine learning, elle rend les algorithmes d’apprentissage plus performants.
La zone située sous la courbe représente le volume des données créées, mais non stockées, car leur valeur est jugée inférieure au coût de leur conservation. Si nous partons de l’hypothèse que les utilisateurs conserveraient la totalité des données numériques qu’ils produisent s’ils en avaient la possibilité, alors l’objectif est d’éliminer cette zone sous la courbe. Dans ce but, il nous faut faire baisser le coût de stockage et de maintenance des données et/ou augmenter leur valeur.
Que faire ensuite de cette mesure de la valeur des données ? En ce qui concerne l’infrastructure, je propose de focaliser les solutions sur l’optimisation de la mesure de valeur des données, plutôt que sur une mesure plus spécifique à l’infrastructure, par exemple le prix au gigaoctet, l’efficacité énergétique ou le coût mensuel d’interconnexion. Cela favorisera l’innovation dans les solutions d’infrastructure, dans deux directions distinctes : la réduction du coût total de possession (TCO), d’une part, et une plus grande facilité d’accroissement de la valeur des données, d’autre part. Les fonctionnalités en jeu peuvent porter sur l’indexation et la recherche, des interfaces analytiques intégrées, le transfert des données, etc.
Je pense que les entreprises doivent commencer par appliquer leurs propres critères de mesure afin d’établir la valeur de leurs données. Traditionnellement, elles ont surtout procédé ainsi pour pouvoir en mesurer l’évolution dans le temps, en partant du principe que les données plus anciennes ont moins de valeur, car faisant l’objet d’accès moins fréquents. Or ce principe n’est plus valable et la fréquence d’accès aux données n’est pas le critère le plus pertinent de leur valeur : mieux vaut prendre en compte le produit de leur analyse.
Ryan Taylor, Director ActiveScale EMEA, Western Digital
Une version de cet article a été publiée en anglais dans Network World from IDG