Data / IA
Business Data Lake, le futur du big data ?
Par larédaction, publié le 12 janvier 2016
Christophe Silvestre, Directeur Insights & Data Application Services, Capgemini France
La majorité des entreprises stockent et historisent leurs données selon une modélisation en étoile à structure verticale : ce mode d’organisation des données répond au nom d’Enterprise Data Warehouse (EDW). Ayant l’avantage d’être accessibles et structurées de manière relationnelle, les données organisées selon ce modèle ont cependant l’inconvénient d’être complexes et coûteuses à mettre en place ainsi qu’à faire évoluer. En effet, chaque modification de structure s’avère très onéreuse en ressources machines, et cette organisation verticale rend toute déconstruction problématique.
Aujourd’hui, l’utilisation principale des big data que font les entreprises réside dans l’optimisation du système d’information existant, c’est-à-dire la réduction des coûts IT. Une utilisation que trop partielle de la donnée, quand on se figure l’immensité du marché big data (17,5 milliards d’euros en 2015 selon Transparency Market Research), et les possibilités de création de valeur ajoutée ayant un impact direct sur le business.
En effet, on peut, avec une utilisation ciblée des technologies d’analytics, créer de nouvelles sources de revenus ou de nouveaux marchés, via par exemple l’exploitation de marchés déclinants ou encore la monétisation des données.
Pour aller plus loin, je souhaite vous faire part des enseignements que nous avons tirés d’une étude menée en partenariat avec Pivotal, qui ouvre la voie d’une gestion entièrement nouvelle des informations en entreprise.
La clé en est le Business Data Lake (BDL) qui, pour nous, donne un sacré coup de vieux au système de l’Enterprise Data Warehouse. Son premier point différenciant ? Une organisation horizontale, qui ouvre un nouveau champ des possibles dans l’organisation et la valorisation des données en entreprise. Le « lac de données » voit ses données conservées sur le même plan et sans structure, cette dernière n’étant créée qu’au moment de l’analyse et en fonction de son usage.
L’utilisation de la donnée en entreprise comporte quatre caractéristiques cruciales : sa pertinence, son degré de granularité observable, sa nouveauté (si supérieure à 24 h, la donnée est 20 % moins utile), ainsi que sa conformité et sa qualité.
Opérant selon un schéma décliné en cinq étapes, le BDL tient compte des impératifs susmentionnés. Les données sont absorbées depuis diverses sources et sont ensuite stockées à bas coût. Le BDL va analyser les données pour les transformer en « insights », qui aboutiront à des outils de management. Les enseignements seront ensuite réintégrés dans le BDL, afin d’en optimiser son fonctionnement. Cette réintégration des enseignements va permettre d’en générer de nouveaux, qui seront ensuite réintégrés et raffinés. On se figure donc aisément comment le BDL va pouvoir créer de la valeur de manière continue.
Ce type de stockage permet de conserver tout type de données, y compris celles dont on ignore l’analyse qui leur sera appliquée. La donnée est ainsi conservée de manière brute, autorisant de multiples possibilités d’analyse.
En termes d’application concrète, comment cela fonctionne-t-il ? Prenons le cas de l’Internet des Objets (IoT), qui présente deux challenges majeurs : la vitesse à laquelle les appareils ou objets doivent réagir et être mis à jour (il n’y a en effet aucun intérêt à ce qu’un GPS vous indique votre chemin une fois arrivé à destination), et le volume des données qu’ils doivent traiter.
Avec des millions d’appareils connectés en circulation, on s’imagine l’ampleur des données devant être traitées, et le coût entraîné pour un mode de stockage traditionnel.
Le BDL peut ingérer d’immenses quantités de données à un coût dix fois inférieur que celui de l’EDW.
Le BDL propose également une approche plus sécurisée de la donnée : il peut détecter et empêcher toute tentative de vol de donnée ou de contenu protégé par propriété intellectuelle. Dès lors qu’un salarié va faire une utilisation anormale des données, son champ d’action sera limité et le top-management en sera informé.
En comparaison avec son aïeul EDW, le BDL présente ainsi une multitude d’avantages. Il identifie les besoins locaux de l’entreprise, soit du top-management, soit du manager de l’entrepôt de données, ce qui permet une hiérarchisation optimale des data. Enfin, il délivre un accès global depuis un seul et unique outil, procurant des insights clés au bon endroit et au bon moment. Un avantage compétitif inestimable pour tout décideur qui souhaite gagner en agilité et en time-to-market.