DOSSIERS

Pourquoi tous les spécialistes de la donnée convoitent Hadoop

Par La rédaction, publié le 22 février 2012

La boîte à outils taillée pour l’analyse d’énormes volumes de données non structurées incarne à elle seule le concept de big data. Concept qui suscite l’intérêt de tous les acteurs amenés à stocker et à analyser des données.

Ne pas rester en marge du mouvement ! Depuis un an environ, un nombre impressionnant d’éditeurs et de constructeurs se sont positionnés sur le big data. Qu’ils soient spécialisés dans les systèmes de stockage, l’intégration de données, les datawarehouses, le décisionnel ou le prédictif, on ne compte plus aujourd’hui ceux dont le portefeuille de produits s’est enrichi d’une brique Hadoop.

Une position défensive des éditeurs d’entrepôts de données

Premiers d’entre eux, les fournisseurs d’entrepôts de données. Le datawarehouse devient le réceptacle des traitements effectués par la base Hadoop sur des données non structurées. Nous avions déjà évoqués les initiatives de Teradata et d’IBM. Microsoft s’inscrit dans la même approche en s’associant avec Hortonworks, une des start up pionnière dans le big data. Sa pile Hadoop sera ainsi intégré à SQL Server, son datawarehouse « en boîte » (Parallel Data Warehouse ) ainsi qu’à son offre cloud (Windows Azure). Ces spécialistes de la base de données, et en particulier du datawarehouse, voient donc Hadoop comme le complément idéal à leur offre. Même si leur démarche peut aussi être interprétée comme une posture défensive.

Romain Chaumais, cofondateur de la SSII Ysance

Avec Hadoop, la question du remplacement des infrastructures existantes se pose réellement. Prenons l’exemple d’un système décisionnel traditionnel dont l’entrepôt de données pèserait 7 téraoctets. Si chaque jour, il doit absorber 1 téraoctet de données nouvelles, l’équation économique risque d’être très salée. Car cette capacité d’injection ne peut être assurée que par des datawarehouses haut de gamme, et donc très coûteux. Là où Hadoop, lui, avec son système d’écriture distribué, est idéal, et bien moins cher.

Mais bien d’autres familles de fournisseurs lorgnent sur Hadoop. A commencer par les spécialistes du stockage, qui voient en lui une aubaine pour vendre plus de disques. Ainsi, en juillet 2010, EMC rachetait Greemplum, un fournisseur de datawarehouse, qu’il a enrichi en 2011 avec la distribution Hadoop de la jeune pousse MapR. Plus récemment, son concurrent Netapp signait, lui, avec la start up Cloudera.

Côté applications, en revanche, les stratégies semblent diverger. Si Oracle vient de s’associer avec le même Cloudera pour bâtir un appliance Hadoop, SAP reste concentré sur son système de stockage en mémoire (baptisé Hana) censé répondre aux enjeux du big data. Tout en laissant sa filiale Sybase se rapprocher d’Hadoop… Son entrepôt de données, Sybase IQ, vient en effet de s’ouvrir au modèle de distribution Map Reduce (au cœur Hadoop).

Le décisionnel n’est pas en reste

Hadoop ne laisse pas non plus indifférent les spécialistes de l’intégration de données tels qu’Informatica ou Talend. Lesquels doivent non seulement récupérer et charger des données dans et depuis Hadoop, mais surtout distribuer ces traitements selon la logique de parallélisation de Map Reduce.

Enfin, au somment de l’infrastructure décisionnelle, les outils de restitution doivent être en mesure d’interroger Hadoop. Certains éditeurs spécialisés le font nativement, comme Karmaspehere ou Datameer. D’autres, tels que Jaspesoft ou Tableau Software, viennent d’annoncer le support d’Hadoop. A quand le tour des acteurs historiques du décisionnel ? 

Dans l'actualité

Verified by MonsterInsights