DOSSIERS

Hadoop, la technologie idéale pour analyser l’inconnu

Par La rédaction, publié le 22 février 2012

La boîte à outils taillée pour l’analyse d’énormes volumes de données non structurées incarne à elle seule le concept de big data. Zoom sur le type d’analyse privilégié par Hadoop.

Hadoop répond à deux besoins spécifiques. « Celui, d’une part, d’un traitement massif des données n’ayant pas de schéma clair, et de leur transformation vers un format plus structuré. La construction d’un index de page web, par exemple », explique Charles Zedlewski, vice-président produit de Cloudera. L’autre usage concernant ce que la start up qualifie « d’analytique avancée », c’est-à-dire l’élaboration de modèles prédictifs (lutte contre la fraude, type de publicité à proposer en ligne…) dans des environnements changeants.

Eric Baldeschwieler, PDG d’Hortonworks

Historiquement, les entreprises sont obligées d’agréger un minimum leurs données de détail pour être en mesure de conserver, par exemple, un historique des ventes le plus ancien possible. Seulement, si le contexte dans lequel les transactions ont été opérées (nouvelle structure de l’entreprise ou nouvelle classification des produits) est chamboulé, les analyses ne peuvent plus être rejouées. « Le fait d’avoir agrégé des données interdit tout retour en arrière. Hadoop, lui, donne la possibilité de conserver toutes les données de détail et de simuler des scénarios »,  indique pour sa part Eric Baldeschwieler, le PDG d’Hortonworks, concurrent de Cloudera. Plus généralement, le stockage de données de bas niveau rend les utilisateurs libres d’explorer des axes auxquels ils n’auraient pas pensé initialement. Sur ce point, Hadoop se rapproche des offres de décisionnel « en mémoire » qui, elles non plus, n’exigent pas de configurer « dans le dur » les axes d’analyse.

Jack Norris, vice-président marketing de MapR

Autre atout indéniable : l’élaboration des algorithmes. Avec Hadoop et ses traitements hautement distribués, ces algorithmes peuvent être appliqués et testés sur la totalité des données stockées. Ces très gros volumes (des millions de fichiers) garantissant la pertinence des algorithmes. C’est une mini révolution pour Jack Norris, vice-président marketing de MapR, troisième jeune pousse spécialisée : « Dans les approches traditionnelles qui utilisent des bases SQL, les algorithmes sont construits avec des échantillons de données. Et plus cet échantillon est important, plus le coût de l’analyse est élevé. Il croît même de manière exponentielle. »

L’équation des partisans d’Hadoop est donc la suivante : l’argent dépensé pour nettoyer et organiser les données avant l’élaboration du modèle prédictif, ou encore pour enrichir sans cesse les algorithmes, quitte à embaucher pour cela des compétences très pointues, peut être économisé en stockant ses données massivement dans Hadoop.

Hadoop reste ancré sur les processus différés

A l’inverse, ne demandez pas à Hadoop de réaliser des transactions financières à la milliseconde. Ce socle technologique reste profondément ancré sur les traitements différés. Par ailleurs, son processus d’alimentation de données, bien que récemment amélioré, manque de souplesse (car bien trop séquentiel). Ne vous attendez pas non plus à le voir réaliser des opérations relevant de la Business Intelligence (BI) classique. « L’analyse opérationnelle des ventes de la semaine par zone et par produit reste plus adaptée au sein d’un datawarehouse classique », reconnaît Charles Zedlewski qui envisage Hadoop comme un socle d’archivage pour les entrepôts de données.

Dans l'actualité

Verified by MonsterInsights