DOSSIERS

Hadoop : une histoire vieille de dix ans

Par La rédaction, publié le 22 février 2012

La boîte à outils taillée pour l’analyse d’énormes volumes de données non structurées incarne à elle seule le concept de big data. Retour sur ses origines, le rôle de Google et celui de Yahoo.

Une des raisons pour lesquelles Hadoop concentre tant l’attention de l’industrie tient à la légitimité qu’il a acquise tout au long de cette décennie. Pour la petite histoire, le succès de Google lui est en partie imputable. En 2001, alors qu’il ne pèse rien sur le marché des moteurs de recherche, le futur géant développe ce qui deviendra les composants phares d’Hadoop.  « Pour stocker, traiter et indexer 5 milliards de pages web, il construit MapReduce, Google Big Table et Google File System. Il exploite ces éléments pendant trois ans, et en fait la description dans une publication académique », raconte Charles Zedlewski, vice-président produit de Cloudera, l’une des start up pionnières dans le big data.

Doug Cutting, fondateur du moteur de recherche open source Lucene

En 2004, un certain Doug Cutting, fondateur du moteur de recherche open source Lucene, qui, à l’époque, planche sur une méthode relativement économique pour indexer en masse des pages web, s’empare des publications de Google, et crée le premier prototype d’Hadoop. Devant le succès de Google, et sa capacité à « avaler » si facilement le web, Yahoo, de son côté, cherche à investir cette technologie. Elle embauche Doug Cutting en 2006, promeut activement Hadoop, le stabilise, et va jusqu’à créer, l’année dernière (en juin 2011), une filiale dédiée à Hadoop : Hortonworks.

Entre-temps (fin 2009), le père d’Hadoop rejoint Cloudera, concurrent frontal d’Hortonworks, qui toutes deux se disputent le titre de plus gros contributeur d’Hadoop. Il faut également compter sur une troisième start up, MapR (créée en même temps que Cloudera, début 2009) qui enrichit Hadoop d’une gestion de stockage propriétaire. 

Ces trois start up ont levé plus de 150 millions de dollars en deux ans. Aujourd’hui, des géants du web tels que Facebook, Twitter, Linkedin ou eBay exploitent Hadoop, lequel, depuis décembre dernier, est entré dans sa version v1.0.0 (qui succède à la v0.22.0).

Dans l'actualité

Verified by MonsterInsights