HADOOP

Hadoop, Plate-forme Big Data

Hadoop est une plate-forme open source (fondation Apache) qui s’impose comme un quasi-standard sur le marché des solutions Big Data. Hadoop a été conçu pour gérer des volumes de données considérables, tant structurées que non structurées, dans un environnement distribué.



C’est Google qui est à l’origine de cette plate-forme hadoop. Les travaux de Google sur cette plate-forme ont ensuite été poursuivis dans un cadre Open Source. Yahoo! a également beaucoup contribué à faire évoluer cette plate-forme pour en faire un environnement de développement complet pour les entreprises.

Voici le schéma des différents composants de la plate-forme Hadoop :

Hadoop par lebigdata.com
Plate-forme Hadoop pour données Big Data

Hadoop Big Data a pour objectif de gérer de gros volumes de données hétérogènes, composées de données structurées et non structurées. Cette plate-forme est capable de réaliser des calculs complexes, statistiques notamment, sur de grandes quantités de données. Elles répond par exemple aux besoins des entreprises du web pour dégager des tendances fortes du marché à partir des recherches effectuées par les internautes.

Hadoop peut effectuer ses traitements de données dans une architecture distribuée sur de nombreux serveurs distants, utilisant la capacité de stockage et de calcul de chacun d’eux, et c’est là un de ses principaux points forts : le regroupement de serveurs en cluster pour accroître ses capacités de traitement. Hadoop assure une haute disponibilité des données et sait pallier les défaillances éventuels de serveurs à travers un système de réplication des données. La brique MapReduce au sein de Hadoop a pour rôle de piloter la répartion des traitements sur les serveurs, et d’en récupérer les résultats sous une forme condensée.


A lire aussi : Architecture HDFSMapReduceEntreprises Big Data

Hadoop Big Data