TECHNOLOGIES

Big Data : Les technologies

Caractéristiques communes aux projets Big Data


– Adaptabilité du SI : On parle aussi de « scalability » du système, c’est-à-dire de sa capacité à répondre à de fortes montées en charge : stockage et analyse de données massives.
– Coût modéré : Pour des raisons évidentes de ROI, le SI doit pouvoir gagner en puissance pour répondre à ces montées en charge mais à un coût abordable. On ne s’étonnera pas de constater que la mise en place de systèmes Big Data s’appuyer sur des serveurs d’entrée ou de milieu de gamme. C’est le nombre de serveurs qui autorise la montée en puissance du SI et pas forcément la puissance de chacun des serveurs.
– L’open source : La plupart des acteurs du Big Data ont converti leur solutions propriétaires en solutions Open Source.
– Tolérance de panne : les SI Big Data sont des environnements distribués sur un grand nombre de serveurs. Ces SI sont conçus pour pallier aux défaillances inévitables dans ce type d’environnement (détection et anticipation des défaillances).

Hadoop, le framework Big Data

Hadoop est un framework ou une plate-forme Open Source. Conçue à l’origine par Google puis développée par Yahoo!, Hadoop est la plate-forme Big Data par excellence. Même si des concurrents frameworks existent bien sur ce marché, Hadoop s’est naturellement imposé comme le framework Big Data de référence pour les très gros volumes de données (projets traitant des volumes le plus souvent supérieurs à 10 teraoctets de données).

Hadoop Distributed File System ou HDFS

HDFS – Hadoop Distributed Data System est un système de fichiers distribués dans lequel chaque serveur dans l’environnement Hadoop héberge une partie des données. HDFS est un système à forte tolérance de panne (réplication des fichiers de données sur plusieurs serveurs voire data centers).


Map/Reduce

Map/Reduce est un composant de Hadoop qui permet la distribution des traitements directement là où se trouve la donnée. La phase de Map sélectionne et organise les données jugées pertinentes pour le traitement, et la phase de Reduce agrége ou consolide les données.

Puissance d’Hadoop

Hadoop combiné à ces deux composants HDFS et Map/Reduce confère à cette architecture distribuée une capacité de traitement exceptionnelle, qui en fait toute sa force. A travers la distribution des données et la parallélisation des traitements, la puissance de traitement de cet environnement Big Data peut être ajustée en augmentant la puissance des serveurs (ou noeud ou cluster). Hadoop démontre tout son intérêt sur de gros volumes de données où peuvent être exploitées à leur maximum toutes ses capacités de traitement.

Distribution d’Hadoop

Il existe plusieurs versions de distribution de Hadoop : version OpenSource (fondation Apache), et versions plus avancées avec support comme Cloudera ou HortonWorks. Les éditeurs de logiciels proposent aussi une solution Hadoop intégrée à leur propre environnement (Oracle, IBM, Microsoft).

Le Big Data représente un véritable écosystème qui évolue en permanence. Il est donc difficile d’en établir une vision exhaustive. A charge pour le lecteur de se documenter directement auprès des acteurs reconnus sur ce marché.

Voir aussi : Architecture Big DataPlate-forme HadoopArchitecture HDFSEntreprises Big Data

Technologies Big Data