QU’EST-CE QUE LE BIG DATA ?

L’ère des Big Data

Au cours des dix dernières années, l’augmentation massive des données numériques a contraint les chercheurs à trouver de nouvelles façons d’analyser le monde et d’anticiper l’avenir. Le concept «Big Data» est né. Il consiste principalement à stocker une quantité énorme d’informations du monde réel sur un support numérique.


Qu’est-ce que le Big Data ?

Le terme « Big Data » fait référence à un volume très important de données qu’aucun système de gestion et de traitement de données conventionnel ne pouvait véritablement appréhender. Environ 2,5 milliards d’octets de données sont créés chaque jour, des informations provenant de recherches ou d’achats en ligne, de vidéos, d’informations météorologiques, etc. Le terme Big Data se réfère à ces énormes volumes de données. Les grandes entreprises en ligne comme Amazon, Google, Yahoo! et Facebook ont ​​été les premières à développer cette technologie pour leur propre usage.

L’avènement du Big Data est désormais considérée par beaucoup comme une nouvelle révolution industrielle semblable à l’avènement de l’électricité ou de la vapeur au cours du 19ème siècle. Quelle que soit le comparaison, les Big Data peuvent clairement être considérées comme une profonde source de perturbation de notre société moderne.


3Vs des Big Data

Les solutions Big Data doivent pouvoir répondre aux hautes exigences requises par les Big Data : (1) leur énorme volume, (2) la grande variété d’informations qu’elles représentent, à la fois structurées et non structurées, et (3) la vitesse exigée pour être créées, recueillies et distribuées.

Depuis quelques années, les nouvelles technologies mises sur le marché se sont conformées aux 3Vs des Big Data : le volume, la variété et la vitesse. Les technologies de stockage d’abord, en particulier conduisant à l’informatique Cloud. Puis l’arrivée de nouvelles technologies de traitement et de gestion de base de données adaptée aux données non structurées (Hadoop) et les modes de calcul haute performance (MapReduce).

Plusieurs technologies peuvent être nécessaires pour optimiser le temps d’accès aux bases de données volumineuses : comme par exemple les bases de données NoSQL tels que Cassandra ou MongoDB, serveur d’infrastructure pour la distribution des traitements sur les noeuds et le stockage de données en mémoire:

La première solution permet de mettre en œuvre des systèmes de stockage considérés comme plus efficaces que le langage SQL traditionnel pour l’analyse de données de masse.

La seconde est appelée le traitement massivement parallèle. Le framework Hadoop en est un exemple. Celui-ci combine le HDFS système de fichiers distribué, la base HBase NoSQL et l’algorithme MapReduce.

En ce qui concerne ce dernier, il accélère le temps de traitement des requêtes.


Evolution du Big Data

L’arrivée de Spark et la fin de MapReduce

Spark prend progressivement la place de MapReduce : Comme dans toutes les technologies, les Big Data constituent un environnement en perpétuelle évolution. Le paysage technologique évoluant rapidement, de nouvelles solutions s’imposent fréquemment dans le but d’optimiser les technologies existantes. MapReduce et Spark en sont des exemples très concrets.

Développé par Google en 2004, MapReduce est ensuite utilisé pour le projet Nutch de Yahoo!, pour devenir par la suite le projet Apache Hadoop en 2008. Cet algorithme a une grande capacité de stockage de données. Le seul problème est sa relative lenteur particulièrement visible sur les volumes de taille relativement modeste. Malgré cela, des solutions, qui ambitionnent d’offrir des traitements quasi instantanés sur ces volumes commencent à réduire l’influence de MapReduce. En 2014, Google a annoncé qu’il serait remplacé par une solution SaaS appelée Google Cloud Dataflow.

Spark est également une solution symbolique pour l’écriture d’applications distribuées offrant des bibliothèques de traitement classiques. Il est également l’un des projets Apache avec une vitesse de développement rapide. En bref, il s’agit d’une solution qui s’impose comme le successeur de MapReduce, d’autant qu’il présente l’avantage de combiner de nombreux outils nécessaires dans un cluster Hadoop.

L’industrie Big Data a attiré beaucoup d’entreprises, notamment les fournisseurs historiques de solutions logiciels comme Oracle, SAP ou IBM. Les grandes entreprises du web comme Google, Facebook, Twitter. Et des spécialistes du Big Data comme MapR, Hortonworks ou Teradata. En ce qui concerne les intégrateurs, on retrouve les grands noms de ce secteur avec CapGemini, Atos et Accenture. De nombreuses startups émergent rapidement avec en France, Criteo, Squid, Ysance, Hurence, Dataiku… Sans oublier les écoles, universités et organismes de formation qui proposent des cursus partiels ou complets autour de ces technologies Big Data. En savoir plus sur ces entreprises Big Data.

Les professionnels aguerris sur ces technologies Big Data sont encore peu nombreux sur le marché. Et pourtant, la demande des entreprise est grandissante, comme on peut le constater sur les offres d’emploi Big Data en ligne, tant en France que dans le monde.

Pour en savoir plus sur le marché du Big Data, consultez la liste des principales entreprises Big Data.