SPARK

Spark, le nouveau framework Big Data

Spark est un framework open source pour la réalisation de calcul distribué. Spark, ou Apache Spark, était à l’origine un projet développé par AMPLab à Berkeley. Spark est ensuite devenu un projet à part entière de la fondation Apache.



Si Hadoop utilise le modèle d’architecture MapReduce, Spark, lui, travaille directement en mémoire vive, ce qui le rend potentiellement beaucoup plus performant (traitement jusqu’à cent fois plus rapide). Il trouve d’ailleurs de plus en plus d’adeptes à travers le monde pour cette même raison de meilleure performance.

Spark a besoin d’un gestionnaire de cluster, soit Spark lui-même, soit Apache Mesos, soit Hadoop Yarn. Spark a aussi besoin d’un système de stockage distribué comme HDFS (Hadoop Distributed File System), Cassandra, Amazon S3 ou encore OpenStack Swift.



A lire aussi : HadoopArchitecture HDFSMapReduceEntreprises Big Data

Spark, le nouveau framework Big Data