Apache Spark (Spark) traite facilement des jeux de données à grande échelle et est un système de clustering rapide et polyvalent qui convient parfaitement à PySpark. Il est conçu pour offrir la vitesse de calcul, l’évolutivité et la programmabilité requises pour le big data, en particulier pour les données en continu, les données graphiques, l’analytique, le machine learning, le traitement de données à grande échelle et les applications d’intelligence artificielle (IA).

Le moteur d’analyse de Spark traite les données 10 à 100 fois plus rapidement que certaines autres solutions comme Hadoop pour les charges de travail plus petites. Il monte en charge en répartissant les workflows sur de grands clusters d’ordinateurs, avec un parallélisme et une tolérance aux pannes intégrés. Il comprend même des API pour les langages de programmation populaires parmi les analystes de données et les data scientists, notamment Scala, Java, Python et R.

Spark est souvent comparé à Apache Hadoop, et plus particulièrement à Hadoop MapReduce, le composant natif de traitement des données d’Hadoop. La principale différence entre Spark et MapReduce réside dans le fait que Spark traite et conserve les données en mémoire pour les étapes ultérieures, sans écrire sur le disque ni lire à partir du disque, ce qui se traduit par des vitesses de traitement considérablement plus rapides. (Vous trouverez plus d’informations sur la façon dont Spark se compare à Hadoop et le complète dans cet article.)

Spark a été développé en 2009 au sein de l’AMPLab de l’Université de Californie à Berkeley. Aujourd’hui, il est géré par l’Apache Software Foundation et compte la plus grande communauté open source dans le domaine du big data, avec plus de 1 000 contributeurs. Il est également inclus en tant que composant central de plusieurs offres commerciales de big data.

