Apache Spark (Spark) gestisce facilmente set di dati su larga scala ed è un sistema di clustering veloce e generico adatto a PySpark. È progettato per offrire la velocità computazionale, la scalabilità e la programmabilità necessarie per i big data, in particolare per lo streaming di dati, dati grafici, analytics, machine learning, elaborazione dei dati su larga scala e applicazioni di intelligenza artificiale (AI).

L'analytics engine di Spark elabora i dati da 10 a 100 volte più velocemente rispetto ad alcune alternative, come Hadoop per i workload più piccoli. La scalabilità si ottiene distribuendo i workflow di elaborazione su grandi cluster di computer, con parallelismo e tolleranza ai guasti integrati. Include anche API per i linguaggi di programmazione più utilizzati da analisti di dati e data scientist, tra cui Scala, Java, Python e R.l

Spark viene spesso messo a confronto con Apache Hadoop e, in particolare, con Hadoop MapReduce, il componente nativo per l'elaborazione dei dati di Hadoop. La differenza principale tra Spark e MapReduce è che Spark elabora e mantiene i dati in memoria per i passaggi successivi, senza scrivere sul disco o leggerlo, il che si traduce in velocità di elaborazione notevolmente più elevate. (Sempre in questo articolo troverai ulteriori informazioni sul raffronto tra Spark e Hadoop e il loro utilizzo congiunto.)

Spark è stato sviluppato nel 2009 presso l'AMPLab della UC Berkeley. Oggi è gestito dalla Apache Software Foundation e vanta la più grande community open source di big data, con oltre 1.000 collaboratori. È anche incluso come componente principale di diverse offerte commerciali di big data.

