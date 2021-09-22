Apache Spark (Spark) verarbeitet problemlos große Datensätze und ist ein schnelles, universelles Cluster-System, das sich gut für PySpark eignet. Es ist darauf ausgelegt, das Maß an Rechengeschwindigkeit, Skalierbarkeit und Programmierbarkeit zu bieten, das für Big Data erforderlich ist – insbesondere für Streaming-Daten, Diagrammdaten, Analysen, maschinelles Lernen, die Verarbeitung großer Datenmengen und Anwendungen der künstlichen Intelligenz (KI).

Die Analytics Engine von Spark verarbeitet Daten 10 bis 100 Mal schneller als einige Alternativen für kleinere Workloads, wie z. B. Hadoop. Die Skalierung erfolgt durch die Verteilung von Verarbeitungsworkflows auf große Computer-Cluster mit integrierter Parallelität und Fehlertoleranz. Es umfasst sogar APIs für Programmiersprachen, die bei Datenanalysten und Data Scientists beliebt sind, darunter Scala, Java, Python und R.

Spark wird oft mit Apache Hadoop verglichen, und insbesondere mit Hadoop MapReduce, der nativen Datenverarbeitungskomponente von Hadoop. Der Hauptunterschied zwischen Spark und MapReduce besteht darin, dass Spark die Daten verarbeitet und für nachfolgende Schritte im Arbeitsspeicher aufbewahrt – ohne sie auf die Festplatte zu schreiben oder von ihr abzulesen –, was zu deutlich schnelleren Verarbeitungsgeschwindigkeiten führt. (Mehr Informationen darüber, wie Spark im Vergleich zu Hadoop abschneidet und es ergänzt, finden Sie weiter unten in diesem Artikel).

Spark wurde 2009 im AMPLab der UC Berkeley entwickelt. Heute wird es von der Apache Software Foundation verwaltet und verfügt mit über 1.000 Mitwirkenden über die größte Open-Source-Community im Bereich Big Data. Es ist auch eine Kernkomponente mehrerer kommerzieller Big-Data-Angebote.

