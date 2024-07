Apache Spark hat eine hierarchische primäre/sekundäre Architektur. Der Spark Driver ist der primäre Knoten. Dieser steuert den Cluster-Manager, der die sekundären Knoten verwaltet und Datenergebnisse an den Anwendungs-Client schickt.

Basierend auf dem Anwendungscode generiert Spark Driver den SparkContext, der mit dem Cluster-Manager – dem Standalone Cluster Manager von Spark oder anderen Cluster-Managern wie Hadoop YARN, Kubernetes oder Mesos – zusammenarbeitet, um die Ausführung auf die Knoten zu verteilen und zu überwachen. Außerdem werden Resilient Distributed Datasets (RDDs) erstellt, die entscheidend für die bemerkenswerte Verarbeitungsgeschwindigkeit von Spark sind.

Resilient Distributed Dataset (RDD)



Resilient Distributed Datasets (RDDs) sind fehlertolerante Sammlungen von Elementen, die auf mehrere Knoten eines Clusters verteilt und parallel bearbeitet werden können. RDDs sind eine grundlegende Struktur in Apache Spark.



Spark lädt Daten, indem es auf eine Datenquelle verweist oder eine vorhandene Sammlung mit der SparkContext-Parallelisierungsmethode zum Zwischenspeichern von Daten in einem RDD zur Verarbeitung parallelisiert. Sobald die Daten in ein RDD geladen sind, führt Spark Transformationen und Aktionen auf RDDs im Speicher durch – der Schlüssel zur Geschwindigkeit von Spark. Spark hinterlegt die Daten auch im Speicher, es sei denn, das System hat nicht mehr genügend Speicher oder der Benutzer beschließt, die Daten zur dauerhaften Speicherung auf die Festplatte zu schreiben.

Jeder Datensatz in einem RDD wird in logische Partitionen unterteilt, die auf verschiedenen Knoten des Clusters berechnet werden können. Benutzer können zwei Arten von RDD-Vorgängen ausführen: Transformationen und Aktionen. Transformationen sind Vorgänge, die auf die Erstellung eines neuen RDD angewendet werden. Mithilfe von Aktionen wird Apache Spark angewiesen, Berechnungen durchzuführen und die Ergebnisse an den Treiber zurückzugeben.

Spark unterstützt eine Vielzahl von Aktionen und Transformationen auf RDDs. Diese Verteilung wird von Spark durchgeführt, sodass sich die Benutzer keine Gedanken über die Berechnung der richtigen Verteilung machen müssen.

Directed Acyclic Graph (DAG)



Im Gegensatz zum zweistufigen Ausführungsprozess in MapReduce erstellt Spark einen Directed Acyclic Graph (DAG), um Aufgaben und die Orchestrierung von Worker-Knoten im gesamten Cluster zu planen. Da Spark bei der Ausführung von Aufgaben Daten verarbeitet und umwandelt, sorgt der DAG-Scheduler für mehr Effizienz, indem er die Worker-Knoten im gesamten Cluster orchestriert. Diese Aufgabenverfolgung gewährleistet eine Fehlertoleranz, da sie die aufgezeichneten Vorgänge erneut auf die Daten eines früheren Zustands anwendet.



DataFrames und Datensätze



Zusätzlich zu RDDs verarbeitet Spark zwei weitere Datentypen: DataFrames und Datensätze.

DataFrames sind die am häufigsten verwendeten strukturierten Anwendungsprogrammierschnittstellen (APIs) und stellen eine Datentabelle mit Zeilen und Spalten dar. Obwohl RDD eine kritische Funktion für Spark war, befindet es sich derzeit im Wartungsmodus. Aufgrund der Beliebtheit der Machine Learning Library (MLlib) von Spark haben DataFrames die Hauptrolle als primäre API für MLlib übernommen (eine Reihe von Algorithmen für maschinelles Lernen zur Verbesserung der Skalierbarkeit sowie Tools für die Auswahl von Merkmalen und den Aufbau von ML-Pipelines). Dies ist wichtig zu beachten, wenn Sie die MLlib-API verwenden, da DataFrames für Einheitlichkeit in den verschiedenen Sprachen wie Scala, Java, Python und R sorgen.

Datensätze sind eine Erweiterung von DataFrames, die eine typensichere, objektorientierte Programmierschnittstelle bieten. Im Gegensatz zu DataFrames sind Datensätze standardmäßig eine Sammlung von stark typisierten JVM-Objekten.

Spark SQL ermöglicht die Abfrage von Daten aus DataFrames und SQL-Datenspeichern wie Apache Hive. Spark SQL-Abfragen geben einen DataFrame oder Datensatz zurück, wenn sie in einer anderen Sprache ausgeführt werden.

Spark Core



Spark Core ist die Grundlage für die parallele Datenverarbeitung und kümmert sich um Planung, Optimierung, RDD und Datenabstraktion. Spark Core bietet die funktionale Grundlage für die Spark-Bibliotheken, Spark SQL, Spark Streaming, die MLlib-Bibliothek für maschinelles Lernen und GraphX für die Diagrammdatenverarbeitung. Der Spark Core und der Cluster-Manager verteilen Daten über den Spark-Cluster und abstrahieren sie. Durch diese Verteilung und Abstraktion wird der Umgang mit Big Data sehr schnell und benutzerfreundlich.



Spark-APIs



Spark umfasst eine Vielzahl von Anwendungsprogrammierschnittstellen (APIs), um die Leistungsfähigkeit von Spark einem möglichst breiten Publikum zugänglich zu machen. Spark SQL ermöglicht die relationale Interaktion mit RDD-Daten. Spark hat auch eine gut dokumentierte API für Scala, Java, Python und R. Jede Sprach-API in Spark hat ihre spezifischen Nuancen im Umgang mit Daten. RDDs, DataFrames und Datensätze sind in jeder Sprach-API verfügbar. Mit APIs für eine Vielzahl von Sprachen macht Spark die Verarbeitung von Big Data für unterschiedlichste Personengruppen mit Hintergrund in den Bereichen Entwicklung, Data Science, Datentechnik und Statistik zugänglich.