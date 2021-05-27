Tags
Hadoop vs. Spark: Was ist der Unterschied?

Die jeweiligen Architekturen von Hadoop und Spark, wie diese Big-Data-Frameworks in verschiedenen Kontexten und Szenarien abschneiden, die am besten zu jeder Lösung passen.

Hadoop und Spark, beide von der Apache Software Foundation entwickelt, sind weit verbreitete Open-Source-Frameworks für Big Data-Architekturen. Jedes Framework enthält ein umfangreiches Ökosystem von Open-Source-Technologien, die Big-Data-Sets vorbereiten, verarbeiten, verwalten und analysieren.

 

 

Was ist Apache Hadoop?

Apache Hadoop ist ein Open-Source-Software-Dienstprogramm, das es Nutzern ermöglicht, große Big Data-Sätze (von Gigabyte bis Petabyte) durch ein Netzwerk von Computern (oder „Knoten“) zu verwalten, um umfangreiche und komplexe Datenprobleme zu lösen. Es handelt sich um eine hochskalierbare, kosteneffiziente Lösung, die strukturierte, semistrukturierte und unstrukturierte Daten speichert und verarbeitet (z. B. Internet-Klickstream-Daten, Webserver-Logs, IoT-Sensordaten usw.).

Zu den Vorteilen des Hadoop-Frameworks gehören die folgenden Nutzen:

  • Datenschutz bei Hardwareausfall
  • Enorme Skalierbarkeit von einem einzelnen Server auf Tausende von Maschinen
  • Echtzeitanalyse für historische Analysen und Entscheidungsfindung

Was ist Apache Spark?

Apache Spark – das ebenfalls Open Source ist – ist eine Datenverarbeitung für Big Data. Wie Hadoop teilt Spark große Aufgaben auf verschiedene Knoten auf. Es ist jedoch in der Regel schneller als Hadoop und verwendet RAM (Random Access Memory) zum Zwischenspeichern und Verarbeiten von Daten anstelle eines Dateisystems. Dadurch kann Spark Anwendungsfälle verarbeiten, die Hadoop nicht kann.

Vorteile des Spark-Frameworks umfassen folgendes:

Das Hadoop-Ökosystem

Hadoop unterstützt fortschrittliche Analysen für gespeicherte Daten (z. B. prädiktive Analyse, Data Mining, maschinelles Lernen (ML) usw.). Es ermöglicht die Aufteilung von Big-Data-Analyseaufgaben in kleinere Teilaufgaben. Die kleinen Aufgaben werden parallel mittels eines Algorithmus (z. B. MapReduce) ausgeführt und dann über einen Hadoop-Cluster verteilt (d. h. Knoten, die parallele Berechnungen auf Big-Data-Sets durchführen).

Das Hadoop-Ökosystem besteht aus vier Hauptmodulen:

  1. Hadoop Distributed File System (HDFS): Primäres Datenspeichersystem, das große Datensätze verwaltet, die auf handelsüblicher Hardware ausgeführt werden. Es bietet auch Datenzugriff mit hohem Durchsatz und hohe Fehlertoleranz.
  2. Yet Another Resource Negotiator (YARN) (YARN): Cluster-Ressourcen-Manager, der Aufgaben plant und Ressourcen (z. B. CPU und Speicher) an Anwendungen zuweist.
  3. Hadoop MapReduce: Teilt die Datenverarbeitungsaufgaben in kleinere Aufgaben auf, verteilt die kleinen Aufgaben auf verschiedene Knoten und führt dann jede Aufgabe aus.
  4. Hadoop Common (Hadoop Core): Menge gemeinsamer Bibliotheken und Tools, auf die die anderen drei Module angewiesen sind.

Das Spark-Ökosystem

Apache Spark, das größte Open-Source-Projekt im Bereich Datenverarbeitung, ist das einzige Verarbeitungs-Framework, das Daten und künstliche Intelligenz (KI) kombiniert. Dies ermöglicht es den Nutzern, umfangreiche Datenkonvertierungen und -analysen durchzuführen und anschließend modernste Algorithmen für maschinelles Lernen (ML) und KI auszuführen.

Das Spark-Ökosystem besteht aus fünf Hauptmodulen:

  1. Spark Core: Die zugrundeliegende Ausführungs-Engine, die Aufgaben plant und ausführt sowie Eingabe- und Ausgabeoperationen (I/O) koordiniert.
  2. Spark SQL: Sammelt Informationen über strukturierte Daten, um den Nutzern die Optimierung der Datenverarbeitung zu ermöglichen.
  3. Spark Streaming und Structured Streaming: Beide fügen Stream-Verarbeitungsfunktionen hinzu. Spark Streaming nimmt Daten aus verschiedenen Streaming-Quellen und teilt sie für einen kontinuierlichen Stream in Mikrobatches auf. Strukturiertes Streaming, das auf Spark SQL basiert, reduziert die Latenz und vereinfacht die Programmierung.
  4. Machine Learning Library (MLlib): Ein Satz von Algorithmen für maschinelles Lernen zur Skalierbarkeit plus Werkzeuge zur Funktionauswahl und zum Aufbau von ML-Pipelines. Die primäre API für MLlib ist DataFrames, die Einheitlichkeit über verschiedene Programmiersprachen wie Java, Scala und Python hinweg bietet.
  5. GraphX: Benutzerfreundliche Rechenmaschine, die interaktives Erstellen, Modieren und Analysieren skalierbarer, graphenstrukturierter Daten ermöglicht.

Vergleich von Hadoop und Spark

Spark ist eine Hadoop-Erweiterung von MapReduce. Der Hauptunterschied zwischen Spark und MapReduce besteht darin, dass Spark Daten verarbeitet und für nachfolgende Schritte im Speicher aufbewahrt, wohingegen MapReduce Daten auf der Festplatte verarbeitet. Daher sind bei kleineren Workloads die Datenverarbeitung von Spark bis zu 100-mal schneller als MapReduce (Link befindet sich außerhalb ibm.com).

Außerdem erstellt Spark im Gegensatz zum zweistufigen Ausführungsprozess in MapReduce einen Directed Acyclic Graph (DAG), um Aufgaben und die Orchestrierung von Knoten im Hadoop-Cluster zu planen. Dieser Prozess der Aufgabenverfolgung ermöglicht eine Fehlertoleranz, bei der aufgezeichnete Vorgänge auf Daten aus einem früheren Zustand erneut angewendet werden.

Werfen wir einen genaueren Blick auf die wichtigsten Unterschiede zwischen Hadoop und Spark in sechs entscheidenden Kontexten:

  1. Leistung: Spark ist schneller, weil es Random Access Memory (RAM) verwendet, anstatt Zwischendaten auf Festplatten zu lesen und zu schreiben. Hadoop speichert Daten auf mehreren Quellen und verarbeitet sie in Chargen über MapReduce.
  2. Kosten: Hadoop läuft mit geringeren Kosten, da es für die Datenverarbeitung auf jeden beliebigen Festplattenspeichertyp angewiesen ist. Spark ist teurer, weil es für die Datenverarbeitung in Echtzeit auf In-Memory-Berechnungen angewiesen ist und daher große Mengen an Arbeitsspeicher zum Hochfahren der Knoten benötigt.
  3. Verarbeitung: Obwohl beide Plattformen Daten in einer verteilten Umgebung verarbeiten, ist Hadoop ideal für die Stapelverarbeitung und lineare Datenverarbeitung. Spark ist ideal für die Echtzeitverarbeitung und die Verarbeitung lebender unstrukturierter Datenströme.
  4. Skalierbarkeit: Wenn das Datenvolumen schnell wächst, skaliert Hadoop schnell, um die Nachfrage über das Hadoop Distributed File System (HDFS) zu befriedigen. Im Gegenzug verlässt sich Spark für große Datenmengen auf das fehlertolerante HDFS.
  5. Sicherheit: Spark erhöht die Sicherheit durch Authentifizierung über ein gemeinsames Geheimnis oder Protokollierung, während Hadoop mehrere Authentifizierungs- und Zugriffskontrollmethoden verwendet. Obwohl Hadoop insgesamt sicherer ist, kann Spark mit Hadoop integriert werden, um ein höheres Sicherheitsniveau zu erreichen.
  6. Maschinelles Lernen (ML): Spark ist in dieser Kategorie die überlegene Plattform, da sie MLlib einschließt, das iterative ML-Berechnungen im Speicher durchführt. Es umfasst auch Werkzeuge zur Durchführung von Regression, Klassifizierung, Persistenz, Pipeline-Konstruktion, Evaluierung usw.

Missverständnisse über Hadoop und Spark

Häufige Missverständnisse über Hadoop

  • Hadoop ist günstig: Obwohl es Open Source ist und einfach einzurichten, kann es teuer sein, den Server am Laufen zu halten. Bei der Nutzung von Funktionen wie In-Memory-Computing und Netzwerkspeicherung können die Kosten für Datenverwaltung bis zu 5.000 USD betragen.
  • Hadoop ist eine Datenbank: Obwohl Hadoop zum Speichern, Verwalten und Analysieren verteilter Daten verwendet wird, werden beim Abrufen von Daten keine Abfragen durchgeführt. Das macht Hadoop eher zu einem Data Warehouse als zu einer Datenbank.
  • Hadoop hilft KMUs nicht: „Big Data“ ist nicht exklusiv für „große Unternehmen“. Hadoop verfügt über einfache Funktionen wie Excel-Berichte, die es auch kleineren Unternehmen ermöglichen, die Leistungsfähigkeit von Hadoop zu nutzen. Ein oder zwei Hadoop-Cluster können die Leistung eines kleinen Unternehmens erheblich verbessern.
  • Hadoop ist schwer einzurichten: Obwohl die Verwaltung von Hadoop auf den höheren Ebenen schwierig ist, gibt es viele grafische Benutzeroberflächen (GUIs), die Programmierung für MapReduce vereinfachen.

Häufige Missverständnisse über Spark

  • Spark ist eine In-Memory-Technologie: Obwohl Spark den Least Recently Used (LRU)-Algorithmus effektiv nutzt, ist es selbst keine speicherbasierte Technologie.
  • Spark ist immer 100-mal schneller als Hadoop: Obwohl Spark bei kleinen Workloads bis zu 100-mal schneller als Hadoop sein kann, laut Apache, ist es bei großen Workloads typischerweise nur bis zu 3-mal schneller (Link befindet sich außerhalb von ibm.com ).
  • Spark führt neue Technologien in der Datenverarbeitung ein: Obwohl Spark den LRU-Algorithmus effektiv nutzt und die Datenverarbeitung per Pipeline unterstützt, existierten diese Funktionen bereits in massiv parallelen Verarbeitungsdatenbanken (MPP). Was Spark jedoch von MPP unterscheidet, ist seine Open-Source-Orientierung.

Anwendungsfall von Hadoop und Spark

Auf Grundlage der oben dargestellten vergleichenden Analysen und Fakten veranschaulichen die folgenden Beispiele am besten die allgemeine Benutzerfreundlichkeit von Hadoop im Vergleich zu Spark.

Hadoop-Anwendungsfälle

Hadoop ist am effektivsten für Szenarien, die Folgendes beinhalten:

  • Verarbeitung von Big Data in Umgebungen, in denen die Datengröße den verfügbaren Speicher übersteigt
  • Batch-Verarbeitung mit Aufgaben, die Festplattenlese- und Schreiboperationen ausnutzen
  • Aufbau einer Datenanalyse-Infrastruktur mit einem begrenzten Budget
  • Erledigung von Aufgaben, die nicht zeitkritisch sind
  • Analyse historischer und Archivdaten

Spark-Anwendungsfälle

Spark ist am effektivsten für Szenarien, die Folgendes beinhalten:

  • Umgang mit Ketten paralleler Operationen mithilfe iterativer Algorithmen
  • Schnelle Ergebnisse mit In-Memory-Berechnungen
  • Analyse von Stream-Daten in Echtzeit
  • Graphenparallele Verarbeitung zur Modellierung von Daten
  • Alle ML-Anwendungen

Hadoop, Spark und IBM

IBM bietet mehrere Produkte an, mit denen Sie die Vorteile von Hadoop und Spark nutzen können, um Ihre Datenverwaltung-Initiativen zu optimieren und gleichzeitig Ihre umfassenden Geschäftsziele zu erreichen:

  • IBM Spectrum Conductor ist eine Multi-Tenant-Plattform, die Spark mit anderen Anwendungen auf einem gemeinsamen Cluster von Ressourcen bereitstellt und verwaltet. Spectrum Conductor bietet Workload-Management, Überwachung, Warnmeldungen, Berichte und Diagnosen und kann mehrere aktuelle und unterschiedliche Versionen von Spark und anderen Frameworks gleichzeitig ausführen.
  • IBM Db2 Big SQL ist eine hybride SQL-on-Hadoop-Engine, die eine einzige Datenbankverbindung bietet und fortschrittliche, sicherheitsreiche Datenabfragen über Big Data-Quellen wie Hadoop HDFS und WebHDFS, RDMS, NoSQL-Datenbanken und Speicher liefert. Die Benutzer profitieren von niedrigen Latenzzeiten, hoher Leistung, Datensicherheit, SQL-Kompatibilität und Verbundfunktionen für Ad-hoc- und komplexe Abfragen.
  • IBM Big Replicate vereint Hadoop-Cluster, die auf Cloudera Daten-Hub, Hortonworks Data Platform, IBM, Amazon S3 und EMR, Microsoft Azure, OpenStack Swift und Google Cloud Speicher laufen. Big Replicate bietet einen virtuellen Namespace über Cluster und Cloud Object Storage in beliebiger Entfernung.

