Was ist Apache Hadoop?
IBM Newsletter abonnieren
Person sitzt am Schreibtisch und benutzt einen Laptop

Apache Hadoop ist ein Open-Source-Software-Framework, das mithilfe einfacher Programmiermodelle eine äußerst zuverlässige verteilte Verarbeitung großer Datenmengen ermöglicht. Hadoop, bekannt für seine Skalierbarkeit, basiert auf Clustern von Standardcomputern und bietet eine kostengünstige Lösung zum Speichern und Verarbeiten großer Mengen strukturierter, halbstrukturierter und unstrukturierter Daten ohne Formatanforderungen.

Eine Data Lake-Architektur mit Hadoop kann eine flexible Datenverwaltungslösung für Ihre Big Data-Analyse-Initiativen bieten. Da Hadoop ein Open-Source-Softwareprojekt ist und einem verteilten Rechenmodell folgt, kann es niedrigere Gesamtbetriebskosten für eine Big Data Software- und Speicherlösung bieten.

Hadoop kann auch auf Cloud-Servern installiert werden, um die für Big Data erforderlichen Rechen- und Speicherressourcen besser zu verwalten. Führende Cloud-Anbieter wie Amazon Web Services (AWS) und Microsoft Azure bieten Lösungen an. Cloudera unterstützt Hadoop-Workloads sowohl lokal als auch in der Cloud und beinhaltet Optionen für eine oder mehrere Public-Cloud-Umgebungen mehrerer Anbieter.

Das Hadoop-Ökosystem

Das von der Apache Software Foundation entwickelte Hadoop-Framework umfasst:

  • Hadoop Common: Die allgemeinen Dienstprogramme und Bibliotheken, die die anderen Hadoop-Module unterstützen. Auch bekannt als Hadoop Core.

  • Hadoop HDFS (Hadoop Distributed File System): Ein verteiltes Dateisystem zum Speichern von Anwendungsdaten auf handelsüblicher Hardware. Es bietet Datenzugriff mit hohem Durchsatz und eine hohe Fehlertoleranz. Die HDFS-Architektur verfügt über einen NameNode zur Verwaltung des Dateisystem-Namespace und Dateizugriffs sowie mehrere DataNodes zur Verwaltung des Datenspeichers.

  • Hadoop YARN: Ein Framework zur Verwaltung von Cluster-Ressourcen und zur Planung von Jobs. YARN steht für „Yet Another Resource Negotiator“. Es unterstützt mehr Workload, wie interaktives SQL, erweiterte Modellierung und Echtzeit-Streaming.

  • Hadoop MapReduce: Ein YARN-basiertes System zur parallelen Verarbeitung großer Datenmengen.

  • Hadoop Ozone: Ein skalierbarer, redundanter und verteilter Objektspeicher, der für Big Data-Anwendungen entwickelt wurde.
Unterstützung von Apache-Projekten

Erweitern Sie Hadoop mit zusätzlichen Open-Source-Softwareprojekten.

Ambari

Ein webbasiertes Tool zur Bereitstellung, Verwaltung und Überwachung von Hadoop-Clustern.

Avro

Ein System zur Datenserialisierung.

Mehr zu Avro
Cassandra

Eine skalierbare NoSQL-Datenbank, die so konzipiert ist, dass es keinen Single Point of Failure gibt.

Chukwa

Ein Datenerfassungssystem zur Überwachung großer verteilter Systeme, basierend auf HDFS und MapReduce.

Flume

Ein Dienst zum Sammeln, Aggregieren und Verschieben großer Mengen von Streaming-Daten in HDFS.

HBase

Eine skalierbare, nicht relationale, verteilte Datenbank, die strukturierte Datenspeicher für sehr große Tabellen unterstützt.

Mehr zu HBase
Hive

Eine Data Warehouse-Infrastruktur für Datenabfragen und -analysen in einer SQL-ähnlichen Schnittstelle.

Mahout

Eine skalierbare Bibliothek für maschinelles Lernen und Data Mining.

Oozie

Ein Java-basierter Workload Scheduler zur Verwaltung von Hadoop-Jobs.

Pig

Eine High-Level-Datenflusssprache und ein Ausführungs-Framework für parallele Berechnungen.

Sqoop

Ein Tool zum effizienten Übertragen von Daten zwischen Hadoop und strukturierten Datenspeichern wie relationalen Datenbanken.

Submarine

Eine einheitliche KI-Plattform zum Ausführen von maschinellem Lernen und Deep Learning-Workloads in einem verteilten Cluster.

Tez

Ein verallgemeinertes Datenfluss-Programmier-Framework, das auf YARN basiert; wird im Hadoop-Ökosystem angewandt, um MapReduce zu ersetzen.

ZooKeeper

Ein leistungsstarker Koordinationsdienst für verteilte Anwendungen.

Hadoop für Entwickler

Apache Hadoop wurde in Java geschrieben, aber je nach Big Data-Projekt können Entwickler in der Sprache ihrer Wahl programmieren, beispielsweise in Python, R oder Scala. Mit dem enthaltenen Hadoop-Streaming-Dienstprogramm können Entwickler MapReduce-Jobs mit jedem Skript oder jeder ausführbaren Datei als Mapper oder Reducer erstellen und ausführen.

Spark vs. Hadoop

Apache Spark wird oft mit Hadoop verglichen, da es sich ebenfalls um ein Open-Source-Framework für die Verarbeitung großer Datenmengen handelt. Tatsächlich wurde Spark ursprünglich entwickelt, um die Verarbeitungsleistung zu verbessern und die mit Hadoop MapReduce möglichen Berechnungstypen zu erweitern. Spark verwendet In-Memory-Verarbeitung, was bedeutet, dass es wesentlich schneller ist als die Lese-/Schreibfunktionen von MapReduce.

Während sich Hadoop am besten für die Stapelverarbeitung großer Datenmengen eignet, unterstützt Spark sowohl die Stapelverarbeitung als auch die Echtzeit-Datenverarbeitung und ist ideal für Streaming-Daten und Diagrammberechnungen. Sowohl Hadoop als auch Spark verfügen über Bibliotheken für maschinelles Lernen, aber auch hier ist das maschinelle Lernen von Spark aufgrund der In-Memory-Verarbeitung viel schneller.

Mehr zu Apache Spark
Hadoop-Anwendungsfälle

Bessere datengesteuerte Entscheidungen: Integrieren Sie Echtzeit-Datenstreaming (Audio, Video, Social-Media-Sentiment- und Clickstream-Daten) und andere halbstrukturierte und unstrukturierte Daten, die nicht in einem Data Warehouse oder einer relationalen Datenbank verwendet werden. Umfassendere Daten ermöglichen genauere Entscheidungen.

Verbesserter Datenzugriff und verbesserte Datenanalyse: Ermöglichen Sie den Self-Service-Zugriff in Echtzeit für Ihre Data Scientists, Bereichsleiter und Entwickler. Hadoop kann Data Science vorantreiben, ein interdisziplinäres Feld, das Daten, Algorithmen, maschinelles Lernen und KI für erweiterte Analysen nutzt, um Muster aufzudecken und Vorhersagen zu treffen.

Datenauslagerung und -konsolidierung: Optimieren Sie die Kosten im Data Warehouse Ihres Unternehmens, indem Sie „kalte“ Daten, die derzeit nicht verwendet werden, zur Speicherung in eine Hadoop-basierte Verteilung verschieben. Oder konsolidieren Sie Daten im gesamten Unternehmen, um die Zugänglichkeit zu erhöhen und die Kosten zu senken.

Weiterführende Lösungen
{Generic product category label} IBM und Cloudera

Unterstützen Sie prädiktive und präskriptive Analysen für die heutige KI. Kombinieren Sie die Hadoop-Distribution der Enterprise-Klasse von Cloudera mit einem Ökosystem integrierter Produkte und Dienste von IBM und Cloudera, um die Datenerkennung, das Testen sowie Ad-hoc- und nahezu Echtzeit-Abfragen zu verbessern. Nutzen Sie die Zusammenarbeit zwischen IBM und Cloudera, um Hadoop-Lösungen für Unternehmen bereitzustellen.

IBM und Cloudera kennenlernen

{Generic product category label} IBM® Db2 Big SQL

Verwenden Sie eine auf Unternehmen abgestimmte hybride, ANSI-konforme SQL-on-Hadoop-Engine, die eine Parallelverarbeitung im großen Stil (MPP) und erweiterte Datenabfrage ermöglicht.

Mehr zu Db2 Big SQL

{Generic product category label} IBM Big Replicate

Replizieren Sie Daten schon beim Einströmen, sodass Dateien vor der Übertragung nicht vollständig geschrieben oder geschlossen werden müssen.

Big Replicate kennenlernen
Open-Source-Datenbanken

Profitieren Sie von Big Data mit Open-Source-Datenbanken führender Anbieter wie MongoDB und EDB kostengünstiger.

Open-Source-Datenbanken erkunden

Ressourcen IBM + Cloudera

Erfahren Sie, wie Sie fortschrittliche Analysen mit einem sicheren, verwalteten, Open-Source-basierten Data Lake der Unternehmensklasse vorantreiben können.

Wie Sie mehr Daten vernetzen

Fügen Sie Ihrer Datenverwaltungsstrategie einen Data Lake hinzu, um mehr unstrukturierte Daten für neue Erkenntnisse zu integrieren.

Ein robuster, verwalteter Data Lake für KI

Lernen Sie die Speicher- und Governance-Technologie kennen, die Ihr Data Lake benötigt, um KI-fähige Daten bereitzustellen.

Data Lake-Governance

Erfahren Sie, wie bewährte Governance-Lösungen zu einer besseren Integration, Qualität und Sicherheit für Ihren Data Lake führen können.

Kurse zur Big Data-Analyse<br> <br>

Treffen Sie auf der Basis Ihres Kenntnisstands Ihre Auswahl aus kostenlosen Kursen in Data Science, KI, Big Data und mehr.

Open-Source-Community

Treten Sie der IBM Community für Open-Source-Datenverwaltung bei und profitieren Sie von Zusammenarbeit, Ressourcen und mehr.

Machen Sie den nächsten Schritt

IBM und Cloudera haben sich zusammengetan, um mithilfe des Open-Source-Ökosystems hochwertige Daten- und KI-Dienste der Enterprise-Klasse zu schaffen – alle darauf ausgelegt, schnellere Daten und Analysen im großen Maßstab zu ermöglichen. Erstellen Sie gemeinsam Modelle, die Sie auf Streamingabläufe anwenden und mit denen Sie riesige Datenmengen in Echtzeit analysieren können. Holen Sie aus Ihren Daten – unstrukturierter Text, Video, Audio, Geodaten und Sensoren – Informationen heraus, damit Sie Chancen und Risiken erkennen können, sobald sie entstehen.

Lösungen für IBM und Cloudera kennenlernen