Was ist Apache Hadoop?

Was ist Apache Hadoop?

Apache Hadoop ist ein Open-Source-Software-Framework, das von Douglas Cutting entwickelt wurde, der damals bei Yahoo arbeitete. Es ermöglicht mithilfe einfacher Programmiermodelle eine äußerst zuverlässige verteilte Verarbeitung großer Datenmengen.

Hadoop überwand die Skalierbarkeitsbeschränkungen von Nutch. Es basiert auf Clustern von Standardcomputern und bietet eine kostengünstige Lösung zum Speichern und Verarbeiten großer Mengen strukturierter, halbstrukturierter und unstrukturierter Daten ohne Formatanforderungen.

Eine Data Lake-Architektur mit Hadoop kann eine flexible Datenverwaltungslösung für Ihre Initiativen zur Big-Data-Analyse bieten. Da Hadoop ein Open-Source-Projekt ist und einem verteilten Rechenmodell folgt, ermöglicht es budgetfreundliche Preise für eine Big-Data-Software- und Speicherlösung.

Hadoop kann auch auf Cloud-Servern installiert werden, um die für Big Data erforderlichen Rechen- und Speicherressourcen besser zu verwalten. Für mehr Benutzerfreundlichkeit sind der Linux OS Agent, der UNIX OS Agent und der Windows OS Agent vorkonfiguriert und können automatisch gestartet werden. Führende Cloud-Anbieter wie Amazon Web Services (AWS) und Microsoft Azure bieten Lösungen an. Cloudera unterstützt Hadoop-Workloads sowohl lokal als auch in der Cloud und beinhaltet Optionen für eine oder mehrere Public-Cloud-Umgebungen mehrerer Anbieter. Verwenden Sie APIs für die Hadoop-Überwachung, um die Cluster und Services auf den Clustern hinzuzufügen, zu aktualisieren, zu löschen und anzuzeigen sowie für alle anderen Überwachungstypen auf Hadoop.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Das Hadoop-Ökosystem

Das von der Apache Software Foundation entwickelte Hadoop-Framework umfasst:

  • Hadoop Common: Die allgemeinen Dienstprogramme und Bibliotheken, die die anderen Hadoop-Module unterstützen. Auch bekannt als Hadoop Core.

  • Hadoop HDFS (Hadoop Distributed File System): Ein verteiltes Dateisystem zum Speichern von Anwendungsdaten auf handelsüblicher Hardware. HDFS wurde entwickelt, um Fehlertoleranz für Hadoop zu gewährleisten. Es bietet eine hohe aggregierte Datenbandbreite und einen Datenzugriff mit hohem Durchsatz. Standardmäßig werden Datenblöcke beim Laden oder Schreiben über mehrere Knoten repliziert. Der Replikationsgrad ist konfigurierbar: Die Standardreplikation beträgt drei. Die HDFS-Architektur verfügt über einen NameNode zur Verwaltung des Dateisystem-Namespace und Dateizugriffs sowie mehrere DataNodes zur Verwaltung des Datenspeichers. Durch die Aktivierung der Hochverfügbarkeit kann ein zweiter Knoten verwendet werden, wenn ein aktiver Knoten ausfällt.

  • Hadoop YARN: Open Source Apache Hadoop YARN ist ein Framework für die Jobplanung und Cluster-Ressourcenverwaltung, das mit IBM Spectrum Symphony auf Linux und Linux auf POWER verwendet werden kann. YARN steht für „Yet Another Resource Negotiator“. Es unterstützt mehr Workload, wie interaktives SQL, erweiterte Modellierung und Echtzeit-Streaming.

  • Hadoop MapReduce: Ein YARN-basiertes System, das Daten aus mehreren Quellen speichert und die parallele Verarbeitung großer Datenmengen ermöglicht. Für MapReduce stehen mehrere Optimierungstechniken zur Verfügung, um Jobs zu beschleunigen.

  • Hadoop Ozone: Ein skalierbarer, redundanter und verteilter Objektspeicher, der für Big Data-Anwendungen entwickelt wurde.
AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Unterstützung von Apache-Projekten

Erweitern Sie Hadoop mit zusätzlichen Open-Source-Softwareprojekten.

Ambari

Ein webbasiertes Tool zur Bereitstellung, Verwaltung und Überwachung von Hadoop-Clustern.

Avro

Ein System zur Datenserialisierung.

Cassandra

Eine skalierbare NoSQL-Datenbank, die so konzipiert ist, dass es keinen Single Point of Failure gibt.

Chukwa

Ein Datenerfassungssystem zur Überwachung großer verteilter Systeme, basierend auf HDFS und MapReduce.

Flume

Ein Dienst zum Sammeln, Aggregieren und Verschieben großer Mengen von Streaming-Daten in HDFS.

HBase

Eine skalierbare, nicht relationale, verteilte Datenbank, die strukturierte Datenspeicher für sehr große Tabellen unterstützt.

Hive

Eine Data Warehouse-Infrastruktur für Datenabfragen, Metadatenspeicherung für Tabellen und Analysen in einer SQL-ähnlichen Schnittstelle.

Mahout

Eine skalierbare Bibliothek für maschinelles Lernen und Data Mining.

Oozie

Ein Java-basierter Workload Scheduler zur Verwaltung von Hadoop-Jobs.

Pig

Eine High-Level-Datenflusssprache und ein Ausführungs-Framework für parallele Berechnungen.

Sqoop

Ein Tool zum effizienten Übertragen von Daten zwischen Hadoop und strukturierten Datenspeichern wie relationalen Datenbanken.

Submarine

Eine einheitliche KI-Plattform zum Ausführen von maschinellem Lernen und Deep Learning-Workloads in einem verteilten Cluster.

Tez

Ein verallgemeinertes Datenfluss-Programmier-Framework, das auf YARN basiert; wird im Hadoop-Ökosystem angewandt, um MapReduce zu ersetzen.

ZooKeeper

Ein leistungsstarker Koordinationsdienst für verteilte Anwendungen.

Hadoop für Entwickler

Apache Hadoop wurde in Java geschrieben, aber je nach Big Data-Projekt können Entwickler in der Sprache ihrer Wahl programmieren, beispielsweise in Python, R oder Scala. Mit dem enthaltenen Hadoop-Streaming-Dienstprogramm können Entwickler MapReduce-Jobs mit jedem Skript oder jeder ausführbaren Datei als Mapper oder Reducer erstellen und ausführen.

Spark vs. Hadoop

Apache Spark wird oft mit Hadoop verglichen, da es sich ebenfalls um ein Open-Source-Framework für die Verarbeitung großer Datenmengen handelt. Tatsächlich wurde Spark ursprünglich entwickelt, um die Verarbeitungsleistung zu verbessern und die mit Hadoop MapReduce möglichen Berechnungstypen zu erweitern. Spark verwendet In-Memory-Verarbeitung, was bedeutet, dass es wesentlich schneller ist als die Lese-/Schreibfunktionen von MapReduce.

Während sich Hadoop am besten für die Stapelverarbeitung großer Datenmengen eignet, unterstützt Spark sowohl die Stapelverarbeitung als auch die Echtzeit-Datenverarbeitung und ist ideal für Streaming-Daten und Diagrammberechnungen. Sowohl Hadoop als auch Spark verfügen über Bibliotheken für maschinelles Lernen, aber auch hier ist das maschinelle Lernen von Spark aufgrund der In-Memory-Verarbeitung viel schneller.

Hadoop-Anwendungsfälle

Bessere datengesteuerte Entscheidungen: Integrieren Sie Echtzeit-Datenstreaming (Audio, Video, Social-Media-Sentiment- und Clickstream-Daten) und andere halbstrukturierte und unstrukturierte Daten, die nicht in einem Data Warehouse oder einer relationalen Datenbank verwendet werden. Umfassendere Daten ermöglichen genauere Entscheidungen.

Verbesserter Datenzugriff und verbesserte Datenanalyse: Ermöglichen Sie den Self-Service-Zugriff in Echtzeit für Ihre Data Scientists, Bereichsleiter und Entwickler. Hadoop kann Data Science vorantreiben, ein interdisziplinäres Feld, das Daten, Algorithmen, maschinelles Lernen und KI für erweiterte Analysen nutzt, um Muster aufzudecken und Vorhersagen zu treffen.

Datenauslagerung und -konsolidierung: Optimieren Sie die Kosten im Rechenzentrum Ihres Unternehmens, indem Sie „kalte“ Daten, die derzeit nicht verwendet werden, zur Speicherung in eine Hadoop-basierte Verteilung verschieben. Oder konsolidieren Sie Daten im gesamten Unternehmen, um die Zugänglichkeit zu erhöhen und die Kosten zu senken.

Weiterführende Lösungen
Software und Lösungen für die Datenverwaltung

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden
IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden IBM watsonx.data entdecken