Apache Hadoop ist ein Open-Source-Software-Framework, das von Douglas Cutting entwickelt wurde, der damals bei Yahoo arbeitete. Es ermöglicht mithilfe einfacher Programmiermodelle eine äußerst zuverlässige verteilte Verarbeitung großer Datenmengen.
Hadoop überwand die Skalierbarkeitsbeschränkungen von Nutch. Es basiert auf Clustern von Standardcomputern und bietet eine kostengünstige Lösung zum Speichern und Verarbeiten großer Mengen strukturierter, halbstrukturierter und unstrukturierter Daten ohne Formatanforderungen.
Eine Data Lake-Architektur mit Hadoop kann eine flexible Datenverwaltungslösung für Ihre Initiativen zur Big-Data-Analyse bieten. Da Hadoop ein Open-Source-Projekt ist und einem verteilten Rechenmodell folgt, ermöglicht es budgetfreundliche Preise für eine Big-Data-Software- und Speicherlösung.
Hadoop kann auch auf Cloud-Servern installiert werden, um die für Big Data erforderlichen Rechen- und Speicherressourcen besser zu verwalten. Für mehr Benutzerfreundlichkeit sind der Linux OS Agent, der UNIX OS Agent und der Windows OS Agent vorkonfiguriert und können automatisch gestartet werden. Führende Cloud-Anbieter wie Amazon Web Services (AWS) und Microsoft Azure bieten Lösungen an. Cloudera unterstützt Hadoop-Workloads sowohl lokal als auch in der Cloud und beinhaltet Optionen für eine oder mehrere Public-Cloud-Umgebungen mehrerer Anbieter. Verwenden Sie APIs für die Hadoop-Überwachung, um die Cluster und Services auf den Clustern hinzuzufügen, zu aktualisieren, zu löschen und anzuzeigen sowie für alle anderen Überwachungstypen auf Hadoop.
Das von der Apache Software Foundation entwickelte Hadoop-Framework umfasst:
Erweitern Sie Hadoop mit zusätzlichen Open-Source-Softwareprojekten.
Ein webbasiertes Tool zur Bereitstellung, Verwaltung und Überwachung von Hadoop-Clustern.
Ein System zur Datenserialisierung.
Eine skalierbare NoSQL-Datenbank, die so konzipiert ist, dass es keinen Single Point of Failure gibt.
Ein Datenerfassungssystem zur Überwachung großer verteilter Systeme, basierend auf HDFS und MapReduce.
Ein Dienst zum Sammeln, Aggregieren und Verschieben großer Mengen von Streaming-Daten in HDFS.
Eine skalierbare, nicht relationale, verteilte Datenbank, die strukturierte Datenspeicher für sehr große Tabellen unterstützt.
Eine Data Warehouse-Infrastruktur für Datenabfragen, Metadatenspeicherung für Tabellen und Analysen in einer SQL-ähnlichen Schnittstelle.
Eine skalierbare Bibliothek für maschinelles Lernen und Data Mining.
Ein Java-basierter Workload Scheduler zur Verwaltung von Hadoop-Jobs.
Eine High-Level-Datenflusssprache und ein Ausführungs-Framework für parallele Berechnungen.
Ein Tool zum effizienten Übertragen von Daten zwischen Hadoop und strukturierten Datenspeichern wie relationalen Datenbanken.
Eine einheitliche KI-Plattform zum Ausführen von maschinellem Lernen und Deep Learning-Workloads in einem verteilten Cluster.
Ein verallgemeinertes Datenfluss-Programmier-Framework, das auf YARN basiert; wird im Hadoop-Ökosystem angewandt, um MapReduce zu ersetzen.
Ein leistungsstarker Koordinationsdienst für verteilte Anwendungen.
Apache Hadoop wurde in Java geschrieben, aber je nach Big Data-Projekt können Entwickler in der Sprache ihrer Wahl programmieren, beispielsweise in Python, R oder Scala. Mit dem enthaltenen Hadoop-Streaming-Dienstprogramm können Entwickler MapReduce-Jobs mit jedem Skript oder jeder ausführbaren Datei als Mapper oder Reducer erstellen und ausführen.
Apache Spark wird oft mit Hadoop verglichen, da es sich ebenfalls um ein Open-Source-Framework für die Verarbeitung großer Datenmengen handelt. Tatsächlich wurde Spark ursprünglich entwickelt, um die Verarbeitungsleistung zu verbessern und die mit Hadoop MapReduce möglichen Berechnungstypen zu erweitern. Spark verwendet In-Memory-Verarbeitung, was bedeutet, dass es wesentlich schneller ist als die Lese-/Schreibfunktionen von MapReduce.
Während sich Hadoop am besten für die Stapelverarbeitung großer Datenmengen eignet, unterstützt Spark sowohl die Stapelverarbeitung als auch die Echtzeit-Datenverarbeitung und ist ideal für Streaming-Daten und Diagrammberechnungen. Sowohl Hadoop als auch Spark verfügen über Bibliotheken für maschinelles Lernen, aber auch hier ist das maschinelle Lernen von Spark aufgrund der In-Memory-Verarbeitung viel schneller.
Bessere datengesteuerte Entscheidungen: Integrieren Sie Echtzeit-Datenstreaming (Audio, Video, Social-Media-Sentiment- und Clickstream-Daten) und andere halbstrukturierte und unstrukturierte Daten, die nicht in einem Data Warehouse oder einer relationalen Datenbank verwendet werden. Umfassendere Daten ermöglichen genauere Entscheidungen.
Verbesserter Datenzugriff und verbesserte Datenanalyse: Ermöglichen Sie den Self-Service-Zugriff in Echtzeit für Ihre Data Scientists, Bereichsleiter und Entwickler. Hadoop kann Data Science vorantreiben, ein interdisziplinäres Feld, das Daten, Algorithmen, maschinelles Lernen und KI für erweiterte Analysen nutzt, um Muster aufzudecken und Vorhersagen zu treffen.
Datenauslagerung und -konsolidierung: Optimieren Sie die Kosten im Rechenzentrum Ihres Unternehmens, indem Sie „kalte“ Daten, die derzeit nicht verwendet werden, zur Speicherung in eine Hadoop-basierte Verteilung verschieben. Oder konsolidieren Sie Daten im gesamten Unternehmen, um die Zugänglichkeit zu erhöhen und die Kosten zu senken.
Unterstützen Sie prädiktive und präskriptive Analysen für die heutige KI. Kombinieren Sie die Hadoop-Distribution der Enterprise-Klasse von Cloudera mit einem Ökosystem integrierter Produkte und Dienste von IBM und Cloudera, um die Datenerkennung, das Testen sowie Ad-hoc- und nahezu Echtzeit-Abfragen zu verbessern. Nutzen Sie die Zusammenarbeit zwischen IBM und Cloudera, um Hadoop-Lösungen für Unternehmen bereitzustellen.
Verwenden Sie eine auf Unternehmen abgestimmte hybride, ANSI-konforme SQL-on-Hadoop-Engine, die eine Parallelverarbeitung im großen Stil (MPP) und erweiterte Datenabfrage ermöglicht.
Replizieren Sie Daten schon beim Einströmen, sodass Dateien vor der Übertragung nicht vollständig geschrieben oder geschlossen werden müssen.
Profitieren Sie von Big Data mit Open-Source-Datenbanken führender Anbieter wie MongoDB und EDB kostengünstiger.