HDFS
Skalieren Sie einen Apache Hadoop-Cluster auf Hunderte von Knoten mit dem Hadoop Distributed File System (Hadoop Distributed File System)
Beratungtermin vereinbaren
Abstrakte PCB-Platine
Was ist HDFS?

Hadoop Distributed File System ist ein verteiltes Dateisystem, das große Datenmengen verarbeitet, die auf Standardhardware ausgeführt werden. Es wird dazu verwendet, einen einzelnen Apache Hadoop-Cluster auf Hunderte (und sogar Tausende) von Knoten zu skalieren. Hadoop Distributed File System ist eine der übergeordnet Komponenten von Apache Hadoop, die anderen sind MapReduce  und Yet Another Resource Negotiator (YARN). Hadoop Distributed File System sollte nicht verwechselt oder ersetzt werden durch Apache HBase, das ein spaltenorientiertes, nicht-relationales Datenbankverwaltungssystem ist, das am Anfang von Hadoop Distributed File System sitzt und mit seiner speicherinternen Verarbeitungsengine Echtzeitdaten besser unterstützen kann.

Die Zielsetzungen des Hadoop Distributed File System
Schnelle Wiederherstellung bei Hardwareausfällen

Da eine Hadoop Distributed File System-Instanz ein Verband von Tausenden von Servern sein kann, ist eine Störung mindestens eines Servers nicht zu vermeiden. Hadoop Distributed File System wurde dazu entwickelt, Fehler zu finden und eine schnelle automatische Recovery durchführen.

Zugriff auf Streaming-Daten

Hadoop Distributed File System ist eher für Stapelverarbeitung versus interaktiver Verwendung ausgelegt, daher liegt der Konzeptschwerpunkt auf hohen Datendurchsatzraten, die Streaming-Zugriff auf Datensätze verarbeiten können.

Aufnahme großer Datensätze

Hadoop Distributed File System nimmt Anwendungen auf, die in der Regel aus Datensätzen in der Größenordnung von Gigabytes bis Terabytes bestehen. Hadoop Distributed File System bietet eine hohe Bandbreite zusammengefasster Daten und kann Hunderte von Knoten in einem einzelnen Cluster konfigurieren.

Portierbarkeit

Um die Akzeptanz zu beschleunigen, wurde HDFS so konzipiert, dass es über mehrere Hardware-Plattformen portierbar und kompatibel mit einer Vielzahl zugrunde liegender Betriebssysteme ist.

Ein Beispiel für Hadoop Distributed File System

Stellen Sie eine Datei vor, die die Telefonnummern jedes Einwohners der Vereinigten Staaten enthält. Die Nummern der Personen, deren Nachname mit "A" beginnt, würden auf Server 1 gespeichert, "B" auf Server 2 und so weiter.

Mit Hadoop werden Teile dieses Telefonbuchs im gesamten Cluster gespeichert, und um das gesamte Telefonbuch wiederherzustellen, benötigt Ihr Programm die Blöcke von jedem Server im Cluster.

Zur Gewährleistung der Verfügbarkeit falls und wenn ein Server ausfällt, repliziert Hadoop Distributed File System diese kleineren Teile standardmäßig auf zwei zusätzliche Server. Die Redundanz kann pro Datei oder für eine ganze Umgebung erhöht oder verringert werden; beispielsweise benötigt ein Entwicklungs-Hadoop-Cluster normalerweise keinerlei Datenredundanz.) Diese Redundanz bietet mehrere Vorteile, wobei die offensichtlichste die höhere Verfügbarkeit ist.

Die Redundanz ermöglicht auch den Hadoop-Clustern, die Arbeit auf kleinere Stücke herunterzubrechen und diese Aufgaben für eine bessere Skalierbarkeit auf allen Servern auszuführen. Abschließend profitieren Sie von der Datenlokalität, die von großer Bedeutung ist, wenn man mit großen Datensätzen arbeitet.

Relevante Lösungen
Bessere und schnellere Analysen mit Big Data-Lösungen von IBM

IBM und Cloudera haben sich zusammengeschlossen, um eine branchenführende, unternehmensgerechte Hadoop-Distribution anzubieten, einschließlich eines integrierten Ökosystems von Produkten und Dienstleistungen zur Unterstützung schnellerer Analysen im großen Maßstab.

Entdecken Sie Möglichkeiten von Big Data mit IBM
Ressourcen Das Data Warehouse hat sich weiterentwickelt: Eine Grundlage für analytische Spitzenleistungen

Erfahren Sie mehr über einen leistungsfähigen Ensatz für das Datenmanagement und darüber, wie Unternehmen Datentechnologien einsetzen, um Wachstum und Effizienz zu steigern.

Big Data jenseits des Hypes verstehen

Lesen Sie diese praktische Einführung in die nächste Generation von Datenarchitekturen. Sie führt in die Rolle der Cloud und der NoSQL-Technologien ein und erörtert die praktischen Aspekte von Sicherheit, Datenschutz und Governance. (6.5 MB)

Kontakt
Hadoop erkunden Kognitive Klasse Blogs