MapReduce hilft dabei, Datenverarbeitung in kleinere Teile zu unterteilen, damit sie schneller stattfinden kann.

Die Analyse einer riesigen Datei mit Terabytes oder Petabytes an Daten mit einem Prozessor kann beispielsweise 10 Stunden dauern. MapReduce kann dieselbe Datendatei in 10 Aufgaben aufteilen, die parallel auf 10 Prozessoren ausgeführt werden. Die Ausführung dieser Aufgabe dauert möglicherweise nur eine Stunde oder weniger. Die Daten können von den verteilten Rechenknoten aggregiert werden, um ein Ergebnis zu erzielen.

Während Mapping und Reduzieren die wesentlichen Funktionen des MapReduce-Modells sind, umfasst der Gesamtprozess noch einige weitere Schritte.

Eingabe





Eine MapReduce-Anwendung akzeptiert Eingabedaten, die strukturierte oder unstrukturierte Daten enthalten können. MapReduce-Anwendungen arbeiten in der Regel mit Eingabe-Dateien, die im Hadoop Distributed File System (HDFS) gespeichert sind, aber das Modell kann auch mit anderen Datenquellen arbeiten. (Weitere Informationen finden Sie unter „MapReduce innerhalb des Hadoop-Ökosystems“.)

Für einen bestimmten Job hilft das MapReduce-Framework dabei, verteilte Server auszuwählen, Kommunikation und Datenübertragungen zu verwalten und Fehlertoleranz und Redundanz zu unterstützen.

Aufteilung



Die Eingabedaten sind in kleinere Blöcke aufgeteilt. Diese Blöcke werden an Mapper verteilt – d. h. Funktionen, die die Zuordnung durchführen –, die sich auf verschiedenen Rechenknoten befinden. Um einen effizienten Lastenausgleich zu erreichen, versucht das MapReduce-Framework die Zuweisung von Daten an die Mapper möglichst gleichmäßig zu gestalten.

Mapping



Auf jedem Knoten verarbeitet die Map-Funktion die empfangenen Daten und wandelt sie in Schlüssel/Werte-Paare um.

Die Gesamtzahl der Mapper wird innerhalb des Hadoop-Frameworks basierend auf dem Gesamtvolumen der Daten und den verfügbaren Speicherblöcken auf jedem Mapper bestimmt. Parameter für die Mapper, Reducer und Ausgabeformate können innerhalb des Hadoop-Clusters festgelegt werden.



Mischen



Das Hadoop- Framework sortiert die Map-Ausgaben und weist alle Schlüssel/Werte-Paare mit demselben „Schlüssel“ (Thema) demselben Reducer zu. In einem Datensatz mit Städten und ihren täglich hohen Temperaturen würden beispielsweise alle Daten mit dem Schlüssel „Tokio“ an denselben Reducer gehen.

Der Reducer ist, wie der Name schon sagt, die Funktion, die den Schritt des Reduzierens ausführt.

Reduzieren



Reduce-Funktionen verarbeiten die Schlüssel/Werte-Paare, die die Mapper ausgeben. Dies kann, abhängig von der Art der erforderlichen Verarbeitung, das Zusammenführen, Tabellieren oder Ausführen anderer Operationen mit den Daten beinhalten.

Mapping und Reduzierung können auf denselben Servern durchgeführt werden, dies ist jedoch optional.

Ergebnis



Jeder Reducer gibt die Ergebnisse seiner Verarbeitung an das HDFS oder einen anderen Datenspeicher aus.