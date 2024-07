Dies ist ein ganz einfaches Beispiel für MapReduce. Unabhängig von der Datenmenge, die Sie analysieren müssen, bleiben die wichtigsten Grundsätze dieselben.

Angenommen, Sie haben fünf Dateien, und jede Datei enthält zwei Spalten (einen Schlüssel und einen Wert in Hadoop-Begriffen), die eine Stadt und die entsprechende Temperatur darstellen, die in dieser Stadt für die verschiedenen Messtage aufgezeichnet wurde. Die Stadt ist der Schlüssel, und die Temperatur ist der Wert. Zum Beispiel: (Toronto, 20). Aus allen gesammelten Daten möchten Sie die Höchsttemperatur für jede Stadt in allen Dateien ermitteln (beachten Sie, dass in jeder Datei dieselbe Stadt mehrfach vertreten sein kann).

Mithilfe des MapReduce-Frameworks können Sie dies in fünf Map-Tasks aufteilen, wobei jeder Mapper an einer der fünf Dateien arbeitet. Der Mapper-Task geht die Daten durch und liefert die Höchsttemperatur für jede Stadt.

Die Ergebnisse eines Mapper-Tasks für die oben genannten Daten würden zum Beispiel so aussehen: (Toronto, 20) (Whitby, 25) (New York, 22) (Rom, 33)

Nehmen wir an, dass die anderen vier Mapper-Tasks (die an den anderen vier hier nicht gezeigten Dateien arbeiten) die folgenden Zwischenergebnisse liefern:

(Toronto, 18) (Whitby, 27) (New York, 32) (Rom, 37) (Toronto, 32) (Whitby, 20) (New York, 33) (Rom, 38) (Toronto, 22) (Whitby, 19) (New York, 20) (Rom, 31) (Toronto, 31) (Whitby, 22) (New York, 19) (Rom, 30)

Alle fünf dieser Ausgabeströme würden in die Reduce-Tasks eingespeist, die die Eingabeergebnisse kombinieren und einen einzigen Wert für jede Stadt ausgeben, was eine endgültige Ergebnismenge wie folgt ergibt: (Toronto, 32) (Whitby, 27) (New York, 33) (Rom, 38).

Als Analogie kann man sich die Map- und Reduce-Tasks so vorstellen, wie zu Zeiten der Römer eine Volkszählung durchgeführt wurde, bei der das Volkszählungsbüro seine Leute in jede Stadt des Reiches schickte. Jeder Volkszähler in jeder Stadt hätte die Aufgabe, die Anzahl der Menschen in der jeweiligen Stadt zu zählen und die Ergebnisse dann an die Hauptstadt zu übermitteln. Dort würden die Ergebnisse aus jeder Stadt zu einer einzigen Zählung (Summe aller Städte) reduziert, um die Gesamtbevölkerung des Reiches zu ermitteln. Diese parallele Zuordnung von Menschen zu Städten und die anschließende Kombination der Ergebnisse (Reducing) ist wesentlich effizienter als die serielle Zählung aller Menschen im Reich durch eine einzige Person.