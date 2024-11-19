MapReduceは、データ処理プロジェクトを小さな断片に分割することで、より高速に実行できるようにします。

たとえば、1つのプロセッサーを使用してテラバイトやペタバイト規模のデータを含む巨大なファイルを分析するには、10時間ほどかかる場合があります。MapReduceのジョブは、同じデータ・ファイルを10個のプロセッサーで並列処理できるように、10個のタスクに分割できます。このジョブは、1時間以内に完了できる場合があります。分散コンピューティング・ノードからデータを集約して、結果を得ることができます。

MapおよびReduceは、MapReduceモデルの不可欠な機能ですが、全体的なプロセスにはさらにいくつかのステップがあります。

Input（入力）





MapReduceアプリケーションは、構造化データまたは非構造化データを含む、入力データを受け入れます。MapReduceアプリケーションは通常、Hadoop分散ファイルシステム（HDFS）に入力ファイルを保管して処理しますが、このモデルは他のデータ・ソースでも機能します。（詳細については、「HadoopエコシステムにおけるMapReduce」をご参照ください。）

MapReduceフレームワークは特定のジョブに対して、分散サーバーの選択、通信とデータ転送の管理、フォールト・トレランスと冗長性のサポートを支援します。

Splitting（分割）



入力データは、小さなブロックに分割されます。これらのブロックは、さまざまなコンピューティング・ノードにまたがるMapper（次のステップでMapを実行する機能）に分散されます。MapReduceのフレームワークは、効率的な負荷分散のために、Mapper間でデータをほぼ均一に割り当てるようにします。

Mapping（マッピング）



マップ関数は、各ノードで受信したデータを処理し、そのデータをキーと値のペアに変換します。

マッパーの総数は、データの総量と各Mapperで利用可能なメモリ・ブロックに基づいて、Hadoopフレームワーク内で決定されます。Mapper、Reducer、出力フォーマットのパラメーターは Hadoop クラスター内で設定できます。



Shuffling（シャッフル）



Hadoopフレームワークは、Mapの出力をソートし、同じ「キー」（トピック）を持つすべてのキーと値のペアを同じReucerに割り当てます。たとえば、都市と気温の日時データ・セットでは、「東京」キーを持つデータはすべて同じReducerに送られます。

名前が示すように、Reducerは、Reduceステップを実行する関数です。

Reducing（削減）



Mapperが出力するキーと値のペアを処理するReduce関数です。これには、必要な処理の種類に応じて、データのマージ、集計、またはその他の操作の実行があります。

MapとReduceは同じサーバーセット上で実行できますが、任意です。

Result（成果）



各Reducerは、処理の結果をHDFSまたはその他のデータ・ストアに出力します。