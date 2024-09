Il s'agit d'un exemple simple MapReduce. Quelle que soit la quantité de données que vous devez analyser, les principes essentiels restent les mêmes.

Supposons que vous disposiez de cinq fichiers et que chaque fichier contienne deux colonnes (une clé et une valeur en termes Hadoop) qui représentent une ville et la température correspondante enregistrée dans cette ville pour les différents jours de mesure. La ville est la clé, et la température est la valeur. Par exemple : (Toronto, 20). Parmi toutes les données que nous avons collectées, vous voulez trouver la température maximale pour chaque ville dans tous les fichiers de données (notez que chaque fichier peut avoir la même ville représentée plusieurs fois).

En utilisant le cadre MapReduce, vous pouvez décomposer cette tâche en cinq tâches de mappe, où chaque tâche de mappage travaille sur l'un des cinq fichiers. La tâche de mappage parcourt les données et renvoie la température maximale pour chaque ville.

Par exemple, les résultats produits par une tâche de mappage pour les données ci-dessus se présente comme suit : (Toronto, 20) (Whitby, 25) (New York, 22) (Rome, 33)

Supposons que les quatre autres tâches de mappage (travaillant sur les quatre autres fichiers non représentés ici) aient produit les résultats intermédiaires suivants :

(Toronto, 18) (Whitby, 27) (New York, 32) (Rome, 37) (Toronto, 32) (Whitby, 20) (New York, 33) (Rome, 38) (Toronto, 22) (Whitby, 19) (New York, 20) (Rome, 31) (Toronto, 31) (Whitby, 22) (New York, 19) (Rome, 30)

Ces cinq flux de sortie seraient introduits dans les tâches de réduction, qui combinent les résultats d'entrée et produisent une seule valeur pour chaque ville, produisant un ensemble de résultats finaux comme suit : (Toronto, 32) (Whitby, 27) (New York, 33) (Rome, 38).

Par analogie, vous pouvez considérer les tâches de mappage et de réduction comme la manière dont un recensement était effectué à l'époque romaine, où le bureau de recensement envoyait ses employés dans chaque ville de l'empire. Chaque agent recenseur de chaque ville était chargé de compter le nombre d'habitants de la ville et de renvoyer ses résultats à la capitale. Là, les résultats de chaque ville étaient réduits à un seul compte (somme de toutes les villes) pour déterminer la population globale de l'empire. Cette mise en correspondance des personnes et des villes, en parallèle, puis la combinaison des résultats (réduction) est beaucoup plus efficace que l'envoi d'une seule personne pour compter chaque personne de l'empire en série.