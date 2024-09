Questo è un esempio molto semplice di MapReduce. Non ha importanza la quantità di dati da analizzare, i principi chiave rimangono gli stessi.

Supponiamo di avere cinque file, ognuno contenente due colonne (una chiave e un valore in termini Hadoop) che rappresentano una città e la temperatura corrispondente registrata in quella città per i vari giorni di misurazione. La città è la chiave e la temperatura è il valore. Per esempio: (Toronto, 20). Tra tutti i dati raccolti e in tutti i file di dati, vuoi trovare, per ogni città, la temperatura massima registrata (da notare che in ogni file la stessa città potrebbe essere presente più volte).

Usando il framework MapReduce, è possibile suddividere questo in cinque operazioni di mappatura, dove ogni mapper lavora su uno dei cinque file. Il task di mappatura esamina i dati e restituisce la temperatura massima per ogni città.

Ad esempio, i risultati prodotti da un task di mappatura per i dati di cui sopra potrebbe avere un aspetto simile a questo: (Toronto, 20) (Whitby, 25) (New York, 22) (Rome, 33)

Supponiamo che gli altri quattro task di mappatura (che lavorano sugli altri quattro file che non sono mostrati qui) abbiano prodotto i seguenti risultati intermedi:

(Toronto, 18) (Whitby, 27) (New York, 32) (Roma, 37) (Toronto, 32) (Whitby, 20) (New York, 33) (Roma, 38) (Toronto, 22) (Whitby, 19) (New York, 20) (Roma, 31) (Toronto, 31) (Whitby, 22) (New York, 19) (Roma, 30)

Tutti e cinque questi flussi di output verrebbero inseriti nei task di riduzione, che combinano i risultati di input e producono un singolo valore per ogni città, producendo il seguente set di risultati finale: (Toronto, 32) (Whitby, 27) (New York, 33) (Roma, 38).

Coma analogia, puoi immaginare che i task di mappatura e riduzione funzionino allo stesso modo in cui veniva condotto un censimento ai tempi dei romani, dove l'ufficio del censimento inviava le sue persone in ogni città dell'impero. Ogni addetto al censimento in ogni città sarebbe stato incaricato di contare il numero di persone in quella città e poi riportare i risultati alla capitale. Qui i risultati di ogni città sarebbero stati riuniti in un unico risultato (somma di tutte le città) per determinare la popolazione complessiva dell'impero. Questo processo di associazione delle persone alle città (mappatura), in parallelo, e poi la combinazione dei risultati (riduzione) è molto più efficiente che mandare una sola persona a contare ogni abitante dell'impero in maniera seriale.