Che cos'è MapReduce?

Autori

Staff Writer

IBM Think

Staff Editor

IBM Think

Che cos'è MapReduce?

MapReduce è un modello di programmazione che utilizza l'elaborazione parallela per velocizzare il trattamento dei dati su larga scala. MapReduce consente un'enorme scalabilità su centinaia o migliaia di server all'interno di un cluster Hadoop.

Il nome "MapReduce" si riferisce ai 2 compiti che il modello esegue per aiutare a "spezzettare" un'attività di trattamento dei dati di grandi dimensioni in tante attività più piccole che possono essere eseguite più velocemente in parallelo.

Il primo è il "compito di mappatura", che prende un set di dati e lo converte in un altro set di dati formattati come coppie chiave/valore, come città (chiavi) e temperature elevate giornaliere (valori).
La seconda è l'"attività di riduzione" che prende gli output di un'attività di mappa, aggrega tutti i valori con la stessa chiave ed elabora i dati per produrre un set finale di coppie chiave/valore.

Il modello di programmazione MapReduce è uno dei componenti di elaborazione principali alla base di Apache Hadoop, un framework software open source supportato da Apache Software Foundation e basato sul linguaggio di programmazione Java.

Il modello MapReduce può essere utilizzato anche all'esterno di Hadoop.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Come funziona MapReduce

MapReduce aiuta a suddividere i progetti di trattamento dei dati in parti più piccole in modo che possano essere eseguite più rapidamente.

L'utilizzo di un processore per analizzare un file enorme con terabyte o petabyte di dati potrebbe richiedere, ad esempio, 10 ore. Un lavoro MapReduce può dividere lo stesso file di dati in 10 compiti che vengono eseguiti in parallelo su 10 processori. L'esecuzione di questo lavoro potrebbe richiedere al massimo un'ora. I dati possono essere aggregati dai nodi di calcolo distribuiti per produrre un risultato.

Sebbene il mapping e la riduzione siano le funzioni fondamentali del modello MapReduce, il processo complessivo include alcuni passaggi aggiuntivi.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Vai all'episodio

Input

Un'applicazione MapReduce accetta dati di input, che possono includere dati strutturati o non strutturati. Le applicazioni MapReduce di solito funzionano con file input memorizzati nel file system distribuito Hadoop (HDFS), ma il modello può funzionare anche con altre fonti di dati. (Per ulteriori informazioni, vedere "MapReduce nell’ecosistema Hadoop.")

Per un lavoro specifico, il framework MapReduce aiuta a selezionare server distribuiti, a gestire le comunicazioni e i trasferimenti di dati e a supportare la tolleranza agli errori e la ridondanza.

Suddivisione

I dati di input sono suddivisi in blocchi più piccoli. Questi blocchi vengono distribuiti ai mappatori, le funzioni che eseguono la mappatura nella fase successiva, situati in vari nodi di calcolo. Il framework MapReduce mira a un'assegnazione più o meno uniforme dei dati tra i mappatori per un bilanciamento del carico efficiente.

Mappatura

Su ogni nodo, la funzione di mappa elabora i dati ricevuti, convertendoli in coppie chiave/valore.

Il numero totale di mappatori viene determinato all'interno del framework Hadoop, in base al volume totale di dati e ai blocchi di memoria disponibili su ciascun mappatore. I parametri per i mappatori, i riduttori e i formati di output possono essere impostati all'interno del cluster Hadoop.

Shuffling

Il framework Hadoop ordina gli output della mappa e assegna tutte le coppie chiave/valore con la stessa "chiave" (argomento) allo stesso riduttore. Ad esempio, in un set di dati sulle città e sulle loro temperature massime giornaliere, tutti i dati con la chiave "Tokyo" verrebbero inseriti nello stesso riduttore.

Il riduttore, come suggerisce il nome, è la funzione che esegue la fase di riduzione.

Riduzione

Le funzioni di riduzione elaborano le coppie chiave/valore emesse dai mappatori. Questo può comportare l'unione, la tabulazione o l'esecuzione di altre operazioni sui dati, a seconda del tipo di trattamento richiesto.

La mappatura e la riduzione possono essere effettuate sullo stesso set di server, ma questo è facoltativo.

Risultato

Ogni riduttore fornisce i risultati della sua elaborazione all'HDFS o ad altri storage dei dati.

Un esempio di MapReduce

Indipendentemente dalla quantità di dati che un'organizzazione desidera analizzare, i principi chiave rimangono gli stessi.

Per questo esempio, il set di dati include le città (le chiavi) e le corrispondenti temperature giornaliere (i valori) registrate per ciascuna città. Una coppia chiave/valore di esempio potrebbe essere simile alla seguente: <Toronto, 18>.

I dati sono distribuiti su più file. Ogni file può includere dati provenienti da una combinazione di città e può includere la stessa città più volte.

Da questo set di dati, l'utente desidera individuare la "temperatura massima" per ogni città nel periodo monitorato.

Un'implementazione di MapReduce per gestire questo processo potrebbe essere simile alla seguente:

I file di dati contenenti informazioni sulla temperatura vengono immessi nell'applicazione MapReduce come input.
I file sono suddivisi in attività di mappatura, con ogni attività assegnata a uno dei mappatori.
I mappatori convertono i dati in coppie chiave/valore.
Gli output della mappa vengono mescolati e ordinati in modo che tutti i valori con la stessa chiave di città finiscano con lo stesso riduttore. Ad esempio, tutti i valori della temperatura di Toronto vengono convogliati in un unico riduttore, mentre un altro riduttore aggrega tutti i valori di Londra.
Ogni riduttore elabora i propri dati per stabilire il valore di temperatura più alto per ogni città. I dati vengono quindi ridotti alla sola coppia chiave/valore più alta per ogni città.
Dopo la fase di riduzione, è possibile raccogliere i valori più alti per produrre un risultato: <Tokyo, 38> <London, 27> <New York, 33> <Toronto, 32>.

Un diagramma semplificato che usa MapReduce per determinare le alte temperature per città

Diagramma semplificato di come il framework MapReduce aiuta a elaborare i dati

MapReduce all'interno dell'ecosistema Hadoop

L'ecosistema Hadoop è una suite di moduli open source progettati per lavorare insieme per promuovere l'efficienza. Esistono numerosi moduli che costituiscono il framework principale di Hadoop, tra cui MapReduce e altri 3:

File system distribuito Hadoop (HDFS)

HDFS è un file system distribuito che serve a memorizzare i dati delle applicazioni su un massimo di migliaia di server di base.

HDFS è progettato per fornire una tolleranza di errore per Hadoop e un accesso rapido ai dati. Per impostazione predefinita, i blocchi di dati vengono replicati su più nodi al momento del caricamento o della scrittura.

L'architettura HDFS include un NameNode per gestire lo spazio dei nomi del file system e l'accesso ai file, insieme a più DataNode per gestire il data storage.

Yet Another Resource Negotiator (YARN)

YARN, Apache Hadoop open source, è un framework per la pianificazione dei lavori e la gestione delle risorse del cluster. Supporta numerosi workload, come query SQL, modellazione avanzata e streaming in tempo reale.

Hadoop Common

Questo modulo è una raccolta di utility e librerie di risorse che supportano gli altri moduli Hadoop. Conosciuto anche come Hadoop Core, include diverse risorse per il recupero automatico dei guasti, l'astrazione a livello di file system e di sistema operativo, i file e gli script Java Archive (JAR) e molto altro ancora.

Altri moduli

Oltre al framework Hadoop principale, l'ecosistema Hadoop include anche:

HBase (un database NoSQL non relazionale)
Mahout e Spark MLlib (librerie di algoritmi per l'apprendimento automatico)
Oozie (un'utilità di pianificazione dei lavori)
Apache Hive e Apache Pig (strumenti di trattamento dei dati basati su query)
Solr e Lucene (per la ricerca e l'indicizzazione)
Spark (motore di trattamento dei dati in memoria)
Zookeeper (coordinamento del cluster)

Benefici di MapReduce

La programmazione MapReduce offre diversi benefici che possono aiutare le organizzazioni a ottenere insight preziosi dall'analytics dei big data, come ad esempio:

Scalabilità: MapReduce consente alle organizzazioni di elaborare petabyte di dati memorizzati nell'HDFS su più server o nodi.
Elaborazione più rapida: grazie all'elaborazione parallela e allo spostamento minimo dei dati, MapReduce consente di ottimizzare il trattamento dei big data dei elevati volumi di dati.
Semplicità: gli sviluppatori possono scrivere applicazioni MapReduce nei linguaggi di programmazione che preferiscono, tra cui Java, C++ e Python.
Risparmio sui costi: essendo un programma open source, MapReduce può far risparmiare a un'organizzazione del budget sulle spese software. Detto questo, ci saranno ancora dei costi associati al personale addetto all'infrastruttura e all'ingegneria dei dati.

Casi d'uso di MapReduce

MapReduce può gestire in modo efficiente numerosi e semplici casi d'uso, anche se attività di trattamento dei dati complesse potrebbero essere eseguite più velocemente su altre applicazioni. Ecco alcune applicazioni adatte all'approccio di elaborazione parallela di MapReduce:

Integrazione dei dati, in cui il MapReduce framework viene utilizzato per eseguire il processo di estrazione, trasformazione e caricamento (ETL) per preparare i dati per l'analisi e lo storage.
Elaborazione delle immagini, in cui attività come la classificazione delle immagini possono essere suddivise in set di dati più piccoli ed elaborate in parallelo.
Log analysis, ad esempio l'individuazione delle tendenze esaminando i file di log dai server Web o delle applicazioni.
L'apprendimento automatico (ML), in cui MapReduce può aiutare con attività di formazione di apprendimento automatico (ML), come il filtraggio collaborativo, il clustering k-means e la regressione lineare.
Analisi del sentiment, in cui MapReduce può aiutare ad aggiungere i punteggi dei clienti su un sito Web o individuare i cluster di risposta, ad esempio.
Tabulazione, ad esempio il conteggio del numero di clienti che hanno rinnovato i propri account, per Paese, nell'ultimo anno.
Estrazione di testo, come lavori di conteggio di parole che tengono traccia del numero di volte in cui una parola compare in un determinato set di input, come una bacheca dei commenti.

Storia di MapReduce

Il paradigma di programmazione MapReduce è stato creato nel 2004 dagli informatici di Google Jeffery Dean e Sanjay Ghemawat. L'obiettivo del modello MapReduce è semplificare la trasformazione e l'analisi di grandi set di dati attraverso un trattamento massiccio parallelo su grandi cluster di hardware di base. Consente inoltre ai programmatori di concentrarsi sugli algoritmi piuttosto che sulla gestione dei dati.

Sebbene Google abbia introdotto il primo framework MapReduce, Apache Hadoop MapReduce rimane forse quello più popolare.

MapReduce ha svolto un ruolo chiave nel progresso dell'analisi dei big data, ma ha i suoi svantaggi. Ad esempio, i dati di solito non vengono conservati in memoria da MapReduce e la logica iterativa è possibile solo concatenando le app MapReduce. Questi fattori aggiungono una maggiore complessità e possono portare a tempi di trattamento più lunghi.

Sebbene MapReduce rimanga ampiamente utilizzato, specialmente nei sistemi legacy, numerose organizzazioni stanno passando a framework più veloci o più specializzati, come Apache Spark, per applicazioni di big data.

Rendering 3D di una spirale di diverse icone allineate, come una fotocamera, una manopola del volume e una lavagnetta

Leggi la guida per i Data Leader per scoprire come rendere i dati della tua organizzazione AI-ready.

Risorse

Rendering 3D di diverse icone allineate, come un microfono e una fotocamera

Gli agenti AI funzionano con i dati: i tuoi sono pronti?

I dati sono il tuo vantaggio competitivo. Scopri come sbloccarli in modo sicuro e ottenere un ROI misurabile dall'AI in questo breve webinar.

Cos'è la gestione dei dati

Techsplainers by IBM analizza gli elementi essenziali dei dati per l'AI, dai concetti chiave ai casi d'uso del mondo reale. Gli episodi chiari e rapidi ti aiutano ad apprendere rapidamente le nozioni fondamentali.

Rendering 3D di diverse icone allineate, come una manopola del volume e una cartellina

Unifica e accedi ai tuoi dati per scalare la tua AI

Scopri perché il percorso verso i dati AI-ready spesso inizia con un accesso efficace ai dati strutturati e non strutturati e quali problematiche possono ostacolare i leader dei dati.

Gli oneri legali si trasformano in insight strategici

Scopri come un agente legale basato su AI aiuta ad accelerare il processo decisionale, ridurre il lavoro manuale e migliorare la conformità normativa.

Due uomini che parlano tra loro in un podcast

AI Academy: sviluppare una strategia dei dati per l'AI aziendale

In questo episodio, Cathy Reese spiega come le organizzazioni necessitino attualmente di una strategia dei dati pronta per l’AI avanzata, utilizzando al meglio i loro dati di qualità superiore.

Rendering 3D di diverse icone allineate, come una fotocamera e aeroplani di carta

Il data lakehouse ibrido e aperto per l'AI

Semplifica l'accesso ai dati e automatizza la governance dei dati. Scopri la potenza dell'integrazione di una strategia di data lakehouse nella tua architettura di dati, con ottimizzazione dei costi dei workload e scalabilità dell'AI e dell'analytics, con tutti i tuoi dati, ovunque.

Report Cost of a Data Breach 2025

I costi delle violazioni dei dati non sono mai stati così elevati. Ottieni insight aggiornati sulle minacce alla cybersecurity e sul loro impatto finanziario sulle organizzazioni.

Rendering 3D di due righe di diverse icone come una fotocamera, una manopola del volume e una cartellina

La guida ai dati AI-ready per i leader dei dati

Scopri i passi concreti che i leader dei dati possono intraprendere per superare le sfide legate ai dati, creare le basi per una piattaforma dati affidabile e preparare i dati della tua organizzazione per l’AI.

Rendering 3D di diverse icone allineate, come la fotocamera, la manopola del volume e gli appunti

Come i vertici aziendali trasformano le informazioni in impatto

Esplora gli insight di 1.700 CDO in questo report intersettoriale per i leader dei dati.

Soluzioni correlate

IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets

IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data

Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics

Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Che cos'è MapReduce?

Che cos'è MapReduce?

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Grazie per aver effettuato l'iscrizione!

Come funziona MapReduce

È la gestione dei dati il segreto dell’AI generativa?

Input

Suddivisione

Mappatura

Shuffling

Riduzione

Risultato

Un esempio di MapReduce

MapReduce all'interno dell'ecosistema Hadoop

File system distribuito Hadoop (HDFS)

Yet Another Resource Negotiator (YARN)

Hadoop Common

Altri moduli

Benefici di MapReduce

Casi d'uso di MapReduce

Storia di MapReduce

Risorse