Cos’è Apache Hadoop?
Iscriviti alla newsletter IBM
Persona seduta alla scrivania dell'ufficio e che utilizza un computer portatile

Apache Hadoop è un framework software open source che consente un'elaborazione distribuita altamente affidabile di grandi insiemi di dati sfruttando semplici modelli di programmazione. Noto per la sua scalabilità, un sistema Hadoop è costruito utilizzando cluster di computer commerciali e rappresenta una soluzione economica per memorizzare ed elaborare enormi quantità di dati strutturati, semi-strutturati e non strutturati senza requisiti di formato.

Un'architettura di data lake che includa Hadoop può offrire una soluzione flessibile di gestione dei dati per le iniziative di analytics dei big data. Poiché Hadoop è un progetto software open source e segue un modello di calcolo distribuito, può offrire un costo totale di proprietà inferiore rispetto ad altri software e soluzioni di archiviazione per big data.

È anche possibile installare Hadoop su server cloud per gestire meglio le risorse di calcolo e di archiviazione necessarie per i big data. I principali fornitori di servizi cloud, come Amazon Web Services (AWS) e Microsoft Azure, offrono soluzioni. Cloudera supporta i workload Hadoop sia on-premise che nel cloud, comprese le opzioni per uno o più ambienti cloud pubblici di più fornitori.

L'ecosistema Hadoop

Il framework Hadoop, creato dalla Apache Software Foundation, comprende:

  • Hadoop Common: i programmi di utilità e le librerie comuni che supportano gli altri moduli Hadoop. Conosciuto anche come Hadoop Core.

  • Hadoop HDFS (Hadoop Distributed File System): un file system distribuito per memorizzare i dati delle applicazioni su hardware commerciale. Offre un accesso ad alta velocità ai dati e un'elevata tolleranza ai guasti. L'architettura HDFS include un NameNode per gestire lo spazio dei nomi del file system e l'accesso ai file, nonché più DataNode per gestire il data storage.

  • Hadoop YARN: un framework per la gestione delle risorse dei cluster e la programmazione dei lavori. YARN è l'acronimo di Yet Another Resource Negotiator. Supporta più workload, come l'SQL interattivo, la modellazione avanzata e lo streaming in tempo reale.

  • Hadoop MapReduce: un sistema basato su YARN per l'elaborazione parallela di grandi insiemi di dati.

  • Hadoop Ozone: un archivio oggetti scalabile, ridondante e distribuito, progettato per applicazioni con big data.
Progetti Apache di supporto

Migliora Hadoop con altri progetti software open source.

Ambari

Uno strumento basato sul web per il provisioning, la gestione e il monitoraggio dei cluster Hadoop.

Avro

Un sistema di serializzazione dei dati.

Scopri di più su Avro
Cassandra

Un database NoSQL scalabile e progettato per non avere singoli punti di errore.

Chukwa

Un sistema di raccolta dati per il monitoraggio di grandi sistemi distribuiti, costruito su HDFS e MapReduce.

Flume

Un servizio per la raccolta, l'aggregazione e lo spostamento di grandi quantità di dati in streaming in HDFS.

HBase

Un database distribuito, scalabile e non relazionale che supporta lo data storage strutturato per tabelle molto grandi.

Scopri di più su HBase
Hive

Un'infrastruttura di data warehouse per le query e le analisi dei dati con un'interfaccia simile a SQL.

Mahout

Una libreria scalabile per il machine learning e il data mining.

Oozie

Un sistema di pianificazione dei workload basato su Java per gestire i lavori Hadoop.

Pig

Un linguaggio ad alto livello per il flusso di dati e un framework di esecuzione per il calcolo parallelo.

Sqoop

Uno strumento per trasferire in modo efficiente i dati tra Hadoop e gli archivi di dati strutturati come i database relazionali.

Submarine

Una piattaforma AI unificata per l'esecuzione di workload di machine learning e deep learning in un cluster distribuito.

Tez

Un framework generalizzato per la programmazione dei flussi di dati, costruito su YARN; è in fase di adozione nell'ecosistema Hadoop per sostituire MapReduce.

ZooKeeper

Un servizio di coordinamento ad alte prestazioni per applicazioni distribuite.

Hadoop per sviluppatori

Apache Hadoop è stato scritto in Java, ma a seconda del progetto specifico sui big data gli sviluppatori possono programmare in un linguaggio a loro scelta come Python, R o Scala. È incluso il programma di utilità Hadoop Streaming, che consente agli sviluppatori di creare ed eseguire lavori MapReduce con qualsiasi script o file eseguibile come il mapper o il reducer.

Spark e Hadoop a confronto

Apache Spark è spesso paragonato ad Hadoop in quanto è anch'esso un framework open source per l'elaborazione dei big data. In effetti, Spark è stato inizialmente sviluppato per migliorare le prestazioni di elaborazione ed estendere i tipi di calcolo possibili con Hadoop MapReduce. Spark utilizza l'elaborazione in memoria, il che significa che è molto più veloce rispetto alle capacità di lettura/scrittura di MapReduce.

Mentre Hadoop è ideale per l'elaborazione in batch di enormi volumi di dati, Spark supporta il trattamento dei dati sia in batch che in tempo reale ed è ideale per lo streaming dei dati e i calcoli basati su grafi. Sia Hadoop che Spark dispongono di librerie di machine learning, ma ancora una volta, grazie all'elaborazione in memoria, le attività di machine learning di Spark sono molto più veloci.

Maggiori informazioni su Apache Spark
Casi d'uso di Hadoop

Migliori decisioni basate sui dati: integra dati in tempo reale (streaming audio, video, sentiment dei social media e dati di clickstream) e altri dati semi-strutturati e non strutturati non utilizzati in un data warehouse o in un database relazionale. Una maggiore completezza dei dati consente di prendere decisioni più accurate.

Migliore accesso ai dati e analisi più efficaci: promuovi l'accesso self-service in tempo reale per i data scientist, i proprietari delle linee di business (LOB) e gli sviluppatori. Hadoop può alimentare la data science, un campo interdisciplinare che utilizza dati, algoritmi, machine learning e AI per eseguire analisi avanzate utili per rivelare modelli e costruire previsioni.

Offload e consolidamento dei dati: ottimizza i costi del data warehouse aziendale spostando i dati “freddi” non in uso in una distribuzione basata su Hadoop per archiviarli. Oppure consolida i dati in tutta l'organizzazione per aumentare l'accessibilità e ridurre i costi.

Soluzioni correlate
{Generic product category label} IBM e Cloudera

Supporta l'analytics predittiva e prescrittiva per l'AI attuale. Combina la distribuzione Hadoop di livello enterprise di Cloudera con un unico ecosistema di prodotti e servizi integrati di IBM e Cloudera per migliorare la data discovery, i test e le query ad hoc e in tempo quasi reale. Sfrutta la collaborazione tra IBM e Cloudera per implementare soluzioni Hadoop aziendali.

Esplora IBM e Cloudera

{Generic product category label} IBM® Db2 Big SQL

Sfrutta un motore SQL-on-Hadoop di livello enterprise, ibrido e conforme ad ANSI, che consente l'MPP (Massively Parallel Processing) e l'esecuzione di query avanzate sui dati.

Scopri Db2 Big SQL

{Generic product category label} IBM Big Replicate

Replica i dati durante lo streaming, in modo da non dover scrivere o chiudere completamente i file prima del trasferimento.

Esplora Big Replicate
Database open source

Sfrutta in modo più conveniente i big data con i database open source di fornitori leader come MongoDB e EDB.

Esplora i database open source

Risorse IBM e Cloudera

Scopri come stanno promuovendo l'analytics avanzata con un data lake di livello enterprise sicuro, governato e basato sull'open source.

Come collegare più dati

Aggiungi un data lake alla strategia di gestione dei dati per integrare un maggior numero di dati non strutturati e ottenere insight più approfonditi.

Un data lake governato e affidabile per l'AI

Esplora le tecnologie di archiviazione e governance necessarie affinché il data lake aziendale possa fornire dati pronti per l'AI.

Governance dei data lake

Scopri come sia possibile migliorare l'integrazione, la qualità e la sicurezza dei data lake sfruttando soluzioni di governance collaudate.

Corsi sull'analytics dei big data

Scegli il tuo percorso di apprendimento in base al livello di competenza con i corsi gratuiti su data science, AI, big data e altro ancora.

Comunità open source

Entra a far parte della comunità IBM sulla gestione dei dati open source per collaborare, ottenere risorse e altro ancora.

Fai il passo successivo

La partnership tra IBM e Cloudera ha portato alla creazione di servizi per dati e AI di livello aziendale leader del settore. I servizi sfruttano ecosistemi open source e sono stati progettati per ottenere dati ed eseguire l'analytics più rapidamente e su larga scala. Crea in modo collaborativo modelli da applicare ai flussi e analizza enormi quantità di dati in tempo reale. Interpreta i dati disponibili, che siano testo non strutturato, video, audio, dati geospaziali o di sensori, per individuare opportunità e rischi nel momento stesso in cui si verificano.

Esplora le soluzioni IBM e Cloudera