Cos’è Apache Hadoop?

Cos’è Apache Hadoop?

Apache Hadoop è un framework software open source sviluppato da Douglas Cutting, allora in Yahoo, che fornisce l'elaborazione distribuita altamente affidabile di set di dati di grandi dimensioni utilizzando semplici modelli di programmazione.

Hadoop ha superato i limiti di scalabilità di Nutch e si basa su cluster di computer di largo consumo, fornendo una soluzione conveniente per la memorizzazione e l'elaborazione di enormi quantità di dati strutturati, semi-strutturati e non strutturati senza requisiti di formato.

Un'architettura di data lake che include Hadoop può offrire una soluzione flessibile di gestione dei dati per le tue iniziative di analytics dei big data. Poiché Hadoop è un progetto open source e segue un modello di calcolo distribuito, può rappresentare un software e una soluzione di storage per i big data dal prezzo conveniente.

È inoltre possibile installare Hadoop su server cloud per gestire meglio le risorse di calcolo e di storage necessarie per i big data. Per una maggiore praticità, l'agente del sistema operativo Linux, l'agente del sistema operativo UNIX e l'agente del sistema operativo Windows sono preconfigurati e possono essere avviati automaticamente. I principali fornitori di servizi cloud, come Amazon Web Services (AWS) e Microsoft Azure, offrono soluzioni di questo tipo. Cloudera supporta i workload Hadoop sia on-premise che nel cloud, comprese le opzioni per uno o più ambienti cloud pubblici di più fornitori. Utilizza le API di monitoraggio Hadoop per aggiungere, aggiornare, eliminare e visualizzare i cluster e i servizi sui cluster e per tutti gli altri tipi di monitoraggio su Hadoop.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

L'ecosistema Hadoop

Il framework Hadoop, creato dalla Apache Software Foundation, comprende:

  • Hadoop Common: i programmi di utilità e le librerie comuni che supportano gli altri moduli Hadoop. Conosciuto anche come Hadoop Core.

  • Hadoop HDFS (Hadoop Distributed File System): un file system distribuito per memorizzare i dati delle applicazioni su hardware di largo consumo. HDFS è stato progettato per fornire una tolleranza degli errori per Hadoop e offre un'elevata larghezza di banda aggregata e un accesso ai dati con throughput elevato. Per impostazione predefinita, i blocchi di dati sono replicati su più nodi al momento del caricamento o della scrittura. Il grado di replica è configurabile e la replica predefinita è tre. L'architettura HDFS include un NameNode per gestire lo spazio dei nomi del file system e l'accesso ai file, nonché più DataNode per gestire il data storage. Attivando l'alta disponibilità, è possibile utilizzare un nodo secondario quando un nodo attivo non funziona.

  • Hadoop YARN: l'open-source Apache Hadoop YARN è un framework per la pianificazione dei processi e la gestione delle risorse cluster utilizzabile con IBM Spectrum Symphony su Linux e Linux su POWER. YARN è l'acronimo di Yet Another Resource Negotiator. Supporta più workload, come l'SQL interattivo, la modellazione avanzata e lo streaming in tempo reale.

  • Hadoop MapReduce: un sistema basato su YARN che memorizza i dati su più fonti e potenzia l'elaborazione parallela di grandi quantità di dati. Sono disponibili diverse tecniche di ottimizzazione per MapReduce al fine di velocizzare i processi.

  • Hadoop Ozone: un archivio oggetti scalabile, ridondante e distribuito, progettato per applicazioni con big data.
AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Progetti Apache di supporto

Migliora Hadoop con altri progetti software open source.

Ambari

Uno strumento basato sul web per il provisioning, la gestione e il monitoraggio dei cluster Hadoop.

Avro

Un sistema di serializzazione dei dati.

Cassandra

Un database NoSQL scalabile e progettato per non avere singoli punti di errore.

Chukwa

Un sistema di raccolta dati per il monitoraggio di grandi sistemi distribuiti, costruito su HDFS e MapReduce.

Flume

Un servizio per la raccolta, l'aggregazione e lo spostamento di grandi quantità di dati in streaming in HDFS.

HBase

Un database distribuito, scalabile e non relazionale che supporta lo data storage strutturato per tabelle molto grandi.

Hive

Un'infrastruttura di data warehouse per l'interrogazione dei dati, lo storage dei metadati per le tabelle e l'analisi in un'interfaccia simile a SQL.

Mahout

Una libreria scalabile per il machine learning e il data mining.

Oozie

Un sistema di pianificazione dei workload basato su Java per gestire i lavori Hadoop.

Pig

Un linguaggio ad alto livello per il flusso di dati e un framework di esecuzione per il calcolo parallelo.

Sqoop

Uno strumento per trasferire in modo efficiente i dati tra Hadoop e gli archivi di dati strutturati come i database relazionali.

Submarine

Una piattaforma AI unificata per l'esecuzione di workload di machine learning e deep learning in un cluster distribuito.

Tez

Un framework generalizzato per la programmazione dei flussi di dati, costruito su YARN; è in fase di adozione nell'ecosistema Hadoop per sostituire MapReduce.

ZooKeeper

Un servizio di coordinamento ad alte prestazioni per applicazioni distribuite.

Hadoop per sviluppatori

Apache Hadoop è stato scritto in Java, ma a seconda del progetto specifico sui big data gli sviluppatori possono programmare in un linguaggio a loro scelta come Python, R o Scala. È incluso Hadoop Streaming Utility che consente agli sviluppatori di creare ed eseguire lavori MapReduce con qualsiasi script o file eseguibile come il mapper o il reducer.

Spark e Hadoop a confronto

Apache Spark è spesso paragonato ad Hadoop in quanto è anch'esso un framework open source per l'elaborazione dei big data. In effetti, Spark è stato inizialmente sviluppato per migliorare le prestazioni di elaborazione ed estendere i tipi di calcolo possibili con Hadoop MapReduce. Spark utilizza l'elaborazione in memoria, il che significa che è molto più veloce rispetto alle capacità di lettura/scrittura di MapReduce.

Mentre Hadoop è ideale per l'elaborazione in batch di enormi volumi di dati, Spark supporta il trattamento dei dati sia in batch che in tempo reale ed è ideale per lo streaming dei dati e i calcoli basati su grafi. Sia Hadoop che Spark dispongono di librerie di machine learning, ma ancora una volta, grazie all'elaborazione in memoria, le attività di machine learning di Spark sono molto più veloci.

Casi d'uso di Hadoop

Migliori decisioni basate sui dati: integra dati in tempo reale (streaming audio, video, sentiment dei social media e dati di clickstream) e altri dati semi-strutturati e non strutturati non utilizzati in un data warehouse o in un database relazionale. Una maggiore completezza dei dati consente di prendere decisioni più accurate.

Migliore accesso ai dati e analisi più efficaci: promuovi l'accesso self-service in tempo reale per i data scientist, i proprietari delle linee di business (LOB) e gli sviluppatori. Hadoop può alimentare la data science, un campo interdisciplinare che utilizza dati, algoritmi, machine learning e AI per eseguire analisi avanzate utili per rivelare modelli e costruire previsioni.

Offload e consolidamento dei dati: ottimizza i costi dei data center aziendali spostando i dati "freddi" non in uso in una distribuzione basata su Hadoop per lo storage. Oppure consolida i dati in tutta l'organizzazione per aumentare l'accessibilità e ridurre i costi.

Soluzioni correlate
Software e soluzioni per la gestione dei dati

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati
IBM watsonx.data™

Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati Scopri watsonx.data