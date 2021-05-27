Tag
Hadoop e Spark a confronto: qual è la differenza?

Le rispettive architetture di Hadoop e Spark, il modo in cui questi framework di big data si confrontano in diversi contesti e gli scenari che si adattano meglio a ciascuna soluzione.

Hadoop e Spark, entrambi sviluppati dalla Apache Software Foundation, sono framework open-source molto utilizzati per le architetture di big data. Ogni framework contiene un ampio ecosistema di tecnologie open source che preparano, elaborano, gestiscono e analizzano i big data set.

 

 

Cos’è Apache Hadoop?

Apache Hadoop è un software open source che permette agli utenti di gestire grandi set di dati (da gigabyte a petabyte) abilitando una rete di computer (o "nodi") per risolvere vasti e complessi problemi di dati. È una soluzione altamente scalabile, a costo ridotto che memorizza ed elabora dati strutturati, semi-strutturati e dati non strutturati (ad esempio, record di clickstream su internet, log del server web, dati dei sensori IoT, ecc.).

I vantaggi del framework Hadoop includono:

  • Protezione dei dati in caso di guasto hardware
  • Ampia scalabilità da un singolo server a migliaia di macchine
  • Analytics in tempo reale per analisi storiche e processi decisionali

Cos'è Apache Spark?

Apache Spark, anch'esso open source, è un motore di elaborazione dati per set di dati di grandi dimensioni. Come Hadoop, Spark suddivide le attività di grandi dimensioni su diversi nodi. Tuttavia, tende a funzionare più velocemente di Hadoop e utilizza memoria ad accesso casuale (RAM) per memorizzare e processare i dati invece di un file system. Ciò consente a Spark di gestire casi d'uso che Hadoop non riesce a gestire.

I benefici del framework Spark includono quanto segue:

L'ecosistema Hadoop

Hadoop supporta analytics avanzate per dati memorizzati (ad esempio analisi predittiva, data mining, machine learning (ML) ecc.). Consente di suddividere le attività di elaborazione di analytics dei big data in attività più piccole. I piccoli compiti vengono eseguiti in parallelo utilizzando un algoritmo (ad esempio, MapReduce) e poi distribuiti su un cluster Hadoop (cioè nodi che eseguono calcoli paralleli su big data sets).

L'ecosistema Hadoop è composto da quattro moduli principali:

  1. Hadoop Distributed File System (HDFS): sistema di storage di dati primario che gestisce grandi set di dati in esecuzione su hardware commerciale. Inoltre, offre un accesso ai dati ad alta velocità e un'elevata tolleranza ai guasti.
  2. Yet Another Resource Negotiator (YARN): cluster resource manager che pianifica le attività e alloca risorse (ad esempio CPU e memoria) alle applicazioni.
  3. Hadoop MapReduce: divide i compiti di elaborazione dei big data in quelli più piccoli, distribuisce i compiti piccoli tra diversi nodi, poi esegue ogni compito.
  4. Hadoop Common (Hadoop Core): set di librerie e utility comuni da cui dipendono gli altri tre moduli.

L'ecosistema Spark

Apache Spark, il più grande progetto open source nel trattamento dei dati, è l'unico framework di elaborazione che combina dati e intelligenza artificiale (AI). Questo consente agli utenti di eseguire trasformazioni dei dati su larga scala e analisi, e poi di eseguire algoritmi all'avanguardia di machine learning (ML) e AI.

L'ecosistema Spark è composto da cinque moduli principali:

  1. Spark Core: motore di esecuzione sottostante che pianifica e invia le attività e coordina le operazioni di input e output (I/O).
  2. Spark SQL: raccoglie informazioni sui dati strutturati per consentire agli utenti di ottimizzare il trattamento dei dati strutturati.
  3. Spark Streaming e Structured Streaming: entrambi aggiungono funzionalità di elaborazione dei flussi. Spark Streaming acquisisce dati da diverse fonti di streaming e li divide in micro-batch per un flusso continuo. Lo streaming strutturato, costruito su Spark SQL, riduce la latenza e semplifica la programmazione.
  4. Libreria di machine learning (MLlib): un insieme di algoritmi di machine learning per la scalabilità più strumenti per la selezione di caratteristiche e la costruzione di pipeline di ML. L'API principale per MLlib è DataFrames, che offre uniformità tra diversi linguaggi di programmazione come Java, Scala e Python.
  5. GraphX: motore di calcolo facile da usare che consente la costruzione, la modifica e l'analisi interattiva di dati scalabili e strutturati a grafo.

Confronto tra Hadoop e Spark

Spark è un miglioramento di Hadoop di MapReduce. La differenza principale tra Spark e MapReduce è che Spark elabora e conserva i dati in memoria per i passaggi successivi, mentre MapReduce elabora i dati su disco. Di conseguenza, per workload più piccoli, le velocità di elaborazione dei dati di Spark sono fino a 100 volte superiori rispetto a MapReduce (link esterno a ibm.com).

Inoltre, a differenza del processo di esecuzione a due fasi in MapReduce, Spark crea un Directed Acyclic Graph (DAG) per programmare i compiti e l'orchestrazione dei nodi attraverso il cluster Hadoop. Questo processo di tracciamento dei compiti consente la tolleranza agli errori, riapplicando le operazioni registrate ai dati di uno stato precedente.

Diamo uno sguardo più da vicino alle principali differenze tra Hadoop e Spark in sei contesti critici:

  1. Prestazione: Spark è più veloce perché utilizza memoria RAM invece di leggere e scrivere dati intermedi su dischi. Hadoop memorizza i dati su più sorgenti e li elabora in lotti tramite MapReduce.
  2. Costo: Hadoop ha un costo inferiore, poiché si basa su qualsiasi tipo di storage per il trattamento dei dati. Spark ha un costo più elevato perché si basa su calcoli in-memory per l'elaborazione dei dati in tempo reale, il che richiede l'utilizzo di elevate quantità di RAM per far girare i nodi.
  3. Elaborazione: sebbene entrambe le piattaforme elaborino i dati in un ambiente distribuito, Hadoop è ideale per l'elaborazione batch e l'elaborazione lineare dei dati. Spark è ideale per l'elaborazione in tempo reale e per l'elaborazione di flussi di dati non strutturati in tempo reale.
  4. Scalabilità: quando il volume di dati cresce rapidamente, Hadoop si scala rapidamente per soddisfare la domanda tramite Hadoop Distributed File System (HDFS). A sua volta, Spark si affida al sistema HDFS tollerante ai guasti per grandi volumi di dati.
  5. Sicurezza: Spark migliora la sicurezza con l'autenticazione tramite segreti condivisi o registrazione, mentre Hadoop utilizza metodi multipli di autenticazione e controllo degli accessi. Anche se, nel complesso, Hadoop è più sicuro, Spark può integrarsi con Hadoop per raggiungere un livello di sicurezza superiore.
  6. Machine learning (ML): Spark è la piattaforma migliore in questa categoria perché include MLlib, che esegue calcoli ML iterativi in memoria. Include anche strumenti che eseguono regressione, classificazione, persistenza, costruzione di pipeline, valutazione, ecc.

Falsi miti su Hadoop e Spark

Falsi miti comuni su Hadoop

  • Hadoop è economico: anche se è open source e facile da configurare, mantenere il server attivo può essere costoso. Quando si utilizzano caratteristiche come il calcolo in memoria e lo storage, la gestione dei dati può costare fino a 5.000 USD.
  • Hadoop è un database: sebbene Hadoop venga utilizzato per memorizzare, gestire e analizzare dati distribuiti, non sono necessarie domande durante l'estrazione dei dati. Questo rende Hadoop un data warehouse piuttosto che un database.
  • Hadoop non aiuta le PMI: i "Big Data" non sono un’esclusiva delle "grandi aziende". Hadoop offre caratteristiche semplici come la reportistica Excel che permettono alle aziende più piccole di sfruttarne la potenza. Avere uno o due cluster Hadoop può migliorare notevolmente le prestazioni di una piccola azienda.
  • Hadoop è difficile da configurare: sebbene la gestione di Hadoop sia complessa ai livelli più alti, esistono numerose interfacce grafiche utente (GUI) che semplificano la programmazione per MapReduce.

Falsi miti comuni su Spark

  • Spark è una tecnologia in-memory: sebbene Spark utilizzi effettivamente l'algoritmo LRU (least recently used), non è di per sé una tecnologia basata sulla memoria.
  • Spark funziona sempre 100 volte più velocemente di Hadoop: sebbene Spark possa funzionare fino a 100 volte più velocemente di Hadoop per carichi di lavoro piccoli, secondo Apache, di solito funziona solo fino a 3 volte più velocemente per carichi di lavoro grandi (link esterno a ibm.com).
  • Spark introduce nuove tecnologie nel trattamento dei dati: sebbene Spark utilizzi efficacemente l'algoritmo LRU e il trattamento dei dati tramite pipeline, queste funzionalità esistevano in precedenza nei database a massively parallel processing (MPP). Tuttavia, ciò che distingue Spark da MPP è il suo orientamento open-source.

Casi d'uso di Hadoop e Spark

Basandosi sulle analisi comparative e sulle informazioni fattuali fornite sopra, i seguenti casi illustrano al meglio l'usabilità complessiva di Hadoop rispetto a Spark.

Casi d'uso di Hadoop

Hadoop è più efficace per scenari che coinvolgono quanto segue:

  • Elaborazione di big data in ambienti dove la dimensione dei dati supera la memoria disponibile
  • Elaborazione in batch con attività che utilizzano le operazioni di lettura e scrittura su disco
  • Costruire infrastrutture per l'analisi dei dati con un budget limitato
  • Completamento di lavori che non sono sensibili al fattore tempo
  • Analisi dei dati storici e archivistici

Casi d'uso di Spark

Spark è più efficace per scenari che coinvolgono quanto segue:

  • Gestire catene di operazioni parallele utilizzando algoritmi iterativi
  • Ottenere risultati rapidi con calcoli in memoria
  • Analisi dei dati di flusso in tempo reale
  • Elaborazione parallela dei grafici per modellare i dati
  • Tutte le applicazioni ML

Hadoop, Spark e IBM

IBM offre diversi prodotti per aiutarti a utilizzare i benefici di Hadoop e Spark per ottimizzare le tue iniziative di gestione dei dati e raggiungere al contempo i tuoi obiettivi aziendali complessivi:

  • IBM® Spectrum Conductor è una piattaforma multi-tenant che distribuisce e gestisce Spark con altri framework di applicazioni su un cluster comune di risorse condivise. Spectrum Conductor offre gestione del workload, monitoraggio, avvisi, reporting e diagnostica e può eseguire contemporaneamente più versioni correnti e diverse di Spark e altri framework.
  • IBM® Db2 Big SQL è un motore ibrido SQL-on-Hadoop che offre una connessione a database unica e fornisce query dati avanzate e ricche di sicurezza su fonti di big data come Hadoop HDFS e WebHDFS, RDMS, database NoSQL e object store. Gli utenti beneficiano di bassa latenza, alte prestazioni, sicurezza dei dati, compatibilità SQL e funzionalità di federazione per query ad hoc e complesse.
  • IBM® Big Replicate unifica cluster Hadoop in esecuzione su Cloudera hub di dati, Hortonworks Data Platform, IBM, Amazon S3 e EMR, Microsoft Azure, OpenStack Swift e Google Cloud Storage. Big Replicate offre un unico namespace virtuale tra cluster e archiviazione cloud object storage a qualsiasi distanza.

