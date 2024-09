Apache Spark presenta un'architettura gerarchica primaria/secondaria. Il Spark Driver è il nodo primario che controlla il gestore cluster, che gestisce i nodi secondari e fornisce i risultati dei dati al client applicativo.

In base al codice applicativo, Spark Driver genera il SparkContext, che funziona con il gestore di cluster, Standalone Cluster Manager o altri gestori di cluster come Hadoop YARN, Kubernetes o Mesos, per distribuire e monitorare l'esecuzione tra i nodi. Crea inoltre set di dati distribuiti resilienti (RDD), che sono la chiave della notevole velocità di elaborazione di Spark.

Set di dati distribuito resiliente (RDD)



Gli RDD (Resilient Distributed Datasets) sono raccolte di elementi tolleranti ai guasti che possono essere distribuiti tra più nodi di un cluster e lavorati in parallelo. Gli RDD sono una struttura fondamentale in Apache Spark.



Spark carica i dati facendo riferimento a un'origine dati o parallelizzando una raccolta esistente con il metodo di parallelizzazione SparkContext di memorizzazione dei dati in un RDD per l'elaborazione. Una volta caricati i dati in un RDD, Spark esegue trasformazioni e azioni su RDD in memoria, la chiave della velocità di Spark. Spark memorizza inoltre i dati in memoria, a meno che il sistema non esaurisca la memoria o l'utente non decida di scrivere i dati su disco perché possano durare.

Ogni set di dati in un RDD è suddiviso in partizioni logiche, che possono essere calcolate su diversi nodi del cluster. Inoltre, gli utenti possono eseguire due tipi di operazioni RDD: trasformazioni e azioni. Le trasformazioni sono operazioni applicate per creare un nuovo RDD. Le azioni vengono utilizzate per istruire Apache Spark ad applicare il calcolo e restituire il risultato al driver.

Spark supporta un'ampia gamma di azioni e trasformazioni sugli RDD. Questa distribuzione viene eseguita da Spark, quindi gli utenti non devono preoccuparsi di calcolare la distribuzione corretta.

Grafo aciclico diretto (DAG)



Al contrario del processo di esecuzione a due fasi in MapReduce, Spark crea un DAG (Directed Acyclic Graph) per pianificare le attività e l'orchestrazione dei nodi worker nel cluster. Man mano che Spark agisce e trasforma i dati nei processi di esecuzione delle attività, lo strumento di pianificazione DAG facilita l'efficienza orchestrando i nodi worker all'interno del cluster. Il tracciamento delle attività rende possibile la tolleranza agli errori, in quanto riapplica le operazioni registrate ai dati di uno stato precedente.



Frame di dati e set di dati



Oltre a RDD, Spark gestisce altri due tipi di dati: frame di dati e set di dati.

I frame di dati sono le interfacce di programmazione delle applicazioni (API) strutturate più comuni e rappresentano una tabella di dati con righe e colonne. Sebbene RDD sia stata una funzionalità fondamentale per Spark, ora è in modalità di manutenzione. A causa della popolarità della Machine Learning Library (MLlib) di Spark, i frame di dati hanno assunto il ruolo principale come API primaria per MLlib (un set di algoritmi di machine learning per la scalabilità più strumenti per la selezione delle funzionalità e la creazione di pipeline di apprendimento automatico ML). Questo è importante da notare quando si utilizza l'API MLLib, in quanto i frame di dati forniscono uniformità tra i diversi linguaggi, come Scala, Java, Python e R.

I Datasets sono un'estensione dei frame di dati che forniscono un'interfaccia di programmazione orientata agli oggetti e sicura rispetto al tipo. I Datasets sono, per impostazione predefinita, una raccolta di oggetti JVM fortemente tipizzati, a differenza dei frame di dati.

Spark SQL consente di interrogare i dati dai frame di dati e dagli storage dei dati SQL, come Apache Hive. Le query SQL di Spark restituiscono un frame di dati o un set di dati quando vengono eseguite in un'altra lingua.

Spark Core



Spark Core è la base per il trattamento dei dati in parallelo e gestisce pianificazione, ottimizzazione, RDD e astrazione dei dati. Spark Core fornisce le basi funzionali per le librerie Spark, Spark SQL, Spark Streaming, la libreria di machine learning MLlib e il trattamento dei dati grafici GraphX. Spark Core e il gestore cluster distribuiscono i dati nel cluster Spark e li astraggono. Questa distribuzione e astrazione rendono la gestione dei big data estremamente rapida e intuitiva.



API Spark



Spark include una varietà di interfacce di programmazione delle applicazioni (API) per portare la potenza di Spark al pubblico più vasto. Spark SQL consente di interagire con i dati RDD in modo relazionale. Spark dispone inoltre di un'API ben documentata per Scala, Java, Python e R. Ogni API linguistica di Spark ha le sue specifiche sfumature nel modo in cui gestisce i dati. RDD, frame di dati e set di dati sono disponibili in ogni API del linguaggio. Con le API per una tale varietà di lingue, Spark rende il trattamento dei big data accessibile a gruppi più diversificati di persone con background in fase di sviluppo, data science, data engineering e statistiche.