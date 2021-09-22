Apache Spark tiene una arquitectura jerárquica principal/secundaria. El Spark Driver es el nodo principal que controla el administrador de clústeres, que administra los nodos secundarios y entrega los resultados de los datos al cliente de la aplicación.

Basándose en el código de la aplicación, Spark Driver genera el SparkContext, que funciona con el gestor de clústeres - Standalone Cluster Manager de Spark u otros gestores de clústeres como Hadoop YARN, Kubernetes o Mesos, para distribuir y monitorizar la ejecución en todos los nodos. También crea conjuntos de datos distribuidos resistentes (RDD), que son la clave de la notable velocidad de procesamiento de Spark.

Conjunto de datos distribuidos resilientes (RDD)



Los conjunto de datos distribuidos resilientes (RDD) son conjuntos de elementos tolerantes a fallos que se pueden distribuir entre varios nodos en un clúster y trabajar en paralelo. Los RDD son una estructura fundamental en Apache Spark.



Spark carga datos haciendo referencia a una fuente de datos o paralelizando una colección existente con el método SparkContext parallelize de almacenamiento en caché de datos en un RDD para su procesamiento. Una vez que los datos se cargan en un RDD, Spark realiza transformaciones y acciones en los RDD en la memoria, la clave de la velocidad de Spark. Spark también almacena los datos en la memoria a menos que el sistema se quede sin memoria o el usuario decida escribir los datos en el disco para su persistencia.

Cada conjunto de datos de un RDD se divide en particiones lógicas, que se pueden calcular en diferentes nodos del clúster. Y los usuarios pueden realizar dos tipos de operaciones RDD: transformaciones y acciones. Las transformaciones son operaciones que se aplican para crear un nuevo RDD. Las acciones se usan para indicar a Apache Spark que aplique el cálculo y devuelva el resultado al controlador.

Spark admite una variedad de acciones y transformaciones en RDD. Esta distribución la realiza Spark, por lo que los usuarios no tienen que preocuparse de calcular la distribución correcta.

Gráfico acíclico dirigido (DAG)



A diferencia del proceso de ejecución en dos fases de MapReduce, Spark crea un gráfico acíclico dirigido (DAG) para programar las tareas y la orquestación de los nodos de trabajo en todo el clúster. A medida que Spark actúa y transforma los datos en los procesos de ejecución de tareas, el programador de DAG facilita la eficacia mediante la orquestación de los nodos de trabajo en todo el clúster. Este seguimiento de tareas hace posible la tolerancia a fallos, ya que vuelve a aplicar las operaciones registradas a los datos de un estado anterior.



DataFrames y conjuntos de datos



Además de los RDD, Spark gestiona otros dos tipos de datos: DataFrames y Datasets.

Los DataFrames son las interfaces de programación de aplicaciones (API) estructuradas más comunes y representan una tabla de datos con filas y columnas. Aunque RDD ha sido una característica crucial para Spark, ahora está en modo de mantenimiento. Debido a la popularidad de la biblioteca de machine learning de Spark (MLlib), DataFrames ha asumido el papel principal como API principal de MLlib (un conjunto de algoritmos de machine learning para la escalabilidad, además de herramientas para la selección de características y la creación de canalizaciones de ML). Es importante tener esto en cuenta cuando se usa la API de MLlib, ya que los DataFrames proporcionan uniformidad en los distintos lenguajes, como Scala, Java, Python y R.

Los conjuntos de datos son una extensión de DataFrames que proporcionan una interfaz de programación orientada a objetos y con seguridad de tipos. Los conjuntos de datos son, de forma predeterminada, una colección de objetos JVM fuertemente tipados, a diferencia de los DataFrames.

Spark SQL permite consultar datos desde DataFrames y almacenes de datos SQL, como Apache Hive. Las consultas SQL de Spark devuelven un DataFrame o un conjunto de datos cuando se ejecutan en otro lenguaje.

Spark Core



Spark Core es la base de todo el procesamiento de datos paralelos y gestiona la programación, optimización, RDD y abstracción de datos. Spark Core proporciona la base funcional para las bibliotecas de Spark, Spark SQL, Spark Streaming, la biblioteca de machine learning MLlib y el procesamiento de datos de gráficos de GraphX. El Spark Core y el gestor de clústeres distribuyen los datos por el clúster Spark y los abstraen. Esta distribución y abstracción hacen que la gestión de Big Data sea muy rápida y fácil de usar.



API de Spark



Spark incluye una variedad de interfaces de programación de aplicaciones (API) para llevar el poder de Spark al público más amplio. Spark SQL permite la interacción con los datos RDD de forma relacional. Spark también cuenta con una API bien documentada para Scala, Java, Python y R. La API de cada lenguaje en Spark tiene sus matices específicos en cuanto a la forma en que maneja los datos. Los RDD, DataFrames y Datasets están disponibles en la API de cada idioma. Con API para tal variedad de idiomas, Spark hace que el procesamiento de big data sea accesible a grupos más diversos de personas con orígenes en desarrollo, ciencia de datos, ingeniería de datos y estadísticas.