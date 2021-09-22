Apache Spark tiene una arquitectura jerárquica maestro/esclavo. Spark Driver es el nodo maestro que controla el administrador del clúster, que nodos los nodos de trabajador (esclavos) y entrega los resultados de los datos al cliente de la aplicación.

Basado en el código de la aplicación, Spark Driver genera el SparkContext, que trabaja con el administrador de clústeres, el administrador de clústeres independiente de Spark u otros administradores de clústeres como Hadoop YARN, Kubernetes o Mesos, para distribuir y supervisar la ejecución en los nodos. También crea conjuntos de datos distribuidos resistentes (RDD), que son la clave de la notable velocidad de procesamiento de Spark.

Conjunto de datos distribuidos resilientes (RDD)

Los conjuntos de datos distribuidos resilientes (RDD) son colecciones de elementos tolerantes a fallas que se pueden distribuir entre varios nodos en un clúster y trabajar en paralelo. Los RDD son una estructura fundamental en Apache Spark.

Spark carga datos haciendo referencia a una fuente de datos o paralelizando una colección existente con el método de paralelización SparkContext en un RDD para su procesamiento.

Una vez que los datos se cargan en un RDD, Spark realiza transformaciones y acciones en los RDD en la memoria, la clave de la velocidad de Spark. Spark también almacena los datos en la memoria a menos que el sistema se quede sin memoria o el usuario decida escribir los datos en el disco para su persistencia.

Cada conjunto de datos en un RDD se divide en particiones lógicas, que pueden calcularse en diferentes nodos del clúster. Y los usuarios pueden realizar dos tipos de operaciones RDD: transformaciones y acciones. Las transformaciones son operaciones aplicadas para crear un nuevo RDD . Las acciones se utilizan para indicar a Apache Spark que aplique el cálculo y devuelva el resultado al controlador.

Spark admite una variedad de acciones y transformaciones en RDD. Esta distribución la realiza Spark, por lo que los usuarios no tienen que preocuparse por calcular la distribución correcta.

Gráfico acíclico dirigido (DAG)

A diferencia del proceso de ejecución de dos etapas en MapReduce, Spark crea un Gráfico acíclico dirigido (DAG) para programar tareas y la orquestación de nodos de trabajador en todo el clúster. A medida que Spark actúa y transforma los datos en procesos de ejecución de tareas, el programador DAG facilita la eficiencia al orquestar los nodos de trabajador en todo el clúster.

Este seguimiento de tareas hace posible la tolerancia a fallas, ya que vuelve a aplicar las operaciones registradas a los datos de un estado anterior.

DataFrames y conjuntos de datos

Además de los RDD, Spark maneja otros dos tipos de datos: DataFrames y Datasets.

Los DataFrames son las interfaces de programación de aplicaciones (API) estructuradas más comunes y representan una tabla de datos con filas y columnas. Aunque RDD ha sido una característica crítica para Spark, ahora está en modo de mantenimiento. Debido a la popularidad de la biblioteca de machine learning de Spark (MLlib), DataFrames ha asumido el papel principal como API principal para MLlib.

Es importante tener esto en cuenta cuando se usa la API de MLlib, ya que los DataFrames brindan uniformidad en los diferentes lenguajes, como Scala, Java, Python y R.

Los conjuntos de datos son una extensión de DataFrames que proporcionan una interfaz de programación orientada a objetos y con seguridad de tipos. Los conjuntos de datos son, por defecto, una colección de objetos JVM robustamente escritos, a diferencia de DataFrames.

Spark SQL permite consultar datos desde DataFrames y almacenes de datos SQL, como Apache Hive. Las consultas de Spark SQL devuelven un DataFrame o Dataset cuando se ejecutan en otro lenguaje.

Spark Core

Spark Core es la base para todo el procesamiento de datos en paralelo y maneja la programación, optimización, RDD y abstracción de datos. Spark Core proporciona la base funcional para las bibliotecas Spark, Spark SQL, Spark Streaming, la biblioteca de machine learning MLlib y el procesamiento de datos de gráficos GraphX. Spark Core y el administrador de clústeres distribuyen datos en el clúster de Spark y los abstraen.

Esta distribución y abstracción hacen que el manejo de Big Data sea muy rápido y fácil de usar.

API de Spark

Spark incluye una variedad de interfaces de programación de aplicaciones (API) para llevar el poder de Spark a la audiencia más amplia. Spark SQL permite la interacción con datos RDD de manera relacional.

Spark también tiene una API bien documentada para Scala, Java, Python y R. Cada API de lenguaje en Spark tiene sus matices específicos en la forma en que maneja los datos. Los RDD, DataFrames y Datasets están disponibles en cada API de lenguaje. Con API para tal variedad de lenguajes, Spark hace que el procesamiento de Big Data sea accesible para grupos más diversos de personas con experiencia en desarrollo, ciencia de datos y estadísticas.