¿Qué es un Conjunto de Datos Distribuido Resiliente (RDD)?

Representación conceptual 3D de varias formas

Autores

James Holdsworth

Content Writer

Staff Editor

IBM Think

¿Qué es un Conjunto de Datos Distribuido Resiliente (RDD)?

Un Conjunto de Datos Distribuido Resiliente (RDD) es una colección de elementos inmutable y tolerante a fallas que se pueden distribuir en varios nodos de cluster para procesarlos en paralelo. Los RDDs son la estructura de datos básica dentro del motor de procesamiento de datos de código abierto Apache Spark.

Spark se desarrolló para abordar las deficiencias en MapReduce, un modelo de programación para “dividir” una tarea de procesamiento de datos de gran tamaño en tareas paralelas más pequeñas.

MapReduce puede ser lento e ineficiente. Requiere replicación (mantener múltiples copias de datos en diferentes ubicaciones), serialización (coordinar el acceso a los recursos utilizados por más de un programa) y E/S intensa (entrada/salida de almacenamiento en disco).

Spark reduce específicamente el procesamiento innecesario. Mientras que MapReduce escribe datos intermedios en el disco, Spark utiliza RDDs para almacenar en caché y calcular datos en la memoria. El resultado es que el analytics engine de Spark puede procesar datos 10–100 veces más rápido que MapReduce.¹

RDD y Apache Spark

Apache Spark es un motor de procesamiento de datos rápido, de código abierto y a gran escala que se utiliza a menudo para aplicaciones de aprendizaje automático (ML) e inteligencia artificial (IA). Spark puede verse como una mejora en Hadoop, más específicamente, en el marco de procesamiento de datos nativo de Hadoop, MapReduce.

Spark escala distribuyendo flujos de trabajo de procesamiento de datos a través de grandes clústeres de computadoras, con soporte integrado para computación paralela en múltiples nodos y tolerancia a fallos.

Incluye interfaces de programación de aplicaciones (APIs) para lenguajes de programación habituales de ciencia de datos e ingeniería de datos, incluyendo Java™, Python (PySpark), Scala y R.

Spark utiliza RDDs para gestionar y procesar datos. Cada RDD se divide en particiones lógicas, que se pueden calcular en diferentes nodos de clúster simultáneamente. Los usuarios pueden realizar 2 tipos de operaciones RDD: transformaciones y acciones.

Las transformaciones son operaciones que crean un nuevo RDD.
Las acciones indican a Spark que aplique el cálculo y pase el resultado al controlador de Spark, el proceso que gestiona los trabajos de Spark.

Spark realiza transformaciones y acciones en RDDs en la memoria—la clave de la velocidad de Spark. Spark también puede almacenar datos en la memoria o escribirlos en el disco para mayor persistencia.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think.

Cómo funciona RDD

Los Conjuntos de Datos Distribuidos Resilientes son resilientes y están distribuidos. Eso significa:

Resiliente

Los RDDs se denominan "resilientes" porque rastrean la información del linaje de datos para que los datos perdidos se puedan reconstruir si hay una falla, lo que hace que los RDDs sean altamente tolerantes a fallas.

Como ejemplo de esta resiliencia de datos, considere un núcleo ejecutor que se pierde durante el procesamiento de una partición de RDD. El controlador detectaría esa falla y esa partición se reasignaría a un núcleo ejecutor diferente.

Distribuido

Los RDDs se denominan "distribuidos" porque se dividen en grupos más pequeños de datos que se pueden distribuir a diferentes nodos informáticos y procesar simultáneamente.

Además de estas 2 características principales, RDD tiene otras características que contribuyen a su importancia y operaciones en Spark.

Cálculo en memoria

Muchos marcos de procesamiento de datos—y MapReduce en particular—deben realizar varias operaciones de lectura o escritura desde sistemas de almacenamiento externos, lo que ralentiza su rendimiento. RDD ayuda a Apache Spark a resolver este problema.

RDD reduce la E/S de disco mediante el uso de cálculos en memoria que almacenan resultados intermedios de operaciones iterativas en memoria de acceso aleatorio (RAM). El uso del cálculo y almacenamiento en memoria puede admitir un acceso más rápido y un procesamiento casi en tiempo real.

Los RDDs también pueden ayudar a acelerar el tiempo de capacitación para algoritmos de machine learning y el procesamiento de analytics de big data a gran escala. El uso del cálculo en memoria puede reducir el tiempo requerido para acceder al almacenamiento de datos.

Evaluación perezosa

En Spark, todas las transformaciones—operaciones aplicadas para crear un nuevo RDD—son "perezosas", es decir, los datos no se cargan ni calculan de inmediato.

En cambio, las transformaciones se rastrean en un gráfico acíclico dirigido (DAG) y se ejecutan solo cuando hay un llamado a la acción específico para un programa controlador.

El programa controlador dirige la función y las operaciones principales para el cálculo para clúster en trabajos de Spark, como la agregación, la recopilación, el recuento o el almacenamiento de resultados en un sistema de archivos.

Entre las docenas de acciones y transformaciones posibles se incluyen aggregateByKey, countByKey, flatMap, groupByKey, reduceByKey y sortbyKey.

La evaluación diferida ayuda a optimizar los pipelines de procesamiento de datos al eliminar el procesamiento innecesario y el recorte de cálculos innecesarios.

Particiones

Spark hace la partición automática de los RDDs en varios nodos para poder procesar grandes volúmenes de datos que no cabrían en un solo nodo. Para ayudar a evitar daños, cada partición se almacena en un nodo en lugar de distribuirla entre varios nodos.

RDD permite a las organizaciones definir la ubicación de las particiones informáticas para que las tareas puedan ejecutarse cerca de los datos requeridos. Esta ubicación ayuda a aumentar la velocidad de procesamiento.

Además, se puede aumentar el número de ejecutores (equipos que realizan tareas asignadas por el controlador) en el clúster para mejorar el paralelismo en el sistema. El nivel de paralelismo en la salida depende de la cantidad de particiones en el RDD principal.

Los RDDs se pueden crear en particiones lógicas en un clúster para permitir operaciones paralelas en varios nodos. Los RDDs se pueden crear a partir de varias fuentes de almacenamiento estables, tales como Amazon Web Services (AWS) S3, Hadoop Distributed File System (HDFS), Apache HBase y Cassandra. También se pueden crear a través de lenguajes de programación como Scala y Python.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Ir al episodio

Persistencia

Spark RDD puede almacenar en caché conjuntos de datos en la memoria en todas las operaciones. Cada nodo puede almacenar las particiones que ha calculado en la memoria y reutilizarlas para acciones posteriores en el conjunto de datos o en los conjuntos de datos resultantes. Esta persistencia puede acelerar enormemente el procesamiento.

Spark también ofrece a los usuarios opciones de almacenamiento interactivas, dándoles control sobre cómo se almacenan los datos. Los datos se pueden almacenar en memoria, en disco o una mezcla de ambos.

Inmutabilidad

Los RDDs son inmutables, lo que significa que no se pueden modificar después de su creación. La inmutabilidad ayuda a que los datos permanezcan estables a lo largo del tiempo a través de múltiples operaciones.

También hace que sea más fácil y seguro compartir datos entre múltiples procesos, y ayuda a proteger contra la corrupción que puede ser causada por actualizaciones simultáneas de diferentes hilos.

Si bien los RDDs son inmutables, los usuarios pueden crear nuevos RDDs aplicando transformaciones a los existentes, lo que permite actualizar los conjuntos de datos sin alterar los datos originales.

Capacidad para datos no estructurados

RDD puede procesar datos estructurados y no estructurados. Al procesar datos no estructurados, la información se puede extraer de múltiples tipos de bases de datos, flujos de medios o archivos de texto sin la necesidad de un esquema fijo o la creación de un DataFrame.

Dicho esto, los usuarios pueden crear DataFrames en Spark, lo que les permite beneficiarse de ciertas optimizaciones para mejorar el rendimiento.

IBM nombrado líder en integración iPaaS, Forrester Wave Q3 2025

Leer el informe para ver por qué Forrester clasificó a IBM como líder con la puntuación más alta en la categoría Oferta actual. Descubra cómo este liderazgo fortalece IBM webMethods MFT al ofrecer transferencias de archivos seguras y escalables dentro de una estrategia de integración empresarial más amplia.

Recursos

Gestión de datos para IA y analytics a escala

Descubra cómo un enfoque de lakehouse de datos abierto puede proporcionar datos fiables y una ejecución más rápida de los proyectos de analytics e IA.

Gartner® Magic Quadrant™ 2024 para herramientas de integración de datos

IBM fue nombrado líder por 19.º año consecutivo en Gartner® Magic Quadrant™ 2024 para herramientas de integración de datos.

The Data Differentiator

Explore la guía del líder de datos para crear una organización basada en datos e impulsar la ventaja empresarial.

Incremente la adopción de la IA con datos preparados para ella

Descubra por qué la inteligencia de datos impulsada por IA y la integración de datos son críticos a la hora de impulsar la preparación de datos estructurados y no estructurados y acelerar los resultados de IA.

El lakehouse de datos híbrido y abierto para la IA

Simplifique el acceso a los datos y automatice su gobernanza. Descubra el poder de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costos de sus cargas de trabajo y el escalado de IA y analytics, con todos sus datos, en cualquier lugar.

Publicaciones sobre gestión de datos de IBM® Research

Explore cómo IBM Research se integra de forma regular en las nuevas características de IBM® Cloud Pak for Data.

Predicciones de Gartner® para 2024: cómo afectará la IA a los usuarios de analytics

Obtenga insights únicos del panorama en evolución de las soluciones ABI, en el que se destaquen las principales conclusiones, suposiciones y recomendaciones para los líderes de datos y analytics.

Soluciones relacionadas

Software y soluciones de gestión de datos

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos

IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, sin importar donde residan, a través de un almacén de datos abierto, híbrido y gobernado.

Descubra watsonx.data

Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics

Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos

Descubra watsonx.data

Nota de pie de página

¹ Apache Spark™, Apache Software Foundation, 20 de diciembre de 2024.