¿Qué es ELT (Extraer, Cargar, Transformar)?

¿Qué es ELT?

ELT, del inglés "Extract, Load, Transform", que significa extraer, cargar y transformar, es otro tipo de proceso de integración de datos, similar a ETL, "Extract, Transform, Load": extraer, transformar y cargar. Este proceso mueve datos sin procesar de un sistema de origen a un recurso de destino, como un almacén de datos. Si bien es similar a ETL, ELT es un enfoque fundamentalmente diferente al procesamiento previo de datos, que se ha empezado a adoptar más recientemente con la transición a entornos en la nube.

Cómo funciona ELT

ELT consta de tres etapas principales: extraer, cargar y transformar. A continuación, se detalla cada una de estas etapas.

Extraer

Durante la extracción de datos, los datos sin procesar se copian o se exportan desde las ubicaciones de origen a un área de transferencia. El conjunto de datos puede constar de muchos tipos de datos y proceder de prácticamente cualquier fuente estructurada o no estructurada, incluidos, entre otros:

Servidores SQL o No SQL
Sistemas CRM y ERP
Archivos de texto y documento
Correo electrónico
Páginas web

Dicho esto, se suele usar más con datos no estructurados.

Cargar

En este paso, los datos transformados se mueven del área de transferencia a un área de almacenamiento de datos, como un almacén de datos o data lake.

Para la mayoría de las organizaciones, el proceso de carga de datos es automatizado, bien definido, continuo y por lotes. Por lo general, ELT se realiza durante el horario laboral, cuando el tráfico en los sistemas de origen y el almacén de datos está en su pico y los consumidores están esperando para utilizar los datos para análisis o de otro modo.

Transformar

En esta etapa, se emplea un enfoque de esquema en escritura, que aplica el esquema para los datos usando SQL, o transforma los datos, antes del análisis. Esta etapa puede involucrar lo siguiente:

Filtrar, limpiar, deduplicar, validar y autenticar los datos.
Realizar cálculos, traducciones, análisis de datos o resúmenes a partir de los datos sin procesar. Esto puede incluir todo, desde cambiar los encabezados de fila y columna por coherencia hasta convertir monedas o unidades de medida, así como editar cadenas de texto y agregar o generar promedios de valores, todo lo que sea necesario para ajustar la BI específica de la organización o los propósitos analíticos.
Eliminar, cifrar, ocultar o de otra manera proteger los datos regidos por normativas gubernamentales o del sector.
Dar formato a los datos en tablas o tablas unidas en función del esquema desplegado en el almacén.

ETL frente a ELT

Es posible confundir ELT con su proceso hermano conocido por un acrónimo casi idéntico. Sin embargo, hay varias diferencias claras entre ELT y ETL, que significa extraer, transformar y cargar. Consiste en un proceso de integración de datos que combina datos de varios orígenes de datos en un único almacén de datos coherente, que se carga en un almacén de datos u otro sistema de destino. Las herramientas de ETL tradicionales se diseñaron para crear almacenes de datos como soporte a las aplicaciones de Business Intelligence (BI) e Inteligencia Artificial (IA).

ETL y ELT: ¿en qué se diferencian?

La diferencia obvia es que el proceso de ELT realiza la función de carga antes que la función de transformación, una reversión del segundo y tercer paso del proceso de ETL. ELT copia o exporta los datos desde las ubicaciones de origen, pero en lugar de moverlos a un área de transferencia para la transformación, carga los datos sin procesar directamente en el almacén de datos de destino para que se transformen según sea necesario. ELT no transforma ningún dato en tránsito.

Sin embargo, el orden de los pasos no es la única diferencia. En ELT, el almacén de datos de destino puede ser un almacén de datos, pero con más frecuencia es un data lake, que es un gran almacén central diseñado para retener datos estructurados y no estructurados a escala masiva.

Los data lakes se gestionan mediante una plataforma de big data (como Apache Hadoop) o un sistema de gestión de datos NoSQL distribuido. Pueden dar soporte a business intelligence, pero sobre todo, se crean como soporte a la inteligencia artificial, machine learning, análisis predictivo y aplicaciones basadas en secuencias de sucesos y datos en tiempo real.

También hay otras diferencias entre ETL y ELT. Por ejemplo, dado que transforma los datos antes de moverlos al repositorio central, ETL puede simplificar el cumplimiento de la privacidad de datos, o hacerlo más sistemático, que ELT (por ejemplo, si los analistas no transforman datos confidenciales antes de necesitarlos, podrían permanecer desenmascarados en el data lake). Sin embargo, los científicos de datos pueden preferir ELT, que les permite "jugar en un recinto de pruebas" de datos sin procesar y hacer su propia transformación de datos adaptada a aplicaciones específicas. Pero, en la mayoría de los casos, la elección entre ETL y ELT dependerá de los recursos disponibles y las necesidades del negocio.

Ventajas de ELT

ELT ofrece varias ventajas para los usuarios que integran el proceso en sus flujos de trabajo. Echemos un vistazo a algunas de las ventajas más destacadas:

Mover los datos al destino más rápidamente para acelerar la disponibilidad

Cuando se generan grandes cantidades de datos en streaming, ELT permite que los datos se carguen inmediatamente y los transforma una vez que llegan a su destino. Esto evita cualquier ralentización que a menudo puede ocurrir si la transformación se produce antes de la función de carga, como en ETL. A menudo, las decisiones deben tomarse en relación con estos datos y los retrasos son inaceptables. Un ejemplo de esto es el mercado bursátil, que genera grandes cantidades de datos que se consumen en tiempo real. En escenarios como este, ELT es la solución ideal porque la transformación ocurre después de que los datos lleguen a su destino.

Preocupaciones separadas

Debido a que los datos se transforman cuando llegan a su destino, ELT permite al destinatario de los datos controlar la manipulación de datos. Con ELT, el desacoplamiento de las etapas de transformación y carga garantiza que un error de codificación o de otro tipo en la etapa de transformación no afecte a otra etapa.

Evitar problemas al escalar el servidor

ELT utiliza la potencia y el tamaño del almacén de datos para habilitar la transformación, o el cálculo escalable, a gran escala. El almacén de datos de destino puede aumentar o disminuir los nodos según sea necesario, especialmente en un escenario en la nube donde hay varios nodos dentro de cada clúster y varios clústeres que se pueden utilizar. Esto ofrece flexibilidad y escalabilidad bajo demanda.

Ahorrar dinero

ELT requiere un servidor menos potente para la transformación de datos y aprovecha los recursos que ya están en el almacén. Esto se traduce en un ahorro de costes y un uso más eficiente de los recursos.

Flexibilidad

ELT habilita el uso del repositorio de destino de opción, para ganar flexibilidad de costes y recursos. Los almacenes de datos utilizan una arquitectura MPP (Massively Parallel Processing: procesamiento paralelo masivo), que incluye el almacenamiento de volúmenes de datos basado en memoria en columnas. También se admiten procesos de data lake que aplican un esquema, o modelo de transformación, tan pronto como se reciben los datos (también denominado "esquema en lectura"). Estos procesos eficientes ofrecen flexibilidad para grandes cantidades de datos.

Funcionamiento continuo

El funcionamiento continuo es ideal para cualquier entorno que requiera un acceso rápido a los datos. ELT es adecuado para los datos utilizados en entornos de nube que a menudo incluirán aplicaciones a las que se accede bajo demanda de forma continua. Asimismo, la transformación de ELT nativa en la nube proporciona la mencionada escalabilidad y flexibilidad.

Desafíos asociados a la migración de una arquitectura de ETL a ELT

Una organización puede optar por hacer la transición de arquitectura ETL a ELT. La razón para la transición podría ser un cambio en el uso de su producto o servicio, como que se necesita una respuesta e interacción en tiempo real, o que la cantidad de datos ha crecido exponencialmente y la transformación está retrasando la etapa de carga debido a las demandas de procesamiento de volúmenes elevados en la infraestructura. Una organización también puede optar por la transición de ETL a ELT si ha migrado a la nube y le gustaría descargar antes el procesamiento o el uso de los datos en la ubicación de destino.

En un escenario de transición, es realista esperar encontrarse desafíos. En primer lugar, ELT utiliza lógica y código completamente diferentes, en comparación con ETL. Esto podría requerir una reconfiguración completa y posiblemente una nueva infraestructura o un nuevo proveedor con infraestructura en la nube. Además, con ELT, los datos sin procesar se envían al almacén de destino. Por lo tanto, la seguridad es una consideración que debe implementarse para mantener los datos seguros.

Pasado y futuro de ELT

ELT no es una nueva tecnología. Las tablas de etapas ya se utilizaban antes para mover datos a un almacén para su procesamiento y transformación, a menudo con scripts SQL. Los scripts SQL están codificados de forma fija y, por lo tanto, están expuestos a posibles errores de codificación. Con el uso de SQL, los clientes tenían que elegir entre la ejecución del almacén nativo con scripts de SQL y la programación declarativa, también conocida como creación declarativa. La creación declarativa ofrece las ventajas de los entornos de almacén de datos basados en la nube más modernos a través de la creación de código que describe lo que el programa debe lograr en lugar de cómo lo logrará. Este proceso evita los errores de codificación inherentes a otros procesos, particularmente cuando la transformación se produce antes de la función de carga.

Casos de uso

ELT normalmente se utiliza en entornos de uso de datos en tiempo real o de volumen elevado. Ejemplos específicos son:

Organizaciones que necesitan acceso instantáneo. Entre los ejemplos se incluye la bolsa de valores o distribuidores mayoristas a gran escala de existencias, componentes industriales y otros materiales, que necesitan acceso en tiempo real a datos actuales para obtener acceso inmediato a business intelligence.
Organizaciones con grandes volúmenes de datos. Los ejemplos incluyen sistemas meteorológicos, como los servicios de predicción meteorológica que recopilan, cotejan y utilizan grandes cantidades de datos de forma periódica. Las empresas con grandes volúmenes de transacciones también podrían entrar en esta categoría. Una organización como un laboratorio de astronomía con telescopios extremadamente grandes genera una gran cantidad de datos que deberán cotejarse y analizarse. Podría haber solapamiento entre las dos categorías, ya que hay muchos sectores que producen y utilizan una gran cantidad de datos y necesitan acceso en tiempo real a esos datos.

Soluciones relacionadas

IBM Cloud Pak for Data

IBM Cloud Pak for Data es una plataforma de datos abierta y ampliable que proporciona un data fabric (entramado de datos) para facilitar todos los datos para IA y analítica en cualquier nube.

Explore IBM Cloud Pak for Data

IBM DataOps

La IA está descubriendo el valor de los datos de nuevas formas. Organice sus datos para prepararlos para un mundo dominado por la IA y el multicloud con soluciones de DataOps.

Explore IBM DataOps

Integración de datos

La integración de datos le permite transformar datos estructurados y no estructurados para distribuirlos a cualquier sistema en una plataforma de big data escalable.

Explore la integración de datos

Dé el siguiente paso

IBM ofrece diversos servicios y soluciones de integración de datos diseñados para facilitar un canal de datos listo para el negocio y darle a su empresa las herramientas que necesita para escalar de forma eficiente. IBM, líder en integración de datos, inspira a las empresas la confianza que necesitan para gestionar tecnología de machine learning, aplicaciones y proyectos de big data. Con plataformas líderes del sector, como IBM® Cloud Pak for Data, las organizaciones pueden modernizar sus procesos de DataOps y, al mismo tiempo, utilizar las mejores herramientas de virtualización para lograr la velocidad y la escalabilidad que su empresa necesita ahora y en el futuro.

Explore IBM® Cloud Pak for Data