¿Qué es ELT (extraer, cargar, transformar)?

ELT, del inglés "Extract, Load, Transform", que significa extraer, cargar y transformar, es otro tipo de proceso de integración de datos, similar a ETL, "Extract, Transform, Load": extraer, transformar y cargar. Mueve datos sin procesar de un sistema de origen a un recurso de destino, como un almacén de datos.

Si bien es similar a ETL, ELT es un enfoque fundamentalmente diferente para el preprocesamiento de datos, que se ha empezado a adoptar más recientemente con la transición a entornos en la nube.

Cómo funciona ELT

ELT consta de tres etapas principales: extraer, cargar y transformar. Cada una de estas etapas se detalla a continuación.

Extraer

Durante la extracción de datos, los datos sin procesar se copian o exportan desde las ubicaciones de origen a un área de preparación. El conjunto de datos puede constar de muchos tipos de datos y provenir de prácticamente cualquier fuente estructurada o no estructurada, que incluye, entre otros:

Servidores SQL o NoSQL
Sistemas CRM y ERP
Archivos de texto y documentos
E-mail
Páginas web

Dicho esto, se usa más comúnmente con datos no estructurados.

Cargar

En este paso, los datos transformados se mueven desde el área de preparación a un área de almacenamiento de datos, como un almacén de datos o un data lake.

Para la mayoría de las organizaciones, el proceso es automatizado, bien definido, continuo y por lotes. Por lo general, ELT se lleva a cabo durante el horario comercial cuando el tráfico en los sistemas de origen y el almacén de datos está en su punto máximo y los consumidores están esperando para usar los datos para análisis o de otra manera.

Transformar

En esta etapa, se emplea un enfoque de esquema en escritura, que aplica el esquema a los datos usando SQL, o transforma los datos, antes del análisis. Esta etapa puede involucrar lo siguiente:

Filtrar, limpiar, desduplicar, validar y autenticar los datos.
Realizar cálculos, traducciones, análisis de datos o resúmenes a partir de los datos sin procesar. Esto puede incluir todo, desde cambiar los encabezados de filas y columnas para mantener la consistencia hasta convertir monedas o unidades de medida, así como editar cadenas de texto y agregar o promediar valores, lo que sea necesario para adaptarse a los propósitos analíticos o de BI específicos de la organización.
Eliminar, cifrar, ocultar o de otra manera proteger los datos regidos por normativas gubernamentales o de la industria.
Dar formato a los datos en tablas o tablas unidas según el esquema implementado en el almacén.

ETL VS ELT

Es posible confundir ELT con su proceso hermano conocido por un acrónimo casi idéntico. Sin embargo, existen varias diferencias claras entre ELT y ETL.

Es un proceso de integración de datos que combina datos de múltiples fuentes de datos en un único almacén de datos consistente que se carga en un almacén de datos u otro sistema de destino. Las herramientas ETL tradicionales se diseñaron para crear almacenamiento de datos en apoyo de las aplicaciones de inteligencia empresarial (BI) e inteligencia artificial (AI).

ETL y ELT: ¿cuáles son las diferencias?

La diferencia obvia es que el proceso ELT realiza la función de carga antes que la función de transformación, una inversión del segundo y tercer paso del proceso ETL. ELT copia o exporta los datos de las ubicaciones de origen, pero en lugar de moverlos a un área de preparación para la transformación, carga los datos sin procesar directamente en el almacén de datos de destino para transformarlos según sea necesario. ELT no transforma ningún dato en tránsito.

Sin embargo, el orden de los pasos no es la única diferencia. En ELT, el almacén de datos de destino puede ser un almacén de datos, pero más a menudo es un data lake, que es una gran tienda central diseñada para almacenar datos estructurados y no estructurados a gran escala.

Los data lakes se gestionan mediante una plataforma de big data (como Apache Hadoop) o un sistema de gestión de datos NoSQL distribuido. Pueden admitir inteligencia empresarial, pero con mayor frecuencia, se crean para admitir inteligencia artificial, machine learning, analítica predictiva y aplicaciones basadas en datos en tiempo real y flujos de eventos.

También existen otras diferencias entre ETL y ELT. Por ejemplo, debido a que transforma los datos antes de moverlos al repositorio central, ETL puede hacer que el cumplimiento de la privacidad de los datos sea más simple o más sistemático que ELT (por ejemplo, si los analistas no transforman los datos confidenciales antes de que necesiten usarlos, podría quedarse desenmascarado en el data lake).

Sin embargo, los científicos de datos pueden preferir ELT, que les permite jugar en un recinto de seguridad de datos sin procesar y hacer su propia transformación de datos adaptada a aplicaciones específicas. Pero, en la mayoría de los casos, la elección entre ETL y ELT dependerá de la elección entre los recursos y las necesidades comerciales disponibles.

Beneficios de ELT

ELT ofrece varias ventajas para los usuarios que integran el proceso en sus flujos de trabajo. Echemos un vistazo a algunos de los beneficios notables:

Mover los datos al destino más rápidamente para acelerar la disponibilidad

Cuando se generan grandes cantidades de datos en streaming, ELT permite que esos datos se carguen inmediatamente y los transforma después de que llegan a su destino.

Esto evita cualquier desaceleración que a menudo puede ocurrir si la transformación se produce antes de la función de carga, como en ETL. A menudo, es necesario tomar decisiones en relación con estos datos y las demoras son inaceptables. Un ejemplo de esto es el mercado de valores, que genera grandes cantidades de datos que se consumen en tiempo real.

En escenarios como este, ELT es la solución preferida porque la transformación ocurre después de que los datos llegan a su destino.

Preocupaciones separadas

Debido a que los datos se transforman cuando llegan a su destino, ELT permite que el destinatario de los datos controle la manipulación de datos. Con ELT, el desacoplamiento de las etapas de transformación y carga garantiza que un error de codificación u otro error en la etapa de transformación no afecte a otra etapa.

Evitar problemas al escalar el servidor

ELT utiliza la potencia y el tamaño del almacén de datos para permitir la transformación o la computación escalable a gran escala.

El almacén de datos de destino puede aumentar o disminuir los nodos según sea necesario, particularmente en un escenario de nube donde hay múltiples nodos dentro de cada clúster y múltiples clústeres que se pueden utilizar. Esto permite flexibilidad y escalabilidad bajo demanda.

Ahorrar dinero

ELT requiere un servidor menos potente para la transformación de datos y aprovecha los recursos que ya se encuentran en el almacén. Esto se traduce en ahorros de costos y eficiencia de recursos.

Flexibilidad

ELT permite el uso del repositorio de destino de elección, para flexibilidad de costos y recursos.

Los almacenes de datos utilizan la arquitectura MPP (procesamiento masivo paralelo), incluyendo el almacenamiento de volúmenes de datos basado en memoria en columnas. También se admiten los procesos de data lake que aplican un esquema, o modelo de transformación, tan pronto como se reciben los datos (también denominado "esquema en lectura"). Estos procesos eficientes brindan flexibilidad para grandes cantidades de datos.

funcionamiento continuo

El funcionamiento continuo es ideal para cualquier entorno que requiera un acceso rápido a los datos.

ELT es muy adecuado para los datos utilizados en entornos de nube que a menudo incluirán aplicaciones a las que se accede a pedido de forma continua. Asimismo, la transformación ELT nativa de la nube proporciona la escalabilidad y flexibilidad mencionadas anteriormente.

Desafíos asociados con el paso de una arquitectura ETL a ELT

Una organización puede optar por realizar la transición de una arquitectura ETL a ELT.

El motivo de la transición podría ser un cambio en el uso de su producto o servicio, de modo que se necesite una respuesta e interacción en tiempo real, o que la cantidad de datos haya crecido exponencialmente y la transformación esté retrasando la etapa de carga debido a las demandas de procesamiento de alto volumen en la infraestructura.

Una organización también puede optar por realizar la transición de ETL a ELT si se ha trasladado a la nube y desea descargar el procesamiento o utilizar los datos en la ubicación de destino antes.

En un panorama de transición, es realista esperar encontrar desafíos. En primer lugar, se utilizan lógica y código completamente diferentes en ELT frente a ETL. Esto podría requerir una reconfiguración completa y posiblemente una nueva infraestructura o un nuevo proveedor con infraestructura en la nube.

Además, con ELT, los datos sin procesar se envían al almacén de destino. Por lo tanto, la seguridad es una consideración y debe implementarse para mantener la seguridad de los datos.

El pasado y el futuro de ELT

ELT no es una tecnología nueva. Las tablas de preparación se usaban anteriormente para mover datos a un almacén para su procesamiento y transformación, a menudo usando scripts SQL.

Los scripts SQL están codificados de forma rígida y, por lo tanto, están sujetos a posibles errores de codificación. Con el uso de SQL, los clientes tenían que elegir entre la ejecución del almacén nativo mediante scripts SQL y la programación declarativa, también conocida como autoría declarativa.

La autoría declarativa proporciona los beneficios de entornos de almacenamiento de datos basados en la nube más modernos a través de la creación de código que describe lo que el programa debe lograr en lugar de cómo lo logrará. Este proceso evita los errores de codificación inherentes a otros procesos, particularmente cuando la transformación ocurre antes de la función de carga.

Casos de uso

ELT se utiliza normalmente en entornos de uso de datos de gran volumen o en tiempo real. Ejemplos específicos son:

Organizaciones que necesitan acceso instantáneo. Los ejemplos incluyen bolsas de valores o distribuidores mayoristas a gran escala de acciones, componentes industriales y otros materiales, que necesitan acceso en tiempo real a los datos actuales para tener acceso inmediato a la inteligencia empresarial.
Organizaciones con grandes volúmenes de datos. Los ejemplos incluyen sistemas meteorológicos como los servicios meteorológicos que recopilan, cotejan y utilizan grandes cantidades de datos de forma regular. Las empresas con grandes volúmenes de transacciones también podrían caer en esta categoría. Una organización como un laboratorio de astronomía con telescopios extremadamente grandes genera una gran cantidad de datos que deberán recopilarse y analizarse. Podría haber una superposición entre las dos categorías, ya que hay muchas industrias que producen y utilizan una gran cantidad de datos y necesitan acceso en tiempo real a esos datos.

Soluciones relacionadas

IBM Cloud Pak for Data

IBM Cloud Pak for Data es una plataforma de datos abierta y extensible que proporciona una estructura de datos para que todos los datos estén disponibles para inteligencia artificial y analítica en cualquier nube.

Explore IBM Cloud Pak for Data

IBM DataOps

La IA libera el valor de los datos de nuevas formas. Organice sus datos para que estén listos para un mundo de IA y multinube con soluciones de DataOps.

Explore IBM DataOps

Integración de datos

La integración de datos le permite transformar datos estructurados y no estructurados y entregarlos a cualquier sistema en una plataforma de big data escalable.

Explore la integración de datos

Dé el siguiente paso

IBM ofrece varias herramientas y servicios de integración de datos diseñados para respaldar una línea de trabajo de datos lista para el negocio y brindarle a su empresa las herramientas que necesita para escalar de manera eficiente. IBM, líder en integración de datos, brinda a las empresas la confianza que necesitan al gestionar proyectos de big data, aplicaciones y tecnologías de machine learning. Con plataformas líderes en la industria como IBM® Cloud Pak for Data, las organizaciones pueden modernizar sus procesos de DataOps y, al mismo tiempo, utilizar las mejores herramientas de virtualización para lograr la velocidad y escalabilidad que sus negocios necesitan ahora y en el futuro.

Explore IBM® Cloud Pak for Data