¿Qué es extracción, carga, transformación (ELT)?

Vista aérea del sitio de construcción de Barangaroo

¿Qué es ELT?

ELT, que significa "Extracción, Carga, Transformación", es otro tipo de proceso de integración de datos, similar a su homólogo ETL, "Extracción, Transformación, Carga". Este proceso mueve los datos sin procesar de un sistema de origen a un recurso de destino, como un almacén de datos.

Aunque es similar a ETL, ELT es un enfoque fundamentalmente diferente para el preprocesamiento de datos que solo se ha adoptado más recientemente con la transición a entornos en la nube.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Cómo funciona ELT

ELT consta de tres etapas principales: extracción, carga y transformación. A continuación se detalla cada una de estas etapas.

Extracción

Durante la extracción de datos, los datos sin procesar se copian o exportan desde las ubicaciones de origen a una zona de preparación. El conjunto de datos puede consistir en muchos tipos de datos y proceder de prácticamente cualquier fuente estructurada o no estructurada, entre otras:

  • Servidores SQL o NoSQL
  • Sistemas CRM y ERP
  • Archivos de texto y documentos
  • Correo electrónico
  • Páginas web

Dicho esto, se suele utilizar con datos no estructurados.

Carga

En este paso, los datos transformados se trasladan del área de preparación a un área de almacenamiento de datos, como un almacén de datos o un data lake.

Para la mayoría de las organizaciones, el proceso de carga de datos es automatizado, bien definido, continuo y por lotes. Por lo general, ELT tiene lugar durante el horario laboral, cuando el tráfico en los sistemas de origen y el almacén de datos está en su punto máximo y los consumidores esperan para utilizar los datos para analizarlos o de otro modo.

Transformación

En esta etapa, se emplea un enfoque de esquema en escritura, que aplica el esquema para los datos mediante SQL o transforma los datos antes del análisis. Esta etapa puede implicar lo siguiente:

  • Filtrar, depurar, desduplicar, validar y autenticar los datos.
  • Realización de cálculos, traducciones, análisis de datos o resúmenes basados en los datos brutos. Esto puede incluir cualquier cosa, desde cambiar los encabezados de filas y columnas por coherencia hasta convertir divisas o unidades de medida, así como editar cadenas de texto y añadir o promediar valores, lo que sea necesario para adaptarse a los fines analíticos o de BI específicos de la organización.
  • Eliminar, cifrar, ocultar o proteger de otro modo los datos regidos por las normas gubernamentales o industriales.
  • Dar formato a los datos en tablas o tablas unidas en función del esquema implementado en el almacén.
Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

ETL vs ELT

Es posible confundir ELT con su proceso hermano, conocido por un acrónimo casi idéntico. Sin embargo, hay varias diferencias claras entre ELT y ETL, que son las siglas de extraer, transformar y cargar. Es un proceso de integración de datos que combina datos de múltiples fuentes de datos en un único almacén de datos coherente que se carga en un almacén de datos u otro sistema de destino. Las herramientas ETL tradicionales se diseñaron para crear almacenamiento de datos en apoyo de aplicaciones de Inteligencia Empresarial (BI) e Inteligencia Artificial (IA).

ETL y ELT: ¿cuáles son las diferencias?

La diferencia obvia es que el proceso ELT realiza la función de Carga antes que la de Transformación, una inversión del segundo y tercer paso del proceso ETL. ELT copia o exporta los datos desde las ubicaciones de origen, pero en lugar de cargarlos en un área de preparación para su transformación, carga los datos sin procesar directamente en el almacén de datos de destino para transformarlos según sea necesario. ELT no transforma ningún dato en tránsito.

Sin embargo, el orden de los pasos no es la única diferencia. En ELT, el almacén de datos de destino puede ser un almacén de datos, pero más a menudo es un data lake, que es un gran almacén central diseñado para almacenar datos estructurados y no estructurados a gran escala.

Los data lakes se gestionan mediante una plataforma de big data (como Apache Hadoop) o un sistema de gestión de datos NoSQL distribuido. Pueden respaldar la inteligencia empresarial, pero con mayor frecuencia, se crean para admitir la inteligencia artificial, el machine learning, el análisis predictivo y las aplicaciones impulsadas por datos en tiempo real y flujos de eventos.

También hay otras diferencias entre ETL y ELT. Por ejemplo, debido a que transforma los datos antes de moverlos al repositorio central, ETL puede hacer que el cumplimiento de la privacidad de datos sea más simple o más sistemático que ELT (por ejemplo, si los analistas no transforman los datos confidenciales antes de que necesiten usarlos, podrían permanecer desenmascarados en el lago de datos). Sin embargo, los científicos de datos podrían preferir ELT, que les permite trabajar en una "entorno aislado" de datos sin procesar y realizar su propia transformación de datos adaptada a aplicaciones específicas. Pero, en la mayoría de los casos, la elección entre ETL y ELT dependerá de la elección entre los recursos y las necesidades comerciales disponibles.

Beneficios del ELT

ELT ofrece varias ventajas para los usuarios que integran el proceso en sus flujos de trabajo. Echemos un vistazo a algunos de los beneficios notables:

Mueva los datos al destino más rápido para una disponibilidad más rápida

Cuando se generan grandes cantidades de datos de streaming, ELT permite que los datos se carguen inmediatamente y transforma los datos una vez que llegan a su destino. Esto evita cualquier ralentización que a menudo puede producirse si la transformación se produce antes de la función Load, como en ETL. A menudo, hay que tomar decisiones en relación con estos datos y los retrasos son inaceptables. Un ejemplo de ello es el mercado bursátil, que genera grandes cantidades de datos que se consumen en tiempo real. En situaciones como ésta, ELT es la solución preferida porque la transformación se produce después de que los datos lleguen a su destino.

Preocupaciones distintas

Dado que los datos se transforman cuando llegan a su destino, ELT permite que el destinatario de los datos controle la manipulación de datos. Con ELT, el desacoplamiento de las etapas de transformación y carga garantiza que un error de codificación u otro error en la etapa de transformación no afecte a otra etapa.

Evite problemas de escalado del servidor

ELT utiliza la potencia y el tamaño del almacén de datos para permitir la transformación, o la computación escalable, a gran escala. El almacén de datos de destino puede aumentar o disminuir los nodos según sea necesario, particularmente en un escenario de nube donde hay múltiples nodos dentro de cada clúster, y múltiples clústeres que pueden ser utilizados. Esto permite flexibilidad y escalabilidad bajo demanda.

Ahorre dinero

ELT requiere un servidor menos potente para la transformación de datos y aprovecha los recursos que ya están en el almacén. Esto se traduce en ahorros de costes y eficiencia de recursos.

Flexibilidad

ELT permite el uso del repositorio de destino de su elección, para mayor flexibilidad de costes y recursos. Los almacenes de datos utilizan la arquitectura MPP (procesamiento paralelo masivo), incluido el almacenamiento de volúmenes de datos basado en memoria en columnas. También se admiten procesos de data lake que aplican un esquema o modelo de transformación tan pronto como se reciben los datos (también denominado “esquema en lectura”). Estos procesos eficientes proporcionan flexibilidad para grandes cantidades de datos.

Operaciones continuas

El funcionamiento continuo es ideal para cualquier entorno que requiera un acceso rápido a los datos. ELT es adecuado para los datos utilizados en entornos de nube, que suelen incluir aplicaciones a las que se accede bajo demanda de forma continua. Del mismo modo, la transformación ELT nativa de la nube proporciona la escalabilidad y flexibilidad antes mencionadas.

Desafíos asociados con el paso de una arquitectura ETL a una arquitectura ELT

Una organización puede optar por la transición de una arquitectura ETL a una arquitectura ELT. El motivo de la transición puede ser un cambio en el uso de su producto o servicio que haga necesaria una respuesta e interacción en tiempo real, o que la cantidad de datos haya crecido exponencialmente y la transformación esté retrasando la fase de carga debido a las demandas de procesamiento de gran volumen en la infraestructura. Una organización también puede optar por la transición de ETL a ELT si se ha trasladado a la nube y desea descargar el procesamiento o utilizar los datos en la ubicación de destino antes.

En un escenario de transición, es realista esperar encontrar desafíos. En primer lugar, se utilizan lógicas y códigos completamente diferentes en ELT y ETL. Esto podría requerir una reconfiguración completa y, posiblemente, una nueva infraestructura o un nuevo proveedor con infraestructura en la nube. Además, con ELT, los datos brutos se envían al almacén de destino. Por lo tanto, la seguridad es una consideración y debe implementarse para mantener los datos seguros.

El pasado y el futuro del ELT

ELT no es una tecnología nueva. Las tablas de preparación se utilizaban anteriormente para trasladar datos a un almacén para su procesamiento y transformación, a menudo mediante secuencias de comandos SQL. Las secuencias de comandos SQL están codificadas de forma rígida y, por tanto, sujetas a posibles errores de codificación. Con el uso de SQL, los clientes tenían que elegir entre la ejecución nativa del almacén mediante scripts SQL y la programación declarativa, también conocida como autoría declarativa. La autoría declarativa proporciona las ventajas de los entornos de almacén de datos más modernos, basados en la nube, mediante la creación de código que describe lo que el programa debe lograr en lugar de cómo lo logrará. Este proceso evita los errores de codificación inherentes a otros procesos, sobre todo cuando la transformación se produce antes de la función de carga.

Casos de uso

ELT se utiliza normalmente en entornos de uso de datos de gran volumen o en tiempo real. Ejemplos concretos son:

  • Organizaciones que necesitan acceso instantáneo. Algunos ejemplos son las bolsas de valores o los grandes distribuidores mayoristas de acciones, componentes industriales y otros materiales, que necesitan acceder en tiempo real a los datos actuales para disponer de un acceso inmediato a la inteligencia empresarial.
  • Organizaciones con grandes volúmenes de datos. Algunos ejemplos son los sistemas meteorológicos, como los servicios meteorológicos, que recogen, cotejan y utilizan grandes cantidades de datos de forma periódica. Las empresas con grandes volúmenes de transacciones también podrían entrar en esta categoría. Una organización como un laboratorio de astronomía con telescopios extremadamente grandes genera una gran cantidad de datos que deberán ser recopilados y analizados. Podría haber superposición entre las dos categorías, ya que hay muchas industrias que producen y utilizan una gran cantidad de datos y necesitan acceso en tiempo real a esos datos.
Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explore StreamSets
IBM Databand

Descubra IBM Databand, el software de observabilidad para canalizaciones de datos. Recopila metadatos automáticamente para crear líneas de base históricas, detectar anomalías y crear flujos de trabajo para solucionar problemas relacionados con la calidad de los datos.

Explorar Databand
Soluciones de integración de datos

Cree canalizaciones de datos resilientes, de alto rendimiento y con costes optimizados para sus iniciativas de IA generativa, análisis en tiempo real, modernización de almacenes y necesidades operativas con las soluciones de integración de datos de IBM.

Descubra las soluciones de integración de datos
Dé el siguiente paso

Descubra IBM DataStage, una herramienta ETL (Extracción, Transformación y Carga) que ofrece una interfaz visual para diseñar, desarrollar e implementar canalizaciones de datos. Está disponible como SaaS gestionado en IBM Cloud, para autoalojamiento y como complemento de IBM Cloud Pak for Data.

Explorar DataStage Explore los servicios de análisis