ETL (extraer, transformar, cargar)
ETL es un proceso que extrae, transforma y carga datos de varios orígenes en un depósito de datos o en otro repositorio de datos unificado
Fondo negro y azul
¿Qué es ETL?

ETL, que significa  extraer, transformar y cargar,  es un proceso de integración de datos que combina datos de varios orígenes en un único almacén de datos coherentes que se carga en un  depósito de datos  u otro sistema de destino.

A medida que las bases de datos fueran adquiriendo popularidad en la década de 1970, ETL se introdujo como proceso para integrar y cargar los datos para cálculo y análisis, y acabó convirtiéndose en el método principal para procesar los datos en los proyectos de depósito de datos.

ETL proporciona la base de los flujos de trabajo de analítica de datos y machine learning. A través de una serie de reglas de negocio, ETL limpia y organiza los datos de manera acorde a las necesidades específicas de inteligencia empresarial, como informes mensuales, pero también puede ocuparse de análisis más avanzados, y mejorar así los procesos de back-end o las experiencias de  usuario final . Las organización suelen utilizar ETL para: 

  • Extraer  datos  de sistemas ya existentes
  • Limpiar los datos para mejorar su calidad y aportar coherencia
  • Cargar datos en una  base de datos de destino
Más información

Vea en vídeo cómo crear y ejecutar un trabajo ETL

Lea el informe del Gartner Magic Quadrant de 2021 para herramientas de integración de datos

Lea el resumen de IBM DataStage (169 KB)

ETL frente a ELT

La más obvia diferencia entre ETL y ELT es la diferencia en el orden de las operaciones. ELT copia o exporta los datos desde las ubicaciones de origen, pero en lugar de cargarlos en un área de transferencia para la transformación, carga los datos sin procesar directamente en el almacén de datos de destino para que se transformen según sea necesario.

Si bien ambos procesos utilizan diversos repositorios de datos, como bases de datos, almacenes de datos y lagos de datos, cada uno de ellos tiene sus ventajas y sus desventajas. ELT es particularmente útil para conjuntos de datos no estructurados de gran volumen, ya que la carga se puede realizar directamente desde el origen. ELT puede ser más apropiado la gestión de big data, ya que no necesita apenas planificación anticipada para la extracción y el almacenamiento de los datos. El proceso ETL, por otro lado, requiere más definición al principio. Se deben identificar puntos de datos específicos para la extracción, además de «llaves» potenciales para la integración en distintos en sistemas de origen. Una vez completadas esas tareas, todavía se deben crear las reglas de negocio para las transformaciones de datos. Por lo general, este trabajo puede tener dependencias de los requisitos de datos para un tipo de análisis de datos determinado, lo que marcará el nivel de resumen que debe tener los datos. Aunque ELT ha ganado popularidad con la adopción de las bases de datos en cloud, tiene sus propias desventajas por ser el proceso más nuevo, lo que implica que todavía no se han acabado de establecer las prácticas recomendadas.

Cómo funciona ETL

La forma más fácil de entender el funcionamiento de ETL es entender lo que sucede en cada paso del proceso.

Extraer

Durante la extracción de datos, los datos sin procesar se copian o se exportan desde las ubicaciones de origen a un área de transferencia. Los equipos de gestión de datos pueden extraer los datos desde diversos orígenes, que pueden ser estructurados o no estructurados. Entre estos orígenes se incluyen, entre otros:

  • Servidores SQL o  No SQL 
  • Sistemas CRM y ERP
  • Archivos sin formato
  • Correo electrónico
  • Páginas web

Transformar

En el área de transferencia, se realiza el procesamiento de los datos sin procesar. Es aquí donde los datos se transforman y se consolidan para cada caso de uso de análisis previsto. Esta fase puede englobar las tareas siguientes:

  • Filtrar, limpiar, deduplicar, validar y autenticar los datos.
  • Realizar cálculos, traducciones o resúmenes basados en los datos sin procesar. Por ejemplo,  modificar encabezados de fila y columna por coherencia, convertir divisas u otras unidades de medida, editar series de texto, etc.
  • Realizar auditorías para asegurar la calidad de los datos y la conformidad.
  • Eliminar, cifrar o proteger los datos controlados por entidades reguladoras gubernamentales o del sector.
  • Formatear los datos en tablas o tablas unidas para que coincidan con el esquema del depósito de datos de destino.

Cargar

En este último paso, los datos transformados se trasladan desde el área de transferencia a un depósito de datos de destino. Por lo general, esto implica una carga inicial de todos los datos, seguida de una carga periódica de los cambios de datos incrementales y, con menor frecuencia, renovaciones completas para borrar y sustituir los datos en el depósito. Para la mayoría de las organizaciones que utilizan ETL, se trata de un proceso automatizado, bien definido, continuo y por lotes. Por lo general, ETL se realiza fuera del horario laboral, cuando el tráfico de los sistemas de origen y el depósito de datos están en su punto más bajo.

ETL y otros métodos de integración de datos

ETL y ELT son solo dos de los métodos de integración de datos, y existen otros enfoques que también se utilizan para facilitar los flujos de trabajo de integración de datos. Algunos de ellos incluyen:

  • La captura de datos de cambio (CDC)  identifica y captura únicamente los datos de origen que han cambiado y traslada dichos datos al sistema de destino. CDC se puede utilizar para reducir los recursos necesarios durante el paso de extracción de ETL, y también se puede utilizar de forma independiente para mover los datos que han sido transformados en un lago de datos u otro repositorio en tiempo real.
  • La réplica de datos  copia los cambios de los orígenes de datos en tiempo real o por lotes en una base de datos central. La réplica de datos  se suele citar como método de integración de datos. De hecho, se usa más a menudo para crear copias de seguridad para  recuperación tras desastre.
  • La virtualización de datos  utiliza una capa de abstracción de software para crear una  vista  unificada, integrada y totalmente utilizable de datos sin copiar, transformar ni cargar físicamente los datos de origen en un sistema de destino. La funcionalidad de virtualización de datos  permite a las organizaciones crear depósitos de datos virtuales, lagos de datos y despensas de datos desde el mismo origen de datos para almacenar los datos sin los gastos ni la complejidad que conlleva crear y gestionar plataformas independientes para cada uno. Aunque la virtualización de datos se puede usar junto con ETL, cada vez más se considera una alternativa a ETL y a otros métodos de integración de datos físicos.
  • La integración de datos de secuencia (SDI)  es exactamente lo que parece: consume continuamente secuencias de datos en tiempo real, las transforma y las carga en un sistema de destino para su análisis. Aquí, la palabra clave es  continuamente. En lugar de integrar instantáneas de datos extraídas de los orígenes en un momento dado, SDI integra los datos constantemente a medida que están disponibles. SDI habilita un almacén de datos que sirve como base para análisis, machine learning y aplicaciones en tiempo real, a fin de mejorar la experiencia del cliente y la detección de fraude, entre otros aspectos. 
Ventajas y retos de ETL

Las soluciones ETL mejoran la calidad al realizar una limpieza de datos antes de cargarlos en otro repositorio. Puesto que se trata de una operación por lotes que requiere mucho tiempo, ETL se suele recomendar más para crear repositorios de datos de destino más pequeños que requieran actualizaciones menos frecuentes, mientras que otros métodos de integración de datos —como ELT (extraer, cargar, transformar), la captura de datos de cambio (CDC ) y la virtualización de datos— se utilizan para integrar volúmenes de datos cada vez mayores que cambian o secuencias de datos en tiempo real.

 

Más información sobre la integración de datos
Herramientas de ETL

Antes, las organizaciones escribían su propio código ETL. Ahora hay muchos servicios cloud y herramientas ETL comerciales y de código abierto entre los que elegir. Entre las características típicas de estos productos, se incluyen las siguientes:

  • Automatización integral y facilidad de uso:  las principales herramientas ETL automatizan todo el flujo de datos, desde los orígenes de datos hasta el depósito de datos de destino. Muchas herramientas recomiendan reglas para extraer, transformar y cargar los datos.
  • Una interfaz visual de arrastrar y soltar:  esta funcionalidad se puede utilizar para especificar reglas y flujos de datos.
  • Soporte para gestión de datos complejos:  incluye asistencia con operaciones complejas de cálculo, integración de datos y manipulación de series.
  • Seguridad y conformidad:  las mejores herramientas ETL cifran los datos en reposo y en tránsito y están certificadas para el cumplimiento con las normativas gubernamentales o del sector, como HIPAA y GDPR.

Además, muchas herramientas ETL han evolucionado y ahora incluyen funcionalidad ELT y admiten la  integración de datos en streaming y en tiempo real para aplicaciones de inteligencia artificial (IA).

El futuro de la integración:  API  con EAI

Las interfaces de programación de aplicaciones (API) que utilizan Enterprise Application Integration (EAI) pueden sustituir a ETL como solución más flexible y escalable que incluye integración de  flujos de trabajo . ETL sigue siendo el recursos principal de  integración de datos , pero EAI se utiliza cada vez más con  API  en configuraciones basadas en web.

Soluciones relacionadas
IBM Cloud Pak for Data

IBM Cloud Pak for Data es una plataforma de datos abierta y ampliable que proporciona un entramado de datos para facilitar todos los datos para IA y analítica en cualquier cloud.

Explore IBM Cloud Pak for Data
IBM DataOps

La IA está descubriendo el valor de los datos de nuevas formas. Organice sus datos para prepararlos para un mundo dominado por la IA y el multicloud con soluciones de DataOps.

Explore IBM DataOps
Integración de datos

La integración de datos le permite transformar datos estructurados y no estructurados para distribuirlos a cualquier sistema en una plataforma de big data escalable.

Explore la integración de datos
Recursos Hive como herramienta para ETL o ELT

Extraer, transformar y cargar O extraer, cargar y luego transformar

ELT frente a ETL: ¿en qué se diferencian?

Conozca las similitudes y las diferencias en las definiciones, las ventajas y los casos de uso de ELT y ETL.

Making Data Simple: Al Martin y Michel Tricot hablan sobre tecnología, ELT frente a ETL, Airbyte y el emprendimiento

Making Data Simple está presentado por Al Martin, VP de IBM Expert Services Delivery. De la mano de un grupo de expertos, el programa ofrece las últimas ideas sobre big data, IA y cómo afectan a la empresa.

Dé el siguiente paso

IBM ofrece diversos servicios y soluciones integración de datos diseñados para facilitar un canal de datos listo para el negocio y darle a su empresa las herramientas que necesita para escalar de forma eficiente. IBM, líder en integración de datos, inspira a las empresas la confianza que necesitan para gestionar tecnología de machine learning, aplicaciones y proyectos de big data. Con plataformas líderes del sector, como IBM® Cloud Pak for Data, las organizaciones pueden modernizar sus procesos de DataOps y, al mismo tiempo, utilizar las mejores herramientas de virtualización para lograr la velocidad y la escalabilidad que su empresa necesita ahora y en el futuro.

Explore IBM Cloud Pak® for Data