ETL (extraer, transformar, cargar)
Integración Analítica
Fondo negro y azul
ETL (extraer, transformar, cargar)

ETL es un proceso que extrae, transforma y carga datos de múltiples fuentes a un almacén de datos u otro repositorio de datos unificado. 

Conozca más

Vea cómo crear y ejecutar un trabajo ETL

Lea el informe del Cuadrante Mágico de Gartner de 2021 para herramientas de integración de datos

Lea el resumen de IBM DataStage (169 KB)


¿Qué es ETL?

ETL, que significa extraer, transformar y cargar, es un proceso de integración de datos que combina datos de múltiples fuentes de datos en un único almacén de datos consistente que se carga en un almacén de datos  u otro sistema de destino.

A medida que las bases de datos crecieron en popularidad en la década de 1970, ETL se introdujo como un proceso para integrar y cargar datos para cálculo y análisis, convirtiéndose eventualmente en el método principal para procesar datos para proyectos de almacenamiento de datos.

ETL proporciona la base para el análisis de datos y los flujos de trabajo de machine learning. Mediante una serie de reglas comerciales, ETL limpia y organiza los datos de una manera que aborda las necesidades específicas de inteligencia comercial, como informes mensuales, pero también puede abordar analítica más avanzada, que puede mejorar los procesos de backend o las experiencias del usuario final . ETL a menudo se utiliza por una organización para: 

  • Extraer datos  de sistemas heredados
  • Limpiar los datos para mejorar la calidad de los datos y establecer la consistencia
  • Cargar datos en una  base de datos de destino

 

Productos destacados

DataStage

InfoSphere Information Server Enterprise Edition


ETL frente a ELT

La diferencia más obvia entre ETL y ELT es la diferencia en el orden de las operaciones. ELT copia o exporta los datos de las ubicaciones de origen, pero en lugar de cargarlos en un área de preparación para la transformación, carga los datos sin procesar directamente en el almacén de datos de destino para transformarlos según sea necesario.

Si bien ambos procesos aprovechan una variedad de repositorios de datos, como bases de datos, almacenes de datos y data lakes, cada proceso tiene sus ventajas y desventajas. ELT es particularmente útil para conjuntos de datos no estructurados de gran volumen, ya que la carga puede ocurrir directamente desde la fuente. ELT puede ser más ideal para la gestión de big data, ya que no necesita mucha planificación inicial para la extracción y el almacenamiento de datos. El proceso ETL, por otro lado, requiere más definición al inicio. Es necesario identificar puntos de datos específicos para la extracción junto con cualquier "clave" potencial para integrar en sistemas de origen dispares. Incluso después de completar ese trabajo, es necesario crear las normas empresariales para las transformaciones de datos. Este trabajo generalmente puede tener dependencias de los requisitos de datos para un tipo determinado de análisis de datos, lo que determinará el nivel de resumen que deben tener los datos. Si bien ELT se ha vuelto cada vez más popular con la adopción de bases de datos en la nube, tiene sus propias desventajas por ser el proceso más nuevo, lo que significa que aún se están estableciendo las mejores prácticas.


Cómo funciona ETL

La forma más fácil de comprender cómo funciona ETL es comprender qué sucede en cada paso del proceso.

Extraer

Durante la extracción de datos, los datos sin procesar se copian o exportan desde las ubicaciones de origen a un área de preparación. Los equipos de gestión de datos pueden extraer datos de una variedad de fuentes de datos, que pueden ser estructurados o no estructurados. Esas fuentes incluyen, pero no se limitan a:

  • Servidores SQL o NoSQL 
  • Sistemas CRM y ERP
  • Archivos planos
  • E-mail
  • Páginas web

Transformación

En el área de preparación, los datos brutos se procesan. Aquí, los datos se transforman y consolidan para su caso de uso analítico previsto. Esta fase puede implicar las siguientes tareas:

  • Filtrar, limpiar, desduplicar, validar y autenticar los datos.
  • Realización de cálculos, traducciones o resúmenes basados en los datos sin procesar. Esto puede  incluir cambiar los encabezados de filas y columnas para mantener la consistencia, convertir monedas u otras unidades de medida, editar cadenas de texto y más.
  • Realización de auditorías para garantizar la calidad y conformidad de los datos.
  • Eliminar, cifrar o proteger datos regidos por reguladores gubernamentales o de la industria
  • Dar formato a los datos en tablas o tablas unidas para que coincidan con el esquema del almacén de datos de destino.

Cargar

En este último paso, los datos transformados se mueven desde el área de preparación a un almacén de datos de destino. Por lo general, esto implica una carga inicial de todos los datos, seguida de una carga periódica de cambios de datos incrementales y, con menos frecuencia, actualizaciones completas para borrar y reemplazar los datos en el almacén. Para la mayoría de las organizaciones que utilizan ETL, el proceso es automatizado, bien definido, continuo y por lotes. Por lo general, ETL se lleva a cabo fuera del horario de atención cuando el tráfico en los sistemas de origen y el almacén de datos está en su nivel más bajo.


ETL y otros métodos de integración de datos

ETL y ELT son solo dos métodos de integración de datos, y existen otros enfoques que también se utilizan para facilitar los flujos de trabajo de integración de datos. Algunas de estas incluyen:

  • Captura de datos modificados (CDC)  identifica y captura solo los datos de origen que han cambiado y mueve esos datos al sistema de destino. CDC se puede utilizar para reducir los recursos necesarios durante el paso de "extracción" ETL. También se puede utilizar de forma independiente para mover datos que se han transformado en un data lake u otro repositorio en tiempo real.
  • La réplica de datos  copia los cambios en las fuentes de datos en tiempo real o en lotes a una base de datos central. La réplica de datos  a menudo aparece como un método de integración de datos. De hecho, se utiliza con mayor frecuencia para crear copias de seguridad para la  recuperación de desastres.
  • La virtualización de datos  utiliza una capa de abstracción de software para crear una  vista de datos  unificada, integrada y totalmente utilizable, sin copiar, transformar o cargar físicamente los datos de origen en un sistema de destino. La funcionalidad de virtualización de datos  permite a una organización crear almacenes de datos virtuales, data lakes y mercados de datos a partir de los mismos datos de origen para el almacenamiento de datos sin el gasto y la complejidad de crear y gestionar plataformas independientes para cada uno. Si bien la virtualización de datos se puede utilizar junto con ETL, se considera cada vez más una alternativa a ETL y a otros métodos de integración de datos físicos.
  • La integración de datos de flujo (SDI)  es exactamente lo que parece: consume continuamente flujos de datos en tiempo real, los transforma y los carga en un sistema de destino para su análisis. La palabra clave aquí es constantemente. En lugar de integrar instantáneas de datos extraídos de fuentes en un momento determinado, SDI integra datos constantemente a medida que están disponibles. SDI habilita un almacén de datos para impulsar la analítica, machine learning y las aplicaciones en tiempo real para mejorar la experiencia del cliente, la detección de fraudes y más. 

Los beneficios y desafíos de ETL

Las soluciones ETL mejoran la calidad al realizar la limpieza de datos antes de cargar los datos en un repositorio diferente. Una operación por lotes que requiere mucho tiempo, ETL se recomienda con más frecuencia para crear repositorios de datos de destino más pequeños que requieren actualizaciones menos frecuentes, mientras que otros métodos de integración de datos, incluido ELT (extracción, carga, transformación), captura de datos modificados (CDC) y virtualización de datos, se utilizan para integrar volúmenes cada vez mayores de datos que cambian o flujos de datos en tiempo real.

 

Más información acerca de la integración de datos

Herramientas ETL

En el pasado, las organizaciones escribían su propio código ETL. Ahora hay muchas herramientas ETL comerciales y de código abierto y servicios en la nube para elegir. Las funcionalidades típicas de estos productos incluyen las siguientes:

  • Automatización integral y facilidad de uso:  las herramientas ETL líderes automatizan todo el flujo de datos, desde las fuentes de datos hasta el almacén de datos de destino. Muchas herramientas recomiendan reglas para extraer, transformar y cargar los datos.
  • Una interfaz visual de arrastrar y soltar:  esta funcionalidad se puede utilizar para especificar reglas y flujos de datos.
  • Soporte para la gestión de datos complejos:  esto incluye asistencia con cálculos complejos, integraciones de datos y manipulaciones de cadenas.
  • Seguridad y conformidad:  las mejores herramientas ETL cifran los datos tanto en movimiento como en reposo y están certificadas y en conformidad con las regulaciones gubernamentales o de la industria, como HIPAA y GDPR.

Además, muchas herramientas ETL han evolucionado para incluir la capacidad ELT y admitir integración de datos en tiempo real y de streaming para aplicaciones de inteligencia artificial (IA).

El futuro de la integración:  API  usando EAI

Las interfaces de programación de aplicaciones (API) que utilizan la integración de aplicaciones empresariales (EAI) se pueden utilizar en lugar de ETL para obtener una solución más flexible y escalable que incluye la integración de  flujos de trabajo . Si bien ETL sigue siendo el principal recurso de  integración de datos , EAI se utiliza cada vez más con  API  en entornos basados en web.


ETL, integración de datos e IBM Cloud

IBM ofrece varias herramientas y servicios de integración de datos diseñados para respaldar una línea de trabajo de datos lista para el negocio y brindarle a su empresa las herramientas que necesita para escalar de manera eficiente.

IBM, líder en integración de datos, brinda a las empresas la confianza que necesitan al gestionar proyectos de big data, aplicaciones SaaS y tecnología de machine learning. Con plataformas líderes en la industria como  IBM Cloud Pak for Data, las organizaciones pueden modernizar sus procesos de DataOps  mientras utilizan las mejores herramientas de virtualización para lograr la velocidad y escalabilidad que sus negocios necesitan ahora y en el futuro.

Para obtener más información sobre cómo su empresa puede crear y ejecutar una estrategia de integración de datos efectiva, explore la suite de IBM de  soluciones para la integración de datos.

Regístrese para obtener un IBMid y crear su cuenta de IBM Cloud.


Soluciones relacionadas

IBM Cloud Pak for Data

IBM Cloud Pak for Data es una plataforma de datos abierta y extensible que proporciona una estructura de datos para que todos los datos estén disponibles para inteligencia artificial y análisis, en cualquier nube.


IBM DataOps

La IA libera el valor de los datos de nuevas formas. Organice sus datos para que estén listos para un mundo de IA y multicloud con soluciones DataOps.


Integración de datos

La integración de datos le permite transformar datos estructurados y no estructurados y entregarlos a cualquier sistema en una plataforma de big data escalable.