ETL, que significa extraer, transformar y cargar, es un proceso de integración de datos que combina datos de múltiples fuentes de datos en un único almacén de datos consistente que se carga en un almacén de datos u otro sistema de destino.
A medida que las bases de datos crecieron en popularidad en la década de 1970, ETL se introdujo como un proceso para integrar y cargar datos para cálculo y análisis, convirtiéndose eventualmente en el método principal para procesar datos para proyectos de almacenamiento de datos.
ETL proporciona la base para el análisis de datos y los flujos de trabajo de machine learning. Mediante una serie de reglas comerciales, ETL limpia y organiza los datos de una manera que aborda las necesidades específicas de inteligencia comercial, como informes mensuales, pero también puede abordar analítica más avanzada, que puede mejorar los procesos de backend o las experiencias del usuario final. ETL a menudo se utiliza por una organización para:
Vea cómo crear y ejecutar un trabajo ETL
Lea el informe del Cuadrante Mágico de Gartner de 2021 para herramientas de integración de datos
Lea el resumen de IBM DataStage (169 KB)
La diferencia más obvia entre ETL y ELT está en el orden de las operaciones. ELT copia o exporta los datos de las ubicaciones de origen, pero en lugar de cargarlos en un área de preparación para la transformación, carga los datos sin procesar directamente en el almacén de datos de destino para transformarlos según sea necesario.
Si bien ambos procesos aprovechan una variedad de repositorios de datos, como bases de datos, almacenes de datos y data lakes, cada proceso tiene sus ventajas y desventajas. ELT es particularmente útil para conjuntos de datos no estructurados de gran volumen, ya que la carga puede ocurrir directamente desde la fuente. ELT puede ser más ideal para la gestión de big data, ya que no necesita mucha planificación inicial para la extracción y el almacenamiento de datos. El proceso ETL, por otro lado, requiere más definición al inicio. Es necesario identificar puntos de datos específicos para la extracción junto con cualquier "clave" potencial para integrar en sistemas de origen dispares. Incluso después de completar ese trabajo, es necesario crear las normas empresariales para las transformaciones de datos. Este trabajo generalmente puede tener dependencias de los requisitos de datos para un tipo determinado de análisis de datos, lo que determinará el nivel de resumen que deben tener los datos. Si bien ELT se ha vuelto cada vez más popular con la adopción de bases de datos en la nube, tiene sus propias desventajas por ser un proceso más nuevo, lo que significa que aún se están estableciendo las mejores prácticas.
La forma más fácil de comprender cómo funciona ETL es comprender qué sucede en cada paso del proceso.
Durante la extracción de datos, los datos sin procesar se copian o exportan desde las ubicaciones de origen a un área de preparación. Los equipos de gestión de datos pueden extraer datos de una variedad de fuentes de datos, que pueden ser estructurados o no estructurados. Esas fuentes incluyen, pero no se limitan a:
En el área de preparación, los datos brutos se procesan. Aquí, los datos se transforman y consolidan para su caso de uso analítico previsto. Esta fase puede implicar las siguientes tareas:
En este último paso, los datos transformados se mueven desde el área de preparación a un almacén de datos de destino. Por lo general, esto implica una carga inicial de todos los datos, seguida de una carga periódica de cambios de datos incrementales y, con menos frecuencia, actualizaciones completas para borrar y reemplazar los datos en el almacén. Para la mayoría de las organizaciones que utilizan ETL, el proceso es automatizado, bien definido, continuo y por lotes. Por lo general, el proceso de ETL se lleva a cabo durante las horas de menor actividad, cuando el tráfico en los sistemas de origen y el almacén de datos está en su nivel más bajo.
ETL y ELT son solo dos métodos de integración de datos, y existen otros enfoques que también se utilizan para facilitar los flujos de trabajo de integración de datos. Algunas de estas incluyen:
Las soluciones ETL mejoran la calidad al realizar la limpieza de datos antes de cargar los datos en un repositorio diferente. El proceso ETL, una operación por lotes que consume mucho tiempo, se recomienda con más frecuencia para crear repositorios de datos de destino más pequeños que requieren actualizaciones menos frecuentes, mientras que otros métodos de integración de datos, incluido ELT (extracción, carga, transformación), captura de datos modificados (CDC) y virtualización de datos, se utilizan para integrar volúmenes de datos cada vez más grandes que modifican o transmiten flujos de datos en tiempo real.
En el pasado, las organizaciones escribían su propio código ETL. Ahora hay muchas herramientas ETL comerciales y de código abierto y servicios en la nube para elegir. Las funcionalidades típicas de estos productos incluyen las siguientes:
Además, muchas herramientas ETL han evolucionado para incluir la capacidad ELT y admitir la integración de datos de transmisión en tiempo real para aplicaciones de inteligencia artificial (IA).
Las interfaces de programación de aplicaciones (API) que utilizan la integración de aplicaciones empresariales (EAI) se pueden utilizar en lugar de ETL para obtener una solución más flexible y escalable que incluye la integración de flujos de trabajo. Si bien ETL sigue siendo el principal recurso de integración de datos, EAI se utiliza cada vez más con API en entornos basados en web.
IBM Cloud Pak for Data es una plataforma de datos abierta y extensible que proporciona una estructura de datos para que todos los datos estén disponibles para inteligencia artificial y análisis, en cualquier nube.
La IA libera el valor de los datos de nuevas formas. Organice sus datos para que estén listos para un mundo de IA y multinube con soluciones DataOps.
La integración de datos le permite transformar datos estructurados y no estructurados y entregarlos a cualquier sistema en una plataforma de big data escalable.
Extraiga, transforme y cargue o extraiga, cargue y luego transforme
Conozca las similitudes y diferencias en las definiciones, beneficios y casos de uso de ELT y ETL.
Organizado por Al Martin, vicepresidente de IBM Expert Services Delivery, Making Data Simple proporciona las ideas más recientes de big data, IA y las implicaciones para la empresa de una variedad de expertos.