ETL, que significa extraer, transformar y cargar, es un proceso de integración de datos que combina datos de varios orígenes en un único almacén de datos coherentes que se carga en un depósito de datos u otro sistema de destino.
A medida que las bases de datos fueran adquiriendo popularidad en la década de 1970, ETL se introdujo como proceso para integrar y cargar los datos para cálculo y análisis, y acabó convirtiéndose en el método principal para procesar los datos en los proyectos de depósito de datos.
ETL proporciona la base de los flujos de trabajo de analítica de datos y machine learning. A través de una serie de reglas de negocio, ETL limpia y organiza los datos de manera acorde a las necesidades específicas de inteligencia empresarial, como informes mensuales, pero también puede ocuparse de análisis más avanzados, y mejorar así los procesos de back-end o las experiencias de usuario final . Las organización suelen utilizar ETL para:
Vea en vídeo cómo crear y ejecutar un trabajo ETL
Lea el informe del Gartner Magic Quadrant de 2021 para herramientas de integración de datos
Lea el resumen de IBM DataStage (169 KB)
La más obvia diferencia entre ETL y ELT es la diferencia en el orden de las operaciones. ELT copia o exporta los datos desde las ubicaciones de origen, pero en lugar de cargarlos en un área de transferencia para la transformación, carga los datos sin procesar directamente en el almacén de datos de destino para que se transformen según sea necesario.
Si bien ambos procesos utilizan diversos repositorios de datos, como bases de datos, almacenes de datos y lagos de datos, cada uno de ellos tiene sus ventajas y sus desventajas. ELT es particularmente útil para conjuntos de datos no estructurados de gran volumen, ya que la carga se puede realizar directamente desde el origen. ELT puede ser más apropiado la gestión de big data, ya que no necesita apenas planificación anticipada para la extracción y el almacenamiento de los datos. El proceso ETL, por otro lado, requiere más definición al principio. Se deben identificar puntos de datos específicos para la extracción, además de «llaves» potenciales para la integración en distintos en sistemas de origen. Una vez completadas esas tareas, todavía se deben crear las reglas de negocio para las transformaciones de datos. Por lo general, este trabajo puede tener dependencias de los requisitos de datos para un tipo de análisis de datos determinado, lo que marcará el nivel de resumen que debe tener los datos. Aunque ELT ha ganado popularidad con la adopción de las bases de datos en cloud, tiene sus propias desventajas por ser el proceso más nuevo, lo que implica que todavía no se han acabado de establecer las prácticas recomendadas.
La forma más fácil de entender el funcionamiento de ETL es entender lo que sucede en cada paso del proceso.
Durante la extracción de datos, los datos sin procesar se copian o se exportan desde las ubicaciones de origen a un área de transferencia. Los equipos de gestión de datos pueden extraer los datos desde diversos orígenes, que pueden ser estructurados o no estructurados. Entre estos orígenes se incluyen, entre otros:
En el área de transferencia, se realiza el procesamiento de los datos sin procesar. Es aquí donde los datos se transforman y se consolidan para cada caso de uso de análisis previsto. Esta fase puede englobar las tareas siguientes:
En este último paso, los datos transformados se trasladan desde el área de transferencia a un depósito de datos de destino. Por lo general, esto implica una carga inicial de todos los datos, seguida de una carga periódica de los cambios de datos incrementales y, con menor frecuencia, renovaciones completas para borrar y sustituir los datos en el depósito. Para la mayoría de las organizaciones que utilizan ETL, se trata de un proceso automatizado, bien definido, continuo y por lotes. Por lo general, ETL se realiza fuera del horario laboral, cuando el tráfico de los sistemas de origen y el depósito de datos están en su punto más bajo.
ETL y ELT son solo dos de los métodos de integración de datos, y existen otros enfoques que también se utilizan para facilitar los flujos de trabajo de integración de datos. Algunos de ellos incluyen:
Las soluciones ETL mejoran la calidad al realizar una limpieza de datos antes de cargarlos en otro repositorio. Puesto que se trata de una operación por lotes que requiere mucho tiempo, ETL se suele recomendar más para crear repositorios de datos de destino más pequeños que requieran actualizaciones menos frecuentes, mientras que otros métodos de integración de datos —como ELT (extraer, cargar, transformar), la captura de datos de cambio (CDC ) y la virtualización de datos— se utilizan para integrar volúmenes de datos cada vez mayores que cambian o secuencias de datos en tiempo real.
Antes, las organizaciones escribían su propio código ETL. Ahora hay muchos servicios cloud y herramientas ETL comerciales y de código abierto entre los que elegir. Entre las características típicas de estos productos, se incluyen las siguientes:
Además, muchas herramientas ETL han evolucionado y ahora incluyen funcionalidad ELT y admiten la integración de datos en streaming y en tiempo real para aplicaciones de inteligencia artificial (IA).
Las interfaces de programación de aplicaciones (API) que utilizan Enterprise Application Integration (EAI) pueden sustituir a ETL como solución más flexible y escalable que incluye integración de flujos de trabajo . ETL sigue siendo el recursos principal de integración de datos , pero EAI se utiliza cada vez más con API en configuraciones basadas en web.
IBM Cloud Pak for Data es una plataforma de datos abierta y ampliable que proporciona un entramado de datos para facilitar todos los datos para IA y analítica en cualquier cloud.
La IA está descubriendo el valor de los datos de nuevas formas. Organice sus datos para prepararlos para un mundo dominado por la IA y el multicloud con soluciones de DataOps.
La integración de datos le permite transformar datos estructurados y no estructurados para distribuirlos a cualquier sistema en una plataforma de big data escalable.
Extraer, transformar y cargar O extraer, cargar y luego transformar
Conozca las similitudes y las diferencias en las definiciones, las ventajas y los casos de uso de ELT y ETL.
Making Data Simple está presentado por Al Martin, VP de IBM Expert Services Delivery. De la mano de un grupo de expertos, el programa ofrece las últimas ideas sobre big data, IA y cómo afectan a la empresa.