¿Qué es ETL (extraer, transformar, cargar)?

¿Qué es ETL?

ETL, que significa extraer, transformar y cargar, es un proceso de integración de datos que combina datos de múltiples fuentes de datos en un único almacén de datos consistente que se carga en un almacén de datos u otro sistema de destino.

A medida que las bases de datos crecieron en popularidad en la década de 1970, ETL se introdujo como un proceso para integrar y cargar datos para cálculo y análisis, convirtiéndose eventualmente en el método principal para procesar datos para proyectos de almacenamiento de datos.

ETL proporciona la base para el análisis de datos y los flujos de trabajo de machine learning. Mediante una serie de reglas comerciales, ETL limpia y organiza los datos de una manera que aborda las necesidades específicas de inteligencia comercial, como informes mensuales, pero también puede abordar analítica más avanzada, que puede mejorar los procesos de backend o las experiencias del usuario final. ETL a menudo se utiliza por una organización para:

Extraer datos de sistemas heredados
Limpiar datos para mejorar su calidad y establecer la consistencia
Cargar datos en una base de datos de destino

Conozca más

Vea cómo crear y ejecutar un trabajo ETL

Lea el informe del Cuadrante Mágico de Gartner de 2023 para herramientas de integración de datos

ETL frente a ELT

La diferencia más obvia entre ETL y ELT está en el orden de las operaciones. ELT copia o exporta los datos de las ubicaciones de origen, pero en lugar de cargarlos en un área de preparación para la transformación, carga los datos sin procesar directamente en el almacén de datos de destino para transformarlos según sea necesario.

Si bien ambos procesos aprovechan una variedad de repositorios de datos, como bases de datos, almacenes de datos y data lakes, cada proceso tiene sus ventajas y desventajas. ELT es particularmente útil para conjuntos de datos no estructurados de gran volumen, ya que la carga puede ocurrir directamente desde la fuente. ELT puede ser más ideal para la gestión de big data, ya que no necesita mucha planificación inicial para la extracción y el almacenamiento de datos. El proceso ETL, por otro lado, requiere más definición al inicio. Es necesario identificar puntos de datos específicos para la extracción junto con cualquier "clave" potencial para integrar en sistemas de origen dispares. Incluso después de completar ese trabajo, es necesario crear las normas empresariales para las transformaciones de datos. Este trabajo generalmente puede tener dependencias de los requisitos de datos para un tipo determinado de análisis de datos, lo que determinará el nivel de resumen que deben tener los datos. Si bien ELT se ha vuelto cada vez más popular con la adopción de bases de datos en la nube, tiene sus propias desventajas por ser un proceso más nuevo, lo que significa que aún se están estableciendo las mejores prácticas.

Cómo funciona ETL

La forma más fácil de comprender cómo funciona ETL es comprender qué sucede en cada paso del proceso.

Extracción

Durante la extracción de datos, los datos sin procesar se copian o exportan desde las ubicaciones de origen a un área de preparación. Los equipos de gestión de datos pueden extraer datos de una variedad de fuentes de datos, que pueden ser estructurados o no estructurados. Esas fuentes incluyen, pero no se limitan a:

Servidores SQL o NoSQL
Sistemas CRM y ERP
Archivos planos
E-mail
Páginas web

Transformación

En el área de preparación, los datos brutos se procesan. Aquí, los datos se transforman y consolidan para su caso de uso analítico previsto. Esta fase puede implicar las siguientes tareas:

Filtrar, limpiar, desduplicar, validar y autenticar los datos.
Realización de cálculos, traducciones o resúmenes basados en los datos sin procesar. Esto puede incluir cambiar los encabezados de filas y columnas para mantener la consistencia, convertir monedas u otras unidades de medida, editar cadenas de texto y más.
Realización de auditorías para garantizar la calidad y conformidad de los datos.
Eliminar, cifrar o proteger datos regidos por reguladores gubernamentales o de la industria
Dar formato a los datos en tablas o tablas unidas para que coincidan con el esquema del almacén de datos de destino.

Carga

En este último paso, los datos transformados se mueven desde el área de preparación a un almacén de datos de destino. Por lo general, esto implica una carga inicial de todos los datos, seguida de una carga periódica de cambios de datos incrementales y, con menos frecuencia, actualizaciones completas para borrar y reemplazar los datos en el almacén. Para la mayoría de las organizaciones que utilizan ETL, el proceso es automatizado, bien definido, continuo y por lotes. Por lo general, el proceso de ETL se lleva a cabo durante las horas de menor actividad, cuando el tráfico en los sistemas de origen y el almacén de datos está en su nivel más bajo.

ETL y otros métodos de integración de datos

ETL y ELT son solo dos métodos de integración de datos, y existen otros enfoques que también se utilizan para facilitar los flujos de trabajo de integración de datos. Algunas de estas incluyen:

Captura de datos modificados (CDC) identifica y captura solo los datos de origen que han cambiado y mueve esos datos al sistema de destino. CDC se puede utilizar para reducir los recursos necesarios durante el paso de "extracción" ETL. También se puede utilizar de forma independiente para mover datos que se han transformado en un data lake u otro repositorio en tiempo real.
Réplica de datos copia los cambios en las fuentes de datos en tiempo real o en lotes a una base de datos central. La réplica de datos a menudo aparece como un método de integración de datos. De hecho, se utiliza con mayor frecuencia para crear copias de seguridad para la recuperación de desastres.
La virtualización de datos utiliza una capa de abstracción de software para crear una vista de datos unificada, integrada y totalmente utilizable, sin copiar, transformar o cargar físicamente los datos de origen en un sistema de destino. La funcionalidad de virtualización de datos permite a una organización crear almacenes de datos virtuales, data lakes y datamarts a partir de los mismos datos de origen para el almacenamiento de datos sin el gasto y la complejidad de crear y gestionar plataformas independientes para cada uno. Si bien la virtualización de datos se puede utilizar junto con ETL, se considera cada vez más una alternativa a ETL y a otros métodos de integración de datos físicos.
La integración de datos de flujo (SDI) es exactamente lo que parece: consume continuamente flujos de datos en tiempo real, los transforma y los carga en un sistema de destino para su análisis. La palabra clave aquí es continuamente. En lugar de integrar instantáneas de datos extraídos de fuentes en un momento determinado, SDI integra datos constantemente a medida que están disponibles. SDI habilita un almacén de datos para impulsar la analítica, machine learning y las aplicaciones en tiempo real para mejorar la experiencia del cliente, la detección de fraudes y más.

Los beneficios y desafíos de ETL

Las soluciones ETL mejoran la calidad al realizar la limpieza de datos antes de cargar los datos en un repositorio diferente. El proceso ETL, una operación por lotes que consume mucho tiempo, se recomienda con más frecuencia para crear repositorios de datos de destino más pequeños que requieren actualizaciones menos frecuentes, mientras que otros métodos de integración de datos, incluido ELT (extracción, carga, transformación), captura de datos modificados (CDC) y virtualización de datos, se utilizan para integrar volúmenes de datos cada vez más grandes que modifican o transmiten flujos de datos en tiempo real.

Más información acerca de la integración de datos

Herramientas ETL

En el pasado, las organizaciones escribían su propio código ETL. Ahora hay muchas herramientas ETL comerciales y de código abierto y servicios en la nube para elegir. Las funcionalidades típicas de estos productos incluyen las siguientes:

Automatización integral y facilidad de uso: las principales herramientas de ETL automatizan todo el flujo de datos, desde las fuentes de datos hasta el almacén de datos de destino. Muchas herramientas recomiendan reglas para extraer, transformar y cargar los datos.
Una interfaz visual de arrastrar y soltar: esta funcionalidad se puede utilizar para especificar reglas y flujos de datos.
Soporte para la gestión de datos complejos: esto incluye asistencia con cálculos complejos, integraciones de datos y manipulaciones de cadenas.
Seguridad y conformidad: las mejores herramientas ETL cifran los datos tanto en movimiento como en reposo y están certificadas y en conformidad con las regulaciones gubernamentales o de la industria, como HIPAA y GDPR.

Además, muchas herramientas ETL han evolucionado para incluir la capacidad ELT y admitir la integración de datos de transmisión en tiempo real para aplicaciones de inteligencia artificial (IA).

El futuro de la integración: API usando EAI

Las interfaces de programación de aplicaciones (API) que utilizan la integración de aplicaciones empresariales (EAI) se pueden utilizar en lugar de ETL para obtener una solución más flexible y escalable que incluye la integración de flujos de trabajo. Si bien ETL sigue siendo el principal recurso de integración de datos, EAI se utiliza cada vez más con API en entornos basados en web.

Soluciones relacionadas

IBM Cloud Pak for Data

IBM Cloud Pak for Data es una plataforma de datos abierta y extensible que proporciona una estructura de datos para que todos los datos estén disponibles para inteligencia artificial y análisis, en cualquier nube.

Explore IBM Cloud Pak for Data

IBM DataOps

La IA libera el valor de los datos de nuevas formas. Organice sus datos para que estén listos para un mundo de IA y multinube con soluciones DataOps.

Explore IBM DataOps

Integración de datos

La integración de datos le permite transformar datos estructurados y no estructurados y entregarlos a cualquier sistema en una plataforma de big data escalable.

Explore la integración de datos

Recursos

Hive como herramienta para ETL o ELT

Extraiga, transforme y cargue o extraiga, cargue y luego transforme

ELT frente a ETL: ¿cuál es la diferencia?

Conozca las similitudes y diferencias en las definiciones, beneficios y casos de uso de ELT y ETL.

Simplificando los datos: Al Martin y Michel Tricot discuten tecnología ELT frente a ETL airbyte y emprendimiento

Organizado por Al Martin, vicepresidente de IBM Expert Services Delivery, Making Data Simple proporciona las ideas más recientes de big data, IA y las implicaciones para la empresa de una variedad de expertos.

Dé el siguiente paso

IBM ofrece varias herramientas y servicios de integración de datos diseñados para respaldar una línea de trabajo de datos lista para el negocio y brindarle a su empresa las herramientas que necesita para escalar de manera eficiente. IBM, líder en integración de datos, brinda a las empresas la confianza que necesitan al gestionar proyectos de big data, aplicaciones y tecnologías de machine learning. Con plataformas líderes en la industria como IBM® Cloud Pak for Data, las organizaciones pueden modernizar sus procesos de DataOps y, al mismo tiempo, utilizar las mejores herramientas de virtualización para lograr la velocidad y escalabilidad que sus negocios necesitan ahora y en el futuro.

Explore IBM® Cloud Pak for Data