ETL (extraer, transformar, cargar)

menu icon

ETL (extraer, transformar, cargar)

ETL es un proceso que extrae, transforma y carga datos de múltiples orígenes en un almacén de datos u otro repositorio de datos unificado.

¿Qué es ETL?

ETL, que significa extraer, transformar y cargar, es un proceso de integración de datos que combina datos de varios orígenes en un solo almacén de datos uniforme que se carga en un almacén de datos u otro sistema de destino.

A medida que las bases de datos fueron ganando popularidad en la década de 1970, se introdujo ETL como proceso para integrar y cargar datos para cálculos y análisis, hasta llegar a ser el método principal de proceso de datos para proyectos de almacén de datos.

ETL proporciona la base para los flujos de trabajo de análisis de datos y machine learning. A través de una serie de reglas empresariales, ETL limpia y organiza los datos de una forma que satisface las necesidades específicas de la inteligencia empresarial, como los informes mensuales, pero también puede abordar análisis más avanzados, que pueden mejorar los procesos de back-end o la experiencia del usuario final . Las organizaciones suelen emplear ETL para: 

  • Extraer datos de sistemas existentes
  • Limpiar los datos para mejorar su calidad y establecer su consistencia
  • Cargar datos en una base de datos de destino

ETL frente a ELT

La diferencia más evidente entre ETL y ELT es el orden de las operaciones. ELT copia o exporta datos de las ubicaciones de origen, pero en lugar de cargarlos en un área de almacenamiento provisional para transformarlos, carga los datos sin procesar directamente en el almacén de datos de destino para transformarlos según sea necesario.

Si bien ambos procesos aprovechan una variedad de repositorios de datos tales como bases de datos, almacenes de datos, y data lakes, cada proceso tiene sus pros y sus contras. ELT resulta especialmente útil para conjuntos de datos no estructurados con grandes volúmenes de datos, ya que se puede cargar directamente desde el origen. ELT puede ser la opción ideal para la gestión de big data, ya que no necesita mucha planificación por adelantado para extraer y almacenar datos. Por otra parte, el proceso ETL requiere más definición al inicio. Hace falta identificar los puntos de datos específicos para extraerlos, junto a las posibles "claves" para integrar sistemas de orígenes dispares. Incluso después de haber llevado a cabo esa tarea, hay que elaborar las reglas empresariales para las transformaciones de datos. Este cometido suele depender de los requisitos de los datos para un determinado tipo de análisis de datos, lo que determinará el nivel de resumen que deben tener los datos. Aunque el ELT se ha vuelto cada vez más popular con la adopción de las bases de datos en el cloud, tiene sus propias desventajas, por ser el proceso más nuevo, lo que significa que las mejores prácticas todavía se están estableciendo.

Cómo funciona ETL

La forma más sencilla de entender el funcionamiento de ETL es comprender lo que tiene lugar en cada paso del proceso.

Extraer

Durante la extracción de datos, los datos sin procesar se copian o exportan desde las ubicaciones de origen a un área de almacenamiento provisional. Los equipos de gestión de datos pueden extraer datos de diversos orígenes, que pueden ser estructurados o no estructurados. Estos orígenes incluyen, entre otros, los siguientes:

  •  
  • Servidores SQL o NoSQL 
  • Sistemas CRM y ERP
  • Archivos sin formato
  • Correo electrónico
  • Páginas web

Transformar

En el área de almacenamiento provisional, los datos sin procesar se procesan. Aquí los datos se transforman y consolidan para su caso de uso analítico previsto. Esta fase puede incluir las siguientes tareas:

  • Filtrar, limpiar, deduplicar, validar y autenticar los datos.
  • Llevar a cabo cálculos, traducciones o resúmenes a partir de los datos sin procesar. Esto puede  incluir cambiar los encabezados de filas y columnas por motivos de consistencia, convertir divisas u otras unidades de medida y editar series de texto, entre otras tareas.
  • Llevar a cabo auditorías para cerciorarse de la calidad y conformidad de los datos.
  • Eliminar, cifrar o proteger datos regulados por la industria o los órganos reguladores gubernamentales.
  • Formatear los datos en tablas o tablas unidas para que concuerden con el esquema del almacén de datos de destino.

Cargar

En este último paso, los datos transformados se mueven del área de almacenamiento provisional al almacén de datos de destino. Por lo general, esto implica una carga inicial de todos los datos, seguida de una carga periódica de los cambios de datos incrementales y, con menos frecuencia, actualizaciones completas para borrar y reemplazar los datos en el almacén. El proceso está automatizado, bien definido, es continuo y se hace por lotes en la mayoría de organizaciones que utilizan ETL. Generalmente, el ETL tiene lugar durante las horas de descanso, cuando el tráfico en los sistemas de origen y en el almacén de datos se encuentra en su punto más bajo.

ETL y otros métodos de integración de datos

ETL y ELT son solo dos métodos de integración de datos y hay otros enfoques que también se utilizan para facilitar los flujos de trabajo de integración de datos. Algunos de ellos son:

  • La captura de datos de cambio (CDC) identifica y captura solo los datos de origen que hayan cambiado y mueve dichos datos al sistema de destino. Se puede emplear CDC para reducir los recursos necesarios durante el paso de extracción del proceso ETL; también se puede utilizar de forma independiente para mover datos que se hayan transformado en un data lake u otro repositorio en tiempo real.
  • La replicación de datos copia los cambios en el origen de datos en tiempo real o por lotes en una base de datos central. La replicación de datos suele figurar como método de integración de datos. De hecho, se usa sobre todo para crear copias de seguridad para la recuperación ante desastres.
  • La virtualización de datos usa una capa de abstracción de software para crear una vista de datos unificada, integrada y completamente utilizable sin necesidad de copiar, transformar o cargar los datos de origen físicamente en un sistema de destino. La funcionalidad de virtualización de datos permite que las organizaciones puedan crear almacenes de datos, data lakes y data marts virtuales a partir de los mismos datos de origen para almacenar datos sin el gasto y la complejidad de desarrollar y gestionar plataformas separadas para cada uno. Aunque la virtualización de datos se puede usar con ETL, cada vez se considera más como una alternativa a ETL y a otros métodos de integración física de datos.
  • La integración de secuencias de datos (SDI) es justo lo que parece: consume secuencias de datos en tiempo real continuamente, las transforma y las carga en un sistema de destino para su análisis. Aquí la palabra clave es  "continuamente". En lugar de integrar instantáneas de datos extraídas del origen en un momento dado, SDI integra datos constantemente a medida que están disponibles. SDI habilita un almacén de datos para impulsar analíticas, machine learning y aplicaciones en tiempo real para mejorar la experiencia de cliente o la detección de fraudes, entre otras cosas. 

Las ventajas y desafíos de ETL

Las soluciones ETL mejoran la calidad al llevar a cabo limpieza de datos antes de cargarlos en otro repositorio. Al tratarse de una operación por lotes que consume mucho tiempo, ETL se suele recomendar para la creación de repositorios de datos de destino más pequeños que necesiten una menor frecuencia de actualización, mientras que otros métodos de integración de datos, como ELT (extraer, cargar, transformar), captura de datos de cambio (CDC) y virtualización de datos se usan para integrar volúmenes cada vez más grandes de datos cambiantes o de secuencias de datos en tiempo real.

Más información acerca de la integración de datos.

Herramientas de ETL

Antes, las organizaciones escribían su propio código de ETL. Ahora hay muchas herramientas ETL comerciales y de código abierto y servicios cloud entre los que elegir. Las capacidades habituales de estos productos incluyen:

  • Automatización exhaustiva y facilidad de uso:  las principales herramientas ETL automatizan todo el flujo de datos, desde el origen de los mismos hasta el almacén de datos de destino. Muchas herramientas recomiendan establecer reglas para extraer, transformar y cargar los datos.
  • Interfaz visual de arrastrar y soltar:  esta funcionalidad se puede usar para especificar reglas y flujos de datos.
  • Soporte para gestión de datos complejos:  esto incluye ayuda con cálculos complejos, integraciones de datos y manipulación de series.
  • Seguridad y cumplimiento:  las mejores herramientas ETL cifran los datos tanto en movimiento como en reposo y certifican el cumplimiento de los reglamentos de la industria o del gobierno, tales como la HIPAA y el GDPR.

Además, muchas herramientas ETL han evolucionado para incluir capacidad ELT y compatibilidad con integración de datos en tiempo real y en streaming para aplicaciones de inteligencia artificial (IA).

El futuro de la integración:  API con EAI

Las interfaces de programación de aplicaciones (API) que usan la integración de aplicaciones para empresas (EAI) se pueden usar en lugar de ETL para obtener una solución más flexible y escalable que incluya la integración del  flujo de trabajo . Aunque ETL sigue siendo el principal recurso de integración de datos , cada vez se utiliza más EAI con API en entornos basadas en web.

ETL, integración de datos e IBM® Cloud

IBM ofrece varias herramientas y servicios de integración de datos diseñados para admitir una canalización de datos preparada para empresas y proporcionar a su empresa las herramientas necesarias para escalar de forma eficiente.

IBM, líder en integración de datos, ofrece a las empresas la confianza que necesitan para gestionar proyectos de big data, aplicaciones SaaS y tecnología de machine learning. Con plataformas líderes en la industria como IBM® Cloud Pak for Data, las organizaciones pueden modernizar sus procesos de DataOps usando las mejores herramientas de virtualización para conseguir la velocidad y escalabilidad que necesitan ahora y de cara al futuro.

Para obtener más información sobre cómo puede desarrollar y ejecutar una estrategia efectiva de integración de datos en su empresa, explore las  ofertas de integración de datos de IBM.

Regístrese para conseguir un IBMid y  cree su propia cuenta en IBM Cloud.

Recursos

FlightSafety International

Vista de las montañas desde la cabina de un avión en vuelo

FlightSafety International ha trabajado con IBM Garage™ para desarrollar FlightSmart, una tecnología de aprendizaje adaptativo que se integra con un simulador de vuelo.

Lea el caso práctico →