¿Qué es la captura de datos de cambio?

Una mujer trabaja en una computadora portátil en un almacén.

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

¿Qué es la captura de datos de cambio?

La captura de datos de cambio, o CDC, es una técnica para identificar y registrar cambios de datos en una base de datos. La CDC ofrece estos cambios en tiempo real a diferentes sistemas de destino, lo que permite la sincronización de datos en toda una organización inmediatamente después de que se produce un cambio en la base de datos.

 

La captura de datos de cambio es un método de integración de datos en tiempo real, que funciona para combinar y armonizar datos que pueden estar aislados o ser inconsistentes en toda la organización. Otros métodos incluyen la integración de datos de flujo, la virtualización de datos y la integración de aplicaciones.

La capacidad de los CDC para mantener los sistemas actualizados en tiempo real (y con baja latencia) es fundamental para el éxito de las analytics en tiempo real, las migraciones de nube y incluso los modelos de IA. Tiene una variedad de casos de uso en todos los sectores, desde la venta minorista hasta las finanzas y el cuidado de la salud, ayudando con la detección de fraude, la cadena de suministro y el cumplimiento de las regulaciones.

Existen múltiples enfoques para cambiar la captura de datos, con CDC basada en registros, CDC basada en marcas de tiempo y CDC basada en desencadenantes entre los más comunes. Las empresas pueden implementar la captura de datos modificados a través de herramientas nativas de bases de datos, plataformas de código abierto y soluciones de terceros.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

¿Cuáles son los beneficios de la captura de datos de cambio?

En la gestión de datos moderna, la captura de datos de cambio surgió como un mecanismo crítico de ingeniería de datos. Los entornos de datos empresariales actuales son cada vez más grandes y complejos. Pueden contener datos de dispositivos de Internet de las cosas (IoT), bases de datos distribuidas, aplicaciones y otras fuentes diversas. Mantener datos consistentes y de calidad en este ecosistema de datos en crecimiento es un desafío constante.

Al mismo tiempo, la compañía exige información precisa y actualizada que pueda aprovechar para la toma de decisiones en tiempo real. La captura de datos de cambio es uno de los varios métodos que ayudan a las organizaciones a satisfacer esta demanda.

La captura de datos de cambio permite una canalización de datos de baja latencia que proporciona datos actualizados de una forma más eficiente y con menos recursos que otros métodos de integración de datos. Por ejemplo, la replicación de datos implica copiar conjuntos de datos completos. Por el contrario, CDC solo envía los datos que cambiaron, lo que reduce la carga en los sistemas de origen, el tráfico de red y la demanda de potencia informática.

Les ayuda a acceder a la información más reciente y precisa de forma rápida y eficiente, lo que genera múltiples beneficios, que incluyen:

Toma de decisiones en tiempo real

Un flujo en tiempo real de cambios de datos permite el analytics de datos en tiempo real y la business intelligence. Con estas capacidades, las empresas pueden soportar las demandas del entorno empresarial actual, sensible al tiempo, las 24 horas del día, los 7 días de la semana.

Migración exitosa a la nube

Durante las migraciones a la nube, CDC entrega rápidamente los cambios de datos que ocurren on premises a las tablas de datos relevantes en la nube, lo que garantiza la coherencia entre ambos entornos. Esta capacidad también minimiza el tiempo de inactividad del sistema durante la migración.

Mejora de procesos ETL

Los pipelines de datos ETL (extraer, transformar, cargar) son una parte integral de los flujos de trabajo de analytics y machine learning. Pero la ejecución de ETL, que se basa en el procesamiento por lotes, tiende a moverse lentamente y agotar los recursos del sistema. La integración de CDC en ETL puede optimizar el uso de recursos y acelerar el movimiento de datos.

Mejor rendimiento de la inteligencia artificial (IA)

La implementación de la captura de datos de cambio puede ayudar a garantizar que los datos fuente del modelo estén actualizados, de modo que los modelos de lenguaje de gran tamaño (LLM) puedan ofrecer resultados precisos y puntuales. Por ejemplo, en los casos de uso de la generación aumentada por recuperación (RAG), los modelos de IA se conectan con bases de conocimiento externas para obtener respuestas más relevantes.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

¿Cómo funciona la captura de datos de cambio?

La captura de datos de cambio identifica y registra los eventos de cambio que tienen lugar en diversas fuentes de datos. Estas fuentes pueden incluir bases de datos relacionales como Oracle, PostgreSQL, MySQL, Azure SQL de Microsoft, SQL Server de Microsoft, así como bases de datos no relacionales (NoSQL) como Apache Cassandra y MongoDB.

Una vez identificados los cambios, se transfieren desde la base de datos de origen en tiempo real o casi en tiempo real a los sistemas de destino. Los almacenes de datos como los lagos de datos y almacén de datos; las plataformas de análisis en tiempo real y streaming de datos como Apache Kafka y Apache Spark; y las soluciones ETL (extraer, transformar, cargar) y ELT (extraer, cargar, transformar) son todos ejemplos de sistemas de destino.

La captura de datos de cambio puede iniciarse desde los sistemas de destino (lo que se conoce como enfoque "push") o desde los sistemas de origen (enfoque "pull"). En el primero, un sistema de origen “empuja” o envía cambios a los sistemas de destino. En este último caso, un sistema de destino sondea periódicamente los sistemas de origen y “extrae” los cambios cuando los encuentra.

Métodos comunes para la captura de datos de cambio

Existen varios métodos para ejecutar la captura de datos de cambio. Los tipos comunes de CDC incluyen: 

  • CDC basada en registros
  • CDC basada en marcas de tiempo
  • CDC basada en desencadenantes

CDC basada en registros

Los registros de transacciones de bases de datos son una característica estándar de las bases de datos y se utilizan para registrar todas las transacciones de la base de datos. (Los archivos de registro de transacciones se pueden utilizar para recuperar bases de datos en caso de fallo del sistema).

En la CDC basada en registros, una aplicación CDC procesa los cambios registrados en el registro y comparte las actualizaciones con otros sistemas. La CDC basada en registros se ha vuelto cada vez más popular, en parte debido a que se basa en registros en lugar de consultas que podrían degradar el rendimiento del sistema de origen. Sin embargo, la variación en los formatos de los registros de transacciones puede complicar la ejecución de CDC basada en registros en diferentes bases de datos.

CDC basada en marcas de tiempo

La captura de datos de cambio basada en marcas de tiempo, también conocida como CDC basada en consultas, requiere que los esquemas de tablas de bases de datos tengan una característica, como columnas de marcas de tiempo, que indiquen la fecha y la hora de los cambios en los registros. Se puede usar una herramienta de CDC para identificar registros modificados a través de la columna de marca de tiempo en una tabla de origen y luego entregar actualizaciones a los sistemas de destino.

Aunque la CDC basada en marcas de tiempo puede ser sencilla de implementar, también puede suponer una carga adicional para un sistema cuando se realizan con frecuencia sondeos de datos de marcas de tiempo. La CDC basada en marcas de tiempo tampoco captura las operaciones de eliminación cuando la marca de tiempo se elimina junto con el resto de una fila.

CDC basada en desencadenantes

En la captura de datos de cambio basada en disparadores, los procedimientos almacenados o funciones conocidas como disparadores de bases de datos se ejecutan una vez que se producen modificaciones específicas (como inserciones, eliminaciones y actualizaciones) en una base de datos. Los datos modificados se almacenan en lo que a menudo se denomina tabla de cambios o tabla sombra.

Al igual que la CDC basada en marcas de tiempo, la CDC basada en disparadores puede ser sencilla de implementar. Sin embargo, también puede sobrecargar los sistemas de origen, ya que los desencadenantes se "activan" cada vez que se produce una transacción en la tabla de origen.

Herramienta de captura de datos de cambio

Las herramientas que realizan la captura de datos de cambio pueden ser nativas de entornos y sistemas de bases de datos específicos, como AWS Database Migration Service, o pueden implementar de manera más amplia. Las soluciones de software de captura de datos de cambio no nativos incluyen plataformas de código abierto como Debezium y plataformas comerciales como IBM Streamsets y Oracle GoldenGate.

A medida que las empresas reflexionan sobre qué solución elegir, pueden considerar factores como los precios, los conectores a los sistemas de origen y destino, y las interfaces de programación de aplicaciones (API) para la integración del sistema.

Casos de uso para la captura de datos de cambio

Las empresas pueden desplegar la captura de datos de cambio para una variedad de usos, que incluyen:

Detección de fraude

El seguimiento continuo de los cambios en los registros financieros a través de la captura de datos de cambio puede permitir la detección de actividades fraudulentas antes de que resulte en pérdidas sustanciales.

Habilitación de Internet de las cosas (IoT)

La CDC puede integrar de manera eficiente las enormes cantidades de datos en tiempo real generados por los dispositivos IoT, lo que permite el mantenimiento predictivo y el monitoreo en tiempo real.

Gestión de inventario y cadena de suministro

El acceso a información de ventas, inventario y cadena de suministro en tiempo real respaldada por la captura de datos de cambio puede ayudar a las empresas a evitar desabastecimientos y tomar decisiones de precios lucrativas.

Cumplimiento regulatorio

La captura de datos de cambio puede ayudar a las empresas altamente reguladas a mantener los registros precisos necesarios para informar y cumplir con regulaciones y leyes como GDPR, la Ley Sarbanes-Oxley (SOX) y HIPAA en los Estados Unidos.

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets
IBM Databand

Descubra IBM Databand, el software de observabilidad para canalizaciones de datos. Recopila metadatos automáticamente para crear líneas de base históricas, detectar anomalías y crear flujos de trabajo para solucionar problemas relacionados con la calidad de los datos.

Explore Databand
Soluciones de integración de datos

Cree canalizaciones de datos resilientes, de alto rendimiento y con costes optimizados para sus iniciativas de IA generativa, análisis en tiempo real, modernización de almacenes y necesidades operativas con las soluciones de integración de datos de IBM.

Descubra las soluciones de integración de datos
Dé el siguiente paso

Descubra IBM DataStage, una herramienta ETL (Extracción, Transformación y Carga) que ofrece una interfaz visual para diseñar, desarrollar y desplegar canalizaciones de datos. Está disponible como SaaS gestionado en IBM Cloud, para autoalojamiento y como complemento de IBM Cloud Pak for Data.

Conozca DataStage Explorar los servicios de analytics