¿Qué es la captura de datos de cambio?

Una mujer trabaja con un ordenador portátil en un almacén.

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

¿Qué es la captura de datos de cambio?

La captura de datos de cambio, o CDC, es una técnica para identificar y registrar cambios de datos en una base de datos. La CDC transmite estos cambios en tiempo real a diferentes sistemas de destino, lo que permite la sincronización de datos en toda la organización inmediatamente después de que se produzca un cambio en la base de datos.

 

La captura de datos de cambio es un método de integración de datos en tiempo real, que funciona para combinar y armonizar datos que pueden estar aislados o ser inconsistentes en toda la organización. Otros métodos incluyen la integración de datos de flujo, la virtualización de datos y la integración de aplicaciones.

La capacidad de CDC para mantener los sistemas actualizados en tiempo real (y con baja latencia) es fundamental para el éxito de los análisis en tiempo real, las migraciones de nube y los modelos de IA. Tiene una gran variedad de casos de uso en distintos sectores, desde la venta minorista hasta las finanzas y la sanidad, donde ayuda a la detección del fraude, a la gestión de la cadena de suministro y el cumplimiento de la normativa.

Existen múltiples enfoques para cambiar la captura de datos, con CDC basada en registros, CDC basada en marcas de tiempo y CDC basada en desencadenantes entre los más comunes. Las empresas pueden implementar la captura de datos modificados a través de herramientas nativas de bases de datos, plataformas de código abierto y soluciones de terceros.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

¿Cuáles son los beneficios de la captura de datos de cambio?

En la gestión de datos moderna, la captura de datos de cambio se ha convertido en un mecanismo crítico de la ingeniería de datos. Los entornos de datos empresariales actuales son cada vez más grandes y complejos. Pueden contener datos procedentes de dispositivos del Internet de las cosas (IoT), bases de datos distribuidas, aplicaciones y otras fuentes diversas. Mantener datos coherentes y de calidad en este ecosistema de datos en constante crecimiento es un reto continuo.

Al mismo tiempo, la empresa exige información precisa y actualizada que pueda aprovecharse para la toma de decisiones en tiempo real. La captura de datos de cambio es uno de los varios métodos que ayudan a las organizaciones a satisfacer esta demanda.

La captura de datos de cambio permite un pipeline de datos de baja latencia que proporciona datos nuevos de una manera más eficiente y que requiere menos recursos que otros métodos de integración de datos. Por ejemplo, replicar datos implica copiar conjuntos de datos completos. Por el contrario, la CDC envía solo los datos que han cambiado, lo que reduce la carga en los sistemas de origen, el tráfico de red y las demandas de potencia de cómputo.

Les ayuda a acceder a la información más reciente y precisa de forma rápida y eficiente, lo que genera múltiples beneficios, entre ellos:

Toma de decisiones en tiempo real

Un flujo de cambios de datos en tiempo real permite el análisis de datos y la inteligencia empresarial en tiempo real. Con estas capacidades, las empresas pueden satisfacer las exigencias del entorno empresarial actual, en el que el tiempo es un factor crucial y el servicio está disponible 24x7.

Migración exitosa a la nube

Durante las migraciones a la nube, la CDC entrega rápidamente los cambios de datos que se producen en las instalaciones a las tablas de datos relevantes basadas en la nube, lo que garantiza la coherencia entre ambos entornos. Esta capacidad también minimiza el tiempo de inactividad del sistema durante la migración.

Mejora del proceso ETL

Los pipelines de datos ETL (extraer, transformar, cargar) son una parte integral de los flujos de trabajo de análisis y machine learning. Pero la ejecución de ETL, que se basa en el procesamiento por lotes, tiende a moverse lentamente y agotar los recursos del sistema. La integración de CDC en ETL puede optimizar el uso de recursos y acelerar el movimiento de datos.

Mejor rendimiento de la inteligencia artificial (IA)

La implementación de la captura de datos de cambio puede ayudar a garantizar que los datos fuente del modelo estén actualizados, de modo que los modelos de lenguaje de gran tamaño (LLM) puedan ofrecer resultados precisos y puntuales. Por ejemplo, en los casos de uso de la generación aumentada por recuperación (RAG), los modelos de IA se conectan con bases de conocimiento externas para obtener respuestas más relevantes.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

¿Cómo funciona la captura de datos de cambio?

La captura de datos de cambio identifica y registra los eventos de cambio que tienen lugar en diversas fuentes de datos. Estas fuentes pueden incluir bases de datos relacionales como Oracle, PostgreSQL, MySQL, Azure SQL de Microsoft, SQL Server de Microsoft, así como bases de datos no relacionales (NoSQL) como Apache Cassandra y MongoDB.

Una vez identificados los cambios, se transfieren desde la base de datos de origen en tiempo real o casi en tiempo real a los sistemas de destino. Los almacenes de datos como los data lake y almacén de datos (data warehouses); las plataformas de análisis en tiempo real y streaming de datos como Kafka y Apache Spark; y las soluciones ETL (extraer, transformar, cargar) y ELT (extraer, cargar, transformar) son todos ejemplos de sistemas de destino.

La captura de datos de cambio puede iniciarse desde los sistemas de destino (lo que se conoce como enfoque "push") o desde los sistemas de origen (enfoque "pull"). En el primero, un sistema de origen “empuja” o envía cambios a los sistemas de destino. En este último caso, un sistema de destino sondea periódicamente los sistemas de origen y “extrae” los cambios cuando los encuentra.

Métodos comunes para la captura de datos de cambio

Existen varios métodos para ejecutar la captura de datos modificados. Los tipos comunes de CDC incluyen: 

  • CDC basada en registros
  • CDC basada en marcas de tiempo
  • CDC basada en desencadenantes

CDC basada en registros

Los registros de transacciones de bases de datos son una característica estándar de las bases de datos y se utilizan para registrar todas las transacciones de la base de datos. (Los archivos de registro de transacciones se pueden utilizar para recuperar bases de datos en caso de fallo del sistema).

En la CDC basada en registros, una aplicación CDC procesa los cambios registrados en el registro y comparte las actualizaciones con otros sistemas. La CDC basada en registros se ha vuelto cada vez más popular, en parte debido a que se basa en registros en lugar de consultas que podrían degradar el rendimiento del sistema de origen. Sin embargo, la variación en los formatos de los registros de transacciones puede complicar la ejecución de CDC basada en registros en diferentes bases de datos.

CDC basada en marcas de tiempo

La captura de datos de cambio basada en marcas de tiempo, también conocida como CDC basada en consultas, requiere que los esquemas de las tablas de bases de datos tengan una característica, como las columnas de marca de tiempo, anotando la fecha y hora de los cambios en los registros. Se puede utilizar una herramienta CDC para identificar registros modificados a través de la columna de marca de tiempo en una tabla de origen y luego entregar actualizaciones a los sistemas de destino.

Aunque la CDC basada en marcas de tiempo puede ser sencilla de implementar, también puede suponer una carga adicional para un sistema cuando se realizan con frecuencia sondeos de datos de marcas de tiempo. La CDC basada en marcas de tiempo tampoco captura las operaciones de eliminación cuando la marca de tiempo se elimina junto con el resto de una fila.

CDC basada en desencadenantes

En la captura de datos de cambio basada en desencadenantes, los procedimientos almacenados o funciones conocidas como disparadores de bases de datos se ejecutan una vez que se producen modificaciones específicas (como inserciones, eliminaciones y actualizaciones) en una base de datos. A continuación, los datos modificados se almacenan en lo que suele denominarse tabla de cambios o tabla sombra.

Al igual que la CDC basada en marcas de tiempo, la CDC basada en disparadores puede ser sencilla de implementar. Sin embargo, también puede sobrecargar los sistemas de origen, ya que los desencadenantes se "activan" cada vez que se produce una transacción en la tabla de origen.

Herramientas de captura de datos de cambio

Las herramientas que realizan la captura de datos modificados pueden ser nativas de entornos y sistemas de bases de datos específicos, como AWS Database Migration Service, o pueden implementarse de manera más amplia. Las soluciones de software de captura de datos de cambios no nativos incluyen plataformas de código abierto como Debezium y plataformas comerciales como IBM® Streamsets y Oracle GoldenGate.

A medida que las empresas reflexionan sobre qué solución elegir, pueden considerar factores como los precios, los conectores a los sistemas de origen y destino, y las interfaces de programación de aplicaciones (API) para la integración del sistema.

Casos de uso para la captura de datos de cambio

Las empresas pueden implementar la captura de datos de cambio para una variedad de usos, que incluyen:

Detección del fraude

El seguimiento continuo de los cambios en los registros financieros mediante la captura de datos de cambio puede permitir la detección de actividades fraudulentas antes de que provoquen resultados sustanciales en pérdidas.

Habilitación del Internet de las cosas (IoT)

La CDC puede integrar de manera eficiente las enormes cantidades de datos en tiempo real generados por los dispositivos IoT, lo que permite el mantenimiento predictivo y la monitorización en tiempo real.

Gestión de inventario y cadena de suministro

El acceso a la información de ventas, inventario y cadena de suministro en tiempo real respaldada por la captura de datos de cambios puede ayudar a las empresas a evitar la falta de existencias y a tomar lucrativas decisiones de precios.

Conformidad con la normativa

La captura de datos de cambios puede ayudar a las empresas altamente reguladas a mantener los registros precisos necesarios para informar y cumplir con los reglamentos y leyes, como el RGPD, la Ley Sarbanes-Oxley (SOX) y la HIPAA en los EE. UU.

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explore StreamSets
IBM Databand

Descubra IBM Databand, el software de observabilidad para canalizaciones de datos. Recopila metadatos automáticamente para crear líneas de base históricas, detectar anomalías y crear flujos de trabajo para solucionar problemas relacionados con la calidad de los datos.

Explorar Databand
Soluciones de integración de datos

Cree canalizaciones de datos resilientes, de alto rendimiento y con costes optimizados para sus iniciativas de IA generativa, análisis en tiempo real, modernización de almacenes y necesidades operativas con las soluciones de integración de datos de IBM.

Descubra las soluciones de integración de datos
Dé el siguiente paso

Descubra IBM DataStage, una herramienta ETL (Extracción, Transformación y Carga) que ofrece una interfaz visual para diseñar, desarrollar e implementar canalizaciones de datos. Está disponible como SaaS gestionado en IBM Cloud, para autoalojamiento y como complemento de IBM Cloud Pak for Data.

Explorar DataStage Explore los servicios de análisis