Was ist Change Data Capture?

Frau arbeitet an Laptop in einem Lager.

Autoren

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Was ist Change Data Capture?

Die Erfassung von Änderungsdaten (Change Data Capture, CDC) ist ein Verfahren zur Erkennung und Aufzeichnung von Datenänderungen in einer Datenbank. CDC liefert diese Änderungen in Echtzeit an verschiedene Zielsysteme und ermöglicht so die Synchronisierung von Daten in einem Unternehmen unmittelbar nach einer Datenbankänderung.

 

Die Erfassung von Änderungsdaten ist eine Methode der Echtzeit-Datenintegration, die dazu dient, Daten, die möglicherweise in Silos gespeichert oder innerhalb des Unternehmens inkonsistent sind, zu kombinieren und zu harmonisieren. Weitere Methoden sind die Stream-Datenintegration, die Datenvirtualisierung und die Anwendungsintegration.

Die Fähigkeit von CDC, Systeme in Echtzeit (und mit geringer Latenz) auf dem neuesten Stand zu halten, ist entscheidend für den Erfolg von Echtzeit-Datenanalysen, Cloud-Migrationen und sogar KI-Modellen. Es gibt eine Vielzahl von Anwendungsfällen in verschiedenen Branchen, vom Einzelhandel über das Finanzwesen bis hin zum Gesundheitswesen, wo es bei der Betrugserkennung, dem Lieferkettenmanagement und der Einhaltung gesetzlicher Vorschriften hilft.

Es gibt mehrere Ansätze zur Erfassung von Datenänderungen, wobei protokollbasierte CDC, zeitstempelbasierte CDC und triggerbasierte CDC zu den gängigsten zählen. Unternehmen können die Erfassung von Datenänderungen über datenbanknative Tools, Open-Source-Plattformen und Lösungen von Drittanbietern implementieren.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Was sind die Vorteile der Erfassung von Änderungsdaten?

In der modernen Datenverwaltung hat sich die Erfassung von Änderungsdaten zu einem wichtigen Mechanismus des Data Engineering entwickelt. Moderne Datenumgebungen in Unternehmen werden immer größer und komplexer. Sie können Daten von Geräten des Internets der Dinge (IoT), verteilten Datenbanken, Anwendungen und anderen verschiedenen Quellen enthalten. Die Aufrechterhaltung konsistenter, qualitativ hochwertiger Daten in diesem wachsenden Datenökosystem ist eine ständige Herausforderung.

Gleichzeitig benötigt das Unternehmen genaue, aktuelle Informationen, die für Entscheidungen in Echtzeit genutzt werden können. Die Erfassung von Änderungsdaten ist eine von mehreren Methoden, mit denen Unternehmen diese Anforderung erfüllen können.

Die Erfassung von Änderungsdaten ermöglicht eine Datenpipeline mit geringer Latenz, die aktuelle Daten auf eine Weise bereitstellt, die effizienter und weniger ressourcenintensiv ist als andere Datenintegrationsmethoden. Bei der Datenreplikation werden beispielsweise vollständige Datensätze kopiert. Im Gegensatz dazu sendet CDC nur die Daten, die sich geändert haben, wodurch die Belastung der Quellsysteme, der Netzwerkverkehr und der Bedarf an Rechenleistung reduziert werden.

So können sie schnell und effizient auf die neuesten und genauesten Informationen zugreifen, was zahlreiche Vorteile mit sich bringt, darunter:

Entscheidungsfindung in Echtzeit

Echtzeit-Streams von Datenänderungen ermöglichen Echtzeit-Datenanalysen und Business Intelligence. Mit diesen Funktionen können Unternehmen die Anforderungen der heutigen zeitkritischen, rund um die Uhr verfügbaren Geschäftsumgebung erfüllen.

Erfolgreiche Cloud-Migration

Bei Cloud-Migrationen überträgt CDC Datenänderungen, die vor Ort auftreten, schnell an die entsprechenden cloudbasierten Datentabellen und stellt so die Konsistenz zwischen beiden Umgebungen sicher. Diese Funktion minimiert außerdem die Systemausfallzeiten während der Migration.

Verbesserung des ETL-Prozesses

ETL (Extrahieren, Transformieren, Laden)-Datenpipelines sind für Datenanalysen und Machine-Learning-Workstreams unverzichtbar. Die ETL-Ausführung, die auf Stapelverarbeitung beruht, verläuft jedoch in der Regel langsam und belastet die Systemressourcen. Die Integration von CDC in ETL kann die Ressourcennutzung optimieren und die Datenbewegung beschleunigen.

Bessere Leistung von künstlicher Intelligenz (KI)

Die Implementierung einer Änderungsdatenerfassung kann dazu beitragen, dass die Modellquelldaten auf dem neuesten Stand sind, sodass große Sprachmodelle (Large Language Models, LLMs) genaue und zeitnahe Ausgaben liefern können. Bei einem Anwendungsfall wie z. B.Retrieval-Augmented Generation (RAG) verbinden sich KI-Modelle mit externen Wissensdatenbanken, um relevantere Antworten zu erhalten.

Mixture of Experts | 28. August, Folge 70

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Wie funktioniert Change Data Capture?

Die Änderungsdatenerfassung identifiziert und protokolliert Änderungsereignisse, die in verschiedenen Datenquellen stattfinden. Zu diesen Quellen können relationale Datenbanken wie Oracle, PostgreSQL, MySQL, Microsoft Azure SQL, Microsoft SQL Server sowie nicht-relationale (NoSQL) Datenbanken wie Apache Cassandra und MongoDB gehören.

Nachdem Änderungen identifiziert wurden, werden sie in Echtzeit oder nahezu in Echtzeit aus der Quelldatenbank in die Zielsysteme übertragen. Beispiele für Zielsysteme sind Datenspeicher wie Data Lakes und Data Warehouses, Echtzeitanalyse- und Streaming-Datenplattformen wie Apache Kafka und Apache Spark sowie ETL (Extrahieren, Transformieren, Laden)- und ELT- (Extrahieren, Laden, Transformieren)-Lösungen.

Die Erfassung von Änderungsdaten kann entweder durch die Zielsysteme (sogenannter „Push“-Ansatz) oder durch die Quellsysteme (sogenannter „Pull“-Ansatz) initiiert werden. Im ersten Fall sendet ein Quellsystem Änderungen an Zielsysteme. Bei Letzterem fragt ein Zielsystem regelmäßig die Quellsysteme ab und „ruft“ Änderungen ab, sobald sie gefunden werden.

Gängige Methoden für die Erfassung von Änderungsdaten

Es gibt verschiedene Methoden zur Durchführung der Änderungsdatenerfassung. Zu den gängigen Arten von CDC gehören: 

  • Protokollbasiertes CDC
  • Zeitstempelbasiertes CDC
  • Triggerbasiertes CDC

Protokollbasiertes CDC

Datenbanktransaktionsprotokolle sind eine Standardfunktion von Datenbanken und dienen zur Aufzeichnung aller Datenbanktransaktionen. (Transaktionsprotokolldateien können verwendet werden, um Datenbanken im Falle eines Systemausfalls wiederherzustellen.)

Bei der protokollbasierten CDC verarbeitet eine CDC-Anwendung die im Protokoll aufgezeichneten Datenbankänderungen und gibt die Aktualisierungen an andere Systeme weiter. Protokollbasierte CDCs werden immer beliebter, unter anderem weil sie sich auf Protokolle stützt und nicht auf Abfragen, die die Leistung des Quellsystems beeinträchtigen könnten. Allerdings können unterschiedliche Formate von Transaktionsprotokollen die protokollbasierte CDC-Ausführung über verschiedene Datenbanken hinweg erschweren.

Zeitstempel-basierte CDC

Die zeitstempelbasierte Erfassung von Änderungsdaten, auch als abfragebasierte CDC bezeichnet, erfordert, dass die Schemata der Datenbanktabellen Spalten enthalten, beispielsweise Zeitstempelspalten, in denen das Datum und die Uhrzeit von Datensatzänderungen vermerkt werden. Ein CDC-Tool kann verwendet werden, um geänderte Datensätze anhand der Zeitstempel-Spalte in einer Quelltabelle zu identifizieren und anschließend Aktualisierungen an die Zielsysteme zu übermitteln.

Die zeitstempelbasierte CDC ist zwar einfach zu implementieren, kann jedoch das System zusätzlich belasten, wenn häufig Zeitstempeldaten abgefragt werden. Die zeitstempelbasierte CDC erfasst auch keine Löschvorgänge, wenn der Zeitstempel zusammen mit dem Rest einer Zeile gelöscht wird.

Trigger-basierte CDC

Bei der triggerbasierten Änderungsdatenerfassung werden gespeicherte Prozeduren oder Funktionen, die als Datenbank-Trigger bezeichnet werden, ausgeführt, sobald bestimmte Änderungen (wie Einfügungen, Löschungen und Aktualisierungen) in einer Datenbank auftreten. Die geänderten Daten werden dann in einer sogenannten Änderungstabelle oder „Schattentabelle“ (Shadow Table) gespeichert.

Wie das zeitstempelbasierte CDC kann auch das Trigger-basierte CDC einfach zu implementieren sein. Allerdings kann dies auch die Quellsysteme belasten, da bei jeder Transaktion in der Quelltabelle Trigger „ausgelöst“ werden.

Tools zur Erfassung von Datenänderungen

Tools zur Erfassung von Datenänderungen können in bestimmten Umgebungen und Datenbanksystemen nativ vorhanden sein, wie beispielsweise AWS Database Migration Service, oder sie können in größerem Umfang implementiert sein. Zu den Softwarelösungen für die Erfassung nicht nativer Änderungsdaten gehören Open-Source-Plattformen wie Debezium und kommerzielle Plattformen wie IBM Streamsets und Oracle GoldenGate.

Bei der Entscheidung für eine Lösung berücksichtigen Unternehmen möglicherweise Faktoren wie Preisgestaltung, Konnektoren zu Quell- und Zielsystemen sowie Anwendungsprogrammierschnittstellen (APIs) für die Systemintegration.

Anwendungsfall für die Erfassung von Änderungsdaten

Unternehmen können die Änderungsdatenerfassung für eine Vielzahl von Zwecken bereitstellen, darunter:

Betrugserkennung

Die kontinuierliche Verfolgung von Änderungen in Finanzunterlagen durch Change Data Capture ermöglicht die Aufdeckung betrügerischer Aktivitäten, bevor diese zu erheblichen Verlusten führen.

Aktivierung des Internets der Dinge (IoT).

CDC kann die riesigen Mengen an Echtzeitdaten, die von IoT-Geräten generiert werden, effizient integrieren und ermöglicht so vorausschauende Wartung und Echtzeitüberwachung.

Bestands- und Lieferkettenmanagement

Der Zugriff auf Echtzeit-Informationen zu Verkäufen, Lagerbeständen und Lieferketten, unterstützt durch Change Data Capture, kann Unternehmen dabei helfen, Lagerengpässe zu vermeiden und lukrative Preisentscheidungen zu treffen.

Einhaltung von Vorschriften

Die Erfassung von Änderungsdaten kann stark regulierten Unternehmen dabei helfen, genaue Aufzeichnungen zu führen, die für die Berichterstattung und die Einhaltung von Vorschriften und Gesetzen wie der DSGVO, dem Sarbanes-Oxley Act (SOX) und HIPAA in den USA erforderlich sind.

Weiterführende Lösungen
IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden
IBM Databand

Erkunden Sie IBM Databand, die Observability-Software für Datenpipelines. Sie erfasst automatisch Metadaten, um protokollierte Referenzwerte zu erstellen, Unregelmäßigkeiten zu erkennen und Workflows zu erstellen, damit Probleme mit der Datenqualität behoben werden können.

Databand erkunden
Lösungen zur Datenintegration

Erstellen Sie mit IBM-Datenintegrationslösungen belastbare, leistungsstarke und kostenoptimierte Datenpipelines für Ihre generativen KI-Initiativen, Echtzeitanalysen, Lagermodernisierungen und betrieblichen Anforderungen.

Datenintegrationslösungen entdecken
Machen Sie den nächsten Schritt

Entdecken Sie IBM DataStage, ein ETL-Tool (Extract, Transform, Load), das eine visuelle Benutzeroberfläche für die Gestaltung, Entwicklung und Bereitstellung von Datenpipelines bietet. Es ist als verwaltete SaaS-Lösung in der IBM Cloud, zum Selbsthosting und als Add-on zu IBM Cloud Pak for Data verfügbar.

Mehr zu DataStage Analysedienste erkunden