Die Erfassung von Änderungsdaten ist eine Methode der Echtzeit-Datenintegration, die dazu dient, Daten, die möglicherweise in Silos gespeichert oder innerhalb des Unternehmens inkonsistent sind, zu kombinieren und zu harmonisieren. Weitere Methoden sind die Stream-Datenintegration, die Datenvirtualisierung und die Anwendungsintegration.
Die Fähigkeit von CDC, Systeme in Echtzeit (und mit geringer Latenz) auf dem neuesten Stand zu halten, ist entscheidend für den Erfolg von Echtzeit-Datenanalysen, Cloud-Migrationen und sogar KI-Modellen. Es gibt eine Vielzahl von Anwendungsfällen in verschiedenen Branchen, vom Einzelhandel über das Finanzwesen bis hin zum Gesundheitswesen, wo es bei der Betrugserkennung, dem Lieferkettenmanagement und der Einhaltung gesetzlicher Vorschriften hilft.
Es gibt mehrere Ansätze zur Erfassung von Datenänderungen, wobei protokollbasierte CDC, zeitstempelbasierte CDC und triggerbasierte CDC zu den gängigsten zählen. Unternehmen können die Erfassung von Datenänderungen über datenbanknative Tools, Open-Source-Plattformen und Lösungen von Drittanbietern implementieren.
In der modernen Datenverwaltung hat sich die Erfassung von Änderungsdaten zu einem wichtigen Mechanismus des Data Engineering entwickelt. Moderne Datenumgebungen in Unternehmen werden immer größer und komplexer. Sie können Daten von Geräten des Internets der Dinge (IoT), verteilten Datenbanken, Anwendungen und anderen verschiedenen Quellen enthalten. Die Aufrechterhaltung konsistenter, qualitativ hochwertiger Daten in diesem wachsenden Datenökosystem ist eine ständige Herausforderung.
Gleichzeitig benötigt das Unternehmen genaue, aktuelle Informationen, die für Entscheidungen in Echtzeit genutzt werden können. Die Erfassung von Änderungsdaten ist eine von mehreren Methoden, mit denen Unternehmen diese Anforderung erfüllen können.
Die Erfassung von Änderungsdaten ermöglicht eine Datenpipeline mit geringer Latenz, die aktuelle Daten auf eine Weise bereitstellt, die effizienter und weniger ressourcenintensiv ist als andere Datenintegrationsmethoden. Bei der Datenreplikation werden beispielsweise vollständige Datensätze kopiert. Im Gegensatz dazu sendet CDC nur die Daten, die sich geändert haben, wodurch die Belastung der Quellsysteme, der Netzwerkverkehr und der Bedarf an Rechenleistung reduziert werden.
So können sie schnell und effizient auf die neuesten und genauesten Informationen zugreifen, was zahlreiche Vorteile mit sich bringt, darunter:
Echtzeit-Streams von Datenänderungen ermöglichen Echtzeit-Datenanalysen und Business Intelligence. Mit diesen Funktionen können Unternehmen die Anforderungen der heutigen zeitkritischen, rund um die Uhr verfügbaren Geschäftsumgebung erfüllen.
Bei Cloud-Migrationen überträgt CDC Datenänderungen, die vor Ort auftreten, schnell an die entsprechenden cloudbasierten Datentabellen und stellt so die Konsistenz zwischen beiden Umgebungen sicher. Diese Funktion minimiert außerdem die Systemausfallzeiten während der Migration.
ETL (Extrahieren, Transformieren, Laden)-Datenpipelines sind für Datenanalysen und Machine-Learning-Workstreams unverzichtbar. Die ETL-Ausführung, die auf Stapelverarbeitung beruht, verläuft jedoch in der Regel langsam und belastet die Systemressourcen. Die Integration von CDC in ETL kann die Ressourcennutzung optimieren und die Datenbewegung beschleunigen.
Die Implementierung einer Änderungsdatenerfassung kann dazu beitragen, dass die Modellquelldaten auf dem neuesten Stand sind, sodass große Sprachmodelle (Large Language Models, LLMs) genaue und zeitnahe Ausgaben liefern können. Bei einem Anwendungsfall wie z. B.Retrieval-Augmented Generation (RAG) verbinden sich KI-Modelle mit externen Wissensdatenbanken, um relevantere Antworten zu erhalten.
Die Änderungsdatenerfassung identifiziert und protokolliert Änderungsereignisse, die in verschiedenen Datenquellen stattfinden. Zu diesen Quellen können relationale Datenbanken wie Oracle, PostgreSQL, MySQL, Microsoft Azure SQL, Microsoft SQL Server sowie nicht-relationale (NoSQL) Datenbanken wie Apache Cassandra und MongoDB gehören.
Nachdem Änderungen identifiziert wurden, werden sie in Echtzeit oder nahezu in Echtzeit aus der Quelldatenbank in die Zielsysteme übertragen. Beispiele für Zielsysteme sind Datenspeicher wie Data Lakes und Data Warehouses, Echtzeitanalyse- und Streaming-Datenplattformen wie Apache Kafka und Apache Spark sowie ETL (Extrahieren, Transformieren, Laden)- und ELT- (Extrahieren, Laden, Transformieren)-Lösungen.
Die Erfassung von Änderungsdaten kann entweder durch die Zielsysteme (sogenannter „Push“-Ansatz) oder durch die Quellsysteme (sogenannter „Pull“-Ansatz) initiiert werden. Im ersten Fall sendet ein Quellsystem Änderungen an Zielsysteme. Bei Letzterem fragt ein Zielsystem regelmäßig die Quellsysteme ab und „ruft“ Änderungen ab, sobald sie gefunden werden.
Es gibt verschiedene Methoden zur Durchführung der Änderungsdatenerfassung. Zu den gängigen Arten von CDC gehören:
Datenbanktransaktionsprotokolle sind eine Standardfunktion von Datenbanken und dienen zur Aufzeichnung aller Datenbanktransaktionen. (Transaktionsprotokolldateien können verwendet werden, um Datenbanken im Falle eines Systemausfalls wiederherzustellen.)
Bei der protokollbasierten CDC verarbeitet eine CDC-Anwendung die im Protokoll aufgezeichneten Datenbankänderungen und gibt die Aktualisierungen an andere Systeme weiter. Protokollbasierte CDCs werden immer beliebter, unter anderem weil sie sich auf Protokolle stützt und nicht auf Abfragen, die die Leistung des Quellsystems beeinträchtigen könnten. Allerdings können unterschiedliche Formate von Transaktionsprotokollen die protokollbasierte CDC-Ausführung über verschiedene Datenbanken hinweg erschweren.
Die zeitstempelbasierte Erfassung von Änderungsdaten, auch als abfragebasierte CDC bezeichnet, erfordert, dass die Schemata der Datenbanktabellen Spalten enthalten, beispielsweise Zeitstempelspalten, in denen das Datum und die Uhrzeit von Datensatzänderungen vermerkt werden. Ein CDC-Tool kann verwendet werden, um geänderte Datensätze anhand der Zeitstempel-Spalte in einer Quelltabelle zu identifizieren und anschließend Aktualisierungen an die Zielsysteme zu übermitteln.
Die zeitstempelbasierte CDC ist zwar einfach zu implementieren, kann jedoch das System zusätzlich belasten, wenn häufig Zeitstempeldaten abgefragt werden. Die zeitstempelbasierte CDC erfasst auch keine Löschvorgänge, wenn der Zeitstempel zusammen mit dem Rest einer Zeile gelöscht wird.
Bei der triggerbasierten Änderungsdatenerfassung werden gespeicherte Prozeduren oder Funktionen, die als Datenbank-Trigger bezeichnet werden, ausgeführt, sobald bestimmte Änderungen (wie Einfügungen, Löschungen und Aktualisierungen) in einer Datenbank auftreten. Die geänderten Daten werden dann in einer sogenannten Änderungstabelle oder „Schattentabelle“ (Shadow Table) gespeichert.
Wie das zeitstempelbasierte CDC kann auch das Trigger-basierte CDC einfach zu implementieren sein. Allerdings kann dies auch die Quellsysteme belasten, da bei jeder Transaktion in der Quelltabelle Trigger „ausgelöst“ werden.
Tools zur Erfassung von Datenänderungen können in bestimmten Umgebungen und Datenbanksystemen nativ vorhanden sein, wie beispielsweise AWS Database Migration Service, oder sie können in größerem Umfang implementiert sein. Zu den Softwarelösungen für die Erfassung nicht nativer Änderungsdaten gehören Open-Source-Plattformen wie Debezium und kommerzielle Plattformen wie IBM Streamsets und Oracle GoldenGate.
Bei der Entscheidung für eine Lösung berücksichtigen Unternehmen möglicherweise Faktoren wie Preisgestaltung, Konnektoren zu Quell- und Zielsystemen sowie Anwendungsprogrammierschnittstellen (APIs) für die Systemintegration.
Unternehmen können die Änderungsdatenerfassung für eine Vielzahl von Zwecken bereitstellen, darunter:
Die kontinuierliche Verfolgung von Änderungen in Finanzunterlagen durch Change Data Capture ermöglicht die Aufdeckung betrügerischer Aktivitäten, bevor diese zu erheblichen Verlusten führen.
CDC kann die riesigen Mengen an Echtzeitdaten, die von IoT-Geräten generiert werden, effizient integrieren und ermöglicht so vorausschauende Wartung und Echtzeitüberwachung.
Der Zugriff auf Echtzeit-Informationen zu Verkäufen, Lagerbeständen und Lieferketten, unterstützt durch Change Data Capture, kann Unternehmen dabei helfen, Lagerengpässe zu vermeiden und lukrative Preisentscheidungen zu treffen.
Die Erfassung von Änderungsdaten kann stark regulierten Unternehmen dabei helfen, genaue Aufzeichnungen zu führen, die für die Berichterstattung und die Einhaltung von Vorschriften und Gesetzen wie der DSGVO, dem Sarbanes-Oxley Act (SOX) und HIPAA in den USA erforderlich sind.
Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.
Erkunden Sie IBM Databand, die Observability-Software für Datenpipelines. Sie erfasst automatisch Metadaten, um protokollierte Referenzwerte zu erstellen, Unregelmäßigkeiten zu erkennen und Workflows zu erstellen, damit Probleme mit der Datenqualität behoben werden können.
Erstellen Sie mit IBM-Datenintegrationslösungen belastbare, leistungsstarke und kostenoptimierte Datenpipelines für Ihre generativen KI-Initiativen, Echtzeitanalysen, Lagermodernisierungen und betrieblichen Anforderungen.