Was ist Echtzeit-Datenintegration?

Bild eines Mannes mit Tablet, der durch ein Rechenzentrum geht

Autoren

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

Was ist Echtzeit-Datenintegration?

Die Datenintegration in Echtzeit umfasst die Erfassung und Verarbeitung von Daten aus mehreren Quellen, sobald sie verfügbar sind, und ihre anschließende sofortige Integration in ein Zielsystem.
 

Wie bei der traditionellen Datenintegration dient die Echtzeit-Datenintegration dazu, Daten zu kombinieren und zu harmonisieren, die im gesamten Unternehmen möglicherweise in Silos oder inkonsistent sind. Der Prozess umfasst Schritte von der Datenaufnahme bis zur Datenanalyse. So können Benutzer schneller und fundierter Entscheidungen treffen.

Der Unterschied liegt in der Geschwindigkeit der Datenverfügbarkeit. Die Datenintegration in Echtzeit ermöglicht es Benutzern, mit minimaler Verzögerung – in der Regel innerhalb weniger Millisekunden – Erkenntnisse aus Daten zu gewinnen.

Der sofortige Zugriff auf hochwertige Daten aus einer Vielzahl von Quellen (wie Datenbanken, Tabellenkalkulationen, Anwendungen und Cloud-Diensten) und Formaten gibt Unternehmen die Möglichkeit, schnell auf Veränderungen zu reagieren. Dies ermöglicht Anwendungsfälle wie Business Intelligence (BI), generative KI, Hyper-Personalisierung und mehr.

Herkömmliche Datenintegrationsprozesse, wie z. B. die Stapelverarbeitung, können die wachsenden Datenmengen und die Hochgeschwindigkeitsdatenanforderungen moderner Unternehmen nicht unterstützen. Bei der Echtzeit-Datenintegration kommen verschiedene Streaming-Technologien und Echtzeit-Datenprozesse zum Einsatz, die von Open-Source-Lösungen bis hin zu umfassenden Datenintegrationsplattformen reichen, die für den kontinuierlichen und groß angelegten Betrieb ausgelegt sind.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Warum ist die Echtzeit-Datenintegration wichtig?

Daten sind die treibende Kraft hinter Innovationen und ein entscheidender Vorteil für datengesteuerte Unternehmen. Aber die heutigen Datenmengen wachsen: Es wird erwartet, dass die globale Datensphäre bis 2028 393,9 Zettabytes erreichen wird. Die Daten werden auch immer verteilter und vielfältiger, gespeichert in verschiedenen Systemen und Repositories, in der Cloud und in firmeneigenen Umgebungen.

Die Verwaltung dieses zunehmend komplexen Datenbergs stellt eine große Herausforderung dar. Unternehmen kämpfen mit Silos, Datenunbeständigkeit (die auftritt, wenn es Lücken in der Zeit gibt, in der Daten nicht aktualisiert wurden), Data Governance und hoher Netzwerk-Latenz.

Die Herausforderung der modernen Datenverwaltung wird durch den Druck, agil und innovativ zu sein, noch verschärft. Die Märkte von heute sind volatil, und Unternehmen wissen, dass sie Daten in Echtzeit verarbeiten müssen, um schnell auf Veränderungen reagieren zu können. Generative KI hat sich auch zu einem Wettbewerbsfaktor entwickelt, der das globale BIP innerhalb der nächsten 10 Jahre voraussichtlich um 7 % steigern wird.

Generative KI erfordert jedoch große Mengen an hochwertigen Daten, um brauchbare Ergebnisse zu erzielen. Und für Anwendungsfälle, bei denen generative KI-Modelle in Echtzeit reagieren müssen (z. B. Betrugserkennung oder Logistik), ist es entscheidend, dass Daten bereitgestellt werden, sobald sie erfasst werden. Derzeit sind nur 16 % der technischen Führungskräfte davon überzeugt, dass ihre aktuellen Cloud- und Datenfunktionen generative KI unterstützen können.1

Die Datenintegration in Echtzeit trägt dazu bei, dieses moderne Bedürfnis nach unmittelbarem Datenzugriff zu befriedigen und gleichzeitig die Vorteile der traditionellen Datenintegration zu nutzen, d. h. die Datensilos zu reduzieren und die Datenqualität zu verbessern. Außerdem erhöht es die betriebliche Effizienz, indem es schnellere Einblicke und datengesteuerte Entscheidungen ermöglicht.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Zwei Arten von Echtzeitdaten

Echtzeitdaten werden häufig in zwei Typen eingeteilt: Streaming-Daten und Ereignisdaten. Für Unternehmen, die eine Echtzeit-Integration und -Erkenntnisse anstreben, ist es entscheidend zu verstehen, wie sich die verschiedenen Arten unterscheiden und zueinander in Beziehung stehen.

Streaming-Daten

Streaming-Daten sind Echtzeitdaten, die kontinuierlich aus verschiedenen Quellen fließen, beispielsweise von Geräten des Internets der Dinge (IoT), Finanzmärkten, Social-Media-Aktivitäten oder E-Commerce-Transaktionen. Streaming-Daten sind von grundlegender Bedeutung für Big Data und Echtzeitanalysen, künstliche Intelligenz (KI) und maschinelles Lernen. Sie sind auch für andere Anwendungsfälle von zentraler Bedeutung, die kontinuierliche, aktuelle Informationen erfordern.

Event Stream

Ereignisse sind einzelne Veränderungen, Ereignisse oder Aktionen, die für ein System wichtig sind, wie z.B. ein Produktverkauf, ein Geldtransfer oder das Erreichen einer bestimmten Temperatur. Zusammenhängende Ereignisse werden in Gruppen zusammengefasst. Die kontinuierliche Lieferung dieser gruppierten Ereignisse kann als Stream oder, genauer gesagt, als Event Stream betrachtet werden. Allerdings enthält nicht jede Instanz des Echtzeit-Datenstroms Ereignisse.

Tools und Methoden für die Integration von Echtzeitdaten

Es gibt verschiedene Tools und Methoden zur Echtzeit-Datenintegration, darunter:

  • Integration von Streaming-Daten (Stream Data Integration, SDI)
  • Änderungsdatenerfassung (Change Data Capture, CDC)
  • Anwendungsintegration
  • Datenvirtualisierung

Integration von Streaming-Daten (SDI)

Im Gegensatz zur Batch-Integration, bei der Momentaufnahmen von Daten aus verschiedenen Quellen in bestimmten Zeitabständen integriert werden, werden bei der Stream Data Integration (SDI) Daten in Echtzeit integriert, sobald sie verfügbar sind. Sie konsumiert, verarbeitet und lädt ständig Datenströme zur Analyse in ein Zielsystem. Diese Funktionen ermöglichen fortschrittliche Datenanalysen, maschinelles Lernen und andere Anwendungsfälle für Echtzeitdaten, wie z. B. Betrugserkennung und IoT-Analysen.

Die Implementierung von SDI erfordert Streaming Data Pipelines, die Millionen von Datensätzen mit geringer Latenz und hoher Geschwindigkeit zwischen den Unternehmenssystemen übertragen. Diese Pipelines tragen dazu bei, die Datenintegrität zu gewährleisten, indem sie das Risiko von Datenverfälschungen oder -duplizierungen – häufige Probleme bei der schnellen Verarbeitung großer Datenmengen – erheblich reduzieren.

Datenintegrationsplattformen wie Apache Kafka und IBM StreamSets können Unternehmen dabei helfen, Streaming-Datenpipelines aufzubauen, die auf ihre einzigartigen IT-Ökosysteme zugeschnitten sind.

Änderungsdatenerfassung (CDC)

Die Änderungsdatenerfassung überträgt Änderungen aus Datenquellen – wie Microsoft SQL Server-Datenbanken, Oracle oder MongoDB – auf Data Warehouses, ETL-Lösungen und andere Daten-Repositories oder Zielsysteme, sobald sie auftreten. Änderungen können das Löschen, Einfügen und Aktualisieren von Daten umfassen. Im Gegensatz zu Datenreplikationstools erfasst und repliziert CDC nur Änderungen, nicht den gesamten Datensatz.

Im Wesentlichen hilft CDC, die Systeme in Echtzeit auf dem neuesten Stand zu halten. Da nur die Daten gesendet werden, die sich geändert haben, werden auch der Overhead bei der Datenverarbeitung, die Ladezeiten und der Netzwerkverkehr reduziert.

Anwendungsintegration

Das durchschnittliche Unternehmen verwendet fast 1.200 Cloud-Anwendungen für den Betrieb, und jede Anwendung erzeugt ihre eigenen Daten, was zu Datensilos geführt hat. Moderne Workflows erfordern jedoch Echtzeit-Datenflüsse zwischen Anwendungen und Systemen. Anwendungsintegration, auch Softwareintegration genannt, automatisiert und rationalisiert die Datenübertragungsprozesse zwischen Softwareanwendungen, um eine Datenintegration in Echtzeit oder nahezu in Echtzeit zu ermöglichen.

Unternehmen verwenden häufig Anwendungsprogrammierschnittstellen (APIs), um Workflows zur Anwendungsintegration zu erstellen und zu automatisieren. Eine API ist ein Satz von Regeln oder Protokollen, die es Anwendungen ermöglichen, nahtlos miteinander zu kommunizieren und Daten auszutauschen.

Unternehmen können auch Webhooks und Middleware verwenden, um die Anwendungsintegration zu erleichtern.

Datenvirtualisierung

Die Datenvirtualisierung schafft eine virtuelle Ebene, die eine einheitliche Sicht auf Echtzeit-Datenströme aus verschiedenen Quellen wie Sensordaten und Geräteprotokollen bietet. Diese Gesamtansicht macht das Verschieben, Duplizieren oder die Stapelverarbeitung von Daten an anderer Stelle überflüssig. Dank dieser Funktionen werden Integrationszeit und -kosten erheblich reduziert und gleichzeitig das Risiko von Ungenauigkeiten oder Datenverlusten minimiert.

Tools zur Datenvirtualisierung können auch eine semantische Ebene bieten, eine Benutzeroberfläche, die Daten in aussagekräftige Begriffe für Geschäftsentscheidungen umwandelt.

Darüber hinaus ist die Datenvirtualisierung eine Datenintegrationslösung sowohl für Echtzeit- als auch für historische Daten, die einen umfassenden Überblick über das gesamte betriebliche Datenökosystem eines Unternehmens bietet. Dieser umfangreiche Datensatz ist ideal für das Training der Foundation Models hinter generativer KI.

Andere Typen der Datenintegration

Es gibt weitere Arten von Datenintegrationsprozessen, die je nach den Datenanforderungen eines Unternehmens zusammen mit der Echtzeitdatenintegration verwendet werden können.

  • Batch-Datenintegration: Bei der Batch-Integration werden die Daten gesammelt und in einer Gruppe gespeichert. Wenn dann ein bestimmter Zeitraum verstrichen ist oder eine bestimmte Datenmenge erfasst wurde, werden die Daten verschoben und als Stapel integriert. Diese Methode ist ideal für rechenintensive Daten und wenn der Zeitfaktor keine Rolle spielt.

  • Micro-Batch-Datenintegration: Die Micro-Batch-Integration wird oft als nahezu in Echtzeit Alternative zur traditionellen Stapelverarbeitung betrachtet. Bei dieser Methode werden die Daten in kleineren, häufigeren Workloads verarbeitet, was Erkenntnisse nahezu in Echtzeit und mit geringerer Latenz ermöglicht.

  • Extrahieren, Transformieren, Laden (ETL): Der ETL-Datenintegrationsprozess kombiniert, bereinigt und organisiert Daten aus verschiedenen Quellen (z.B. ERP-Systeme und Datenbanken) zu einem einzigen, konsistenten Datensatz für die Speicherung in einem Data Warehouse, Data Lake oder einem anderen Zielsystem. ETL-Datenpipelines können gut geeignet sein, wenn Datenqualität und -konsistenz von größter Bedeutung sind, da der Datenumwandlungsprozess eine strenge Datenbereinigung und -validierung umfassen kann.
  • Extrahieren, Laden, Transformieren (ELT): Wie bei ETL werden bei der ELT-Datenintegration Rohdaten von einem Quellsystem zu einer Zielressource übertragen. Anstatt die Daten jedoch im Vorfeld zu bereinigen, werden die Rohdaten direkt in den Datenspeicher geladen und nach Bedarf umgewandelt. Dies ermöglicht eine flexiblere Datenverwaltung. ELT wird in der Regel eingesetzt, wenn Geschwindigkeit und Skalierbarkeit entscheidend sind.

Diese Arten der Datenintegration gehören zwar zu den gebräuchlichsten, aber die Liste ist nicht vollständig. Einige Unternehmen verwenden beispielsweise auch Methoden zur Integration von Verbunddaten, zur manuellen Datenintegration und zum einheitlichen Datenzugriff.

Anwendungsfälle für die Integration von Echtzeitdaten

Datenintegration in Echtzeit ist für viele Branchen und Szenarien nützlich. Einige häufige Anwendungsfälle sind:

Operative Intelligenz

Die Integration von Echtzeitdaten aus der Lieferkette, der Fertigung, der Bestandsverwaltung und anderen betrieblichen Prozessen kann die Prozessoptimierung verbessern. In Verbindung mit BI-Tools können aktuelle Informationen in Dashboards, Berichten und anderen Visualisierungen angezeigt werden, um einen intelligenten, transparenten Überblick über die Gesamtleistung zu erhalten.

Personalisierung durch den Kunden

Unternehmen, die Kundeninformationen aus Customer Relationship Managern (CRM), sozialen Medien und anderen Quellen in Echtzeit integrieren, können über die herkömmliche Personalisierung hinausgehen und sich einen Wettbewerbsvorteil verschaffen. Echtzeiteinblicke ermöglichen eine Hyper-Personalisierung, die hochgradig maßgeschneiderte Kundenerlebnisse, Produkte oder Dienstleistungen auf der Grundlage des individuellen Kundenverhaltens und der Vorlieben liefert.

Betrugserkennung

Plattformen zur Datenintegration in Echtzeit ermöglichen die nahtlose Zusammenführung von Transaktions-, Verhaltens- und externen Bedrohungsdaten. Analytics Engines können dann die Daten aufnehmen und Probleme in großem Umfang aufdecken, um Unternehmen vor Betrug und finanziellen Verlusten zu schützen und gleichzeitig die Einhaltung gesetzlicher Vorschriften zu verbessern.

Künstliche Intelligenz

Mit kontinuierlich aktualisierten Datenströmen können KI-Modelle genauere Vorhersagen in Echtzeit treffen. Die Integration in Echtzeit unterstützt auch die Automatisierung. Zum Beispiel treffen Robotic Process Automation (RPA)-fähige Chatbots und autonome Fahrzeuge als Teil ihrer Kernfunktionen Entscheidungen in Echtzeit.

Weiterführende Lösungen
IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden
IBM Databand

Erkunden Sie IBM Databand, die Observability-Software für Datenpipelines. Sie erfasst automatisch Metadaten, um protokollierte Referenzwerte zu erstellen, Unregelmäßigkeiten zu erkennen und Workflows zu erstellen, damit Probleme mit der Datenqualität behoben werden können.

Databand erkunden
Lösungen zur Datenintegration

Erstellen Sie mit IBM-Datenintegrationslösungen belastbare, leistungsstarke und kostenoptimierte Datenpipelines für Ihre generativen KI-Initiativen, Echtzeitanalysen, Lagermodernisierungen und betrieblichen Anforderungen.

Datenintegrationslösungen entdecken
Machen Sie den nächsten Schritt

Entdecken Sie IBM DataStage, ein ETL-Tool (Extract, Transform, Load), das eine visuelle Benutzeroberfläche für die Gestaltung, Entwicklung und Bereitstellung von Datenpipelines bietet. Es ist als verwaltete SaaS-Lösung in der IBM Cloud, zum Selbsthosting und als Add-on zu IBM Cloud Pak for Data verfügbar.

Mehr zu DataStage Analysedienste erkunden
Fußnoten

1 „6 blind spots tech leaders must reveal“, IBM Institute for Business Value. 20. August 2024.