IBM, Chief Data Office

In einer früheren Fallstudie berichteten wir, wie das Global Chief Data Office (GCDO) von IBM mit dem nur allzu bekannten Problem konfrontiert war, dass die Daten im gesamten Unternehmen verstreut warn – und wie es, mangels einer kommerziell verfügbaren Plattform, die Cognitive Enterprise Data Platform (CEDP) als zentrale Quelle für verwaltete Daten entwickelte, damit Benutzer Unternehmensdaten laden, umwandeln und analysieren konnten. Dieser Anwendungsfall setzt unsere Geschichte der CEDP-Modernisierung unter Nutzung der Lösung IBM Cloud Pak® for Data fort.

Dieses Mal dreht sich alles um die Datenbewegung.

Die Problemstellung war klar. Riesige Datenmengen mussten in unsere einheitliche Plattform aufgenommen werden, und der Prozess würde Monate dauern.

Initial Data Loads (IDLs) replizieren Daten mithilfe von Change Data Capture (CDC) von einem System auf ein anderes. CDC erhöht die Effizienz, da nach der ersten Übertragung nur geänderte Daten verschoben werden müssen.

Wie bei dieser ersten Übertragung handelt es sich bei IDLs in der Regel um riesige Datenmengen, und die Tabellen, die GCDO laden musste, bildeten da keine Ausnahme: Die größte der Dutzenden von Tabellen enthielt 426 Millionen Datensätze mit einer Dateigröße von 186 GB. Das Laden von Datensätzen dauerte in einigen Fällen Wochen. Kurz vor der Belastungsgrenze und im Grunde am Fortschritt gehindert brauchte das GCDO eine neue Lösung. Sie fanden diese in IBM® DataStage® für IBM Cloud Pak for Data.

Kollegen, die gemeinsam an einem Laptop nach Möglichkeiten suchen, ihr Geschäft zu verbessern

Schnelleres Laden von Daten

Initial Data Load in einem Bruchteil der Zeit, von 3 Tagen runter auf 3 Stunden

Datenbewegung im großen Maßstab

Fehlerfreie, stabile Datenbewegung von Hunderten von Datentabellen mit jeweils Milliarden Zeilen, einschließlich Parameterseiten zur Skalierung eines einzelnen Auftrags auf tausende Arten

Nach nur wenigen Tagen äußerst erfolgreicher Tests haben wir DataStage für IBM Cloud Pak for Data integriert … IDLs von 60 Millionen Datensätzen, die sonst drei Tage gedauert hatten, wurden in nur etwa drei Stunden fertiggestellt.

Inderpal Bhandari

Global Chief Data Officer

IBM

Modernisierung der Datenbewegung

Als GCDO seine Daten- und KI-Reise begann, gab es die Lösung IBM Cloud Pak for Data noch nicht. Während das CEDP einen wichtigen Schritt nach vorne darstellte, verschaffte die Entwicklung der Lösung IBM Cloud Pak for Data dem GCDO einen Heimvorteil, um seine eigene Plattform auf das nächste Level zu bringen.

Als Suite von Services und Erweiterungen, die je nach Bedarf genutzt werden können, bot IBM Cloud Pak for Data GCDO die nötige Flexibilität, um schrittweise zu modernisieren und mit den wichtigsten Prioritäten zu beginnen. Es gab keine vorgeschriebene Reihenfolge für die Einführung oder Bereitstellung.

Das GCDO begann zunächst mit der KI-Suite von Services innerhalb von IBM Cloud Pak for Data, einschließlich IBM® Watson Studio. IBM Watson Studio wird lokal und in der Cloud ausgeführt und analysiert Daten mit der IBM Db2 Big SQL-Lösung.Die Details dieses Teils der Modernisierung von GCDO werden in dieser Fallstudie beschrieben.

Für den nächsten Schritt verwendete GCDO die DataStage-Technologie, um die Geschwindigkeit der Aufnahme großer Datenmengen deutlich zu erhöhen, bei gleichzeitiger Stabilität und Genauigkeit.

„Nach mehreren Monaten, in denen wir Server und Datenbankverbindungen einrichteten sowie Trial-and-Error-Konfigurationen durchführten und dazulernten, dauerte die Replikation einer Tabelle mit 60 Millionen Datensätzen immer noch drei Tage“, erzählt Frank Duffy, Senior Project Manager bei GCDO Master Data. „Wenn man sich diese Statistiken ansieht, hätten wir bei etwa 20 großen Tabellen mit weiteren 60 Tagen rechnen müssen, um die Daten zu migrieren.“

Das Datenbewegungsteam von GCDO testete die Leistung der DataStage- und Spark-Technologie bei der Ausführung gängiger Anwendungsfälle zum Laden von Daten. In mehr als 75 % der Fälle erzielten sie mit der DataStage-Technologie eine bessere Leistung als mit der Spark-Technologie. Bei den restlichen 25 % stimmten die Ergebnisse nahezu überein.

Neben der Leistung waren es auch die folgenden Faktoren, die GCDO zur DataStage-Lösung bewogen haben:

Integration mit dem IBM Cloud Pak for Data-Ökosystem, insbesondere für den IBM Watson Knowledge Catalog und für die Datenabstammung
Breite der unterstützten Quellen, Ziele und Zwischenstufen, die den aktuellen und zukünftigen Bedürfnissen entsprachen
Benutzerdefinierte Phasen, um Anforderungen bei Bedarf in wiederverwendbaren Einheiten zusammenzufassen
Funktionen, die einen musterbasierten Ansatz unterstützen

Die IBM Cloud Pak for Data-Lösung ist auf verschiedene Branchendatenquellen abgestimmt und entwickelt diese Quellen ständig weiter, um neuen Technologien gerecht zu werden. Die DataStage for IBM Cloud Pak for Data-Lösung wird mit einem großen Bestand an Branchenkonnektoren geliefert, die die meisten der Datenspeicher abdecken, mit denen die GCDO-Benutzer arbeiten wollten. Dank dieser Konnektoren konnte GCDO mit diesen verschiedenen Speicherformaten und -systemen arbeiten, ohne dass dafür Code geschrieben werden musste.

In den Fällen, in denen noch kein Konnektor verfügbar war, konnten benutzerdefinierte Konnektoren entwickelt, bereitgestellt und in der Arbeitsfläche eingesetzt werden.

Die DataStage for IBM Cloud Pak for Data-Lösung bietet auch Funktionen für Runtime Column Propagation – für die GCDO-Ingenieure war das ein großer Vortiel, weil sie einen musterbasierten Ansatz für die Datenbewegung ermöglichte. Indem gängige Datenbewegungsmuster als Aufträge ausgedrückt wurden, konnte GCDO die Abläufe so skalieren, dass Tausende von Tabellen unterstützt werden konnten, ohne das Personal aufstocken zu müssen.

„Die Muster-Funktion von DataStage for IBM Cloud Pak ermöglichte es uns, einen Auftrag auf Tausende verschiedene Arten auszuführen“, erklärt Rick McCall, GCDO Technical Lead für das Data Movement Tool. „In einigen Fällen hatten wir mehr als 8.000 Aufträge – Seiten um Seiten – die einem einzelnen Muster zugeordnet und als einzelner Auftrag ausgeführt werden konnten. Dadurch ließ sich ein Satz Code mit optimierter Leistung und Quellcodekontrolle in einer superschnellen, hochzuverlässigen Lösung vereinen.“

Ein weiterer Vorteil der DataStage for IBM Cloud Pak for Data-Lösung besteht darin, dass sie sich nahtlos in RedHat® OpenShift® integrieren lässt. Es bietet außerdem API-Unterstützung, sodass Benutzer bei Bedarf benutzerdefinierte Workflows darauf aufbauen können.

„DataStage for IBM Cloud Pak for Data hat unsere Datenaufnahme grundlegend verändert“, sagt Peter Herr, Global Leader for Client Master Data. „Unser Team hatte alles innerhalb der Grenzen unseres bestehenden Systems versucht und befand sich immer noch in einer Sackgasse, um die enorme Menge an Datenmigration, die wir benötigten, akzeptabel durchzuführen. Als Rick und sein Team uns die Geschwindigkeit und Leistungsfähigkeit von DataStage demonstrierten, konnten wir innerhalb von Wochen statt Monaten produktiv werden.“

DataStage für IBM Cloud Pak for Data hat unsere Datenerfassung grundlegend verändert. Das Team hatte alles innerhalb der Grenzen unseres bestehenden Systems versucht und befand sich immer noch in einer Sackgasse, um die enorme Menge an Datenmigration, die wir benötigten, akzeptabel durchzuführen. Als Rick und sein Team uns die Geschwindigkeit und Leistungsfähigkeit von DataStage demonstrierten, konnten wir innerhalb von Wochen statt Monaten produktiv werden.

Peter Herr

Global Leader for Client Master Data

IBM Global Chief Data Office

Von Plattform zu Datenschutz

Nachdem sich GCDO für die DataStage for IBM Cloud Pak for Data-Lösung entschieden hatte, zeigten sich schnell positive Ergebnisse. Allein in der Pilotphase wurden riesige Tabellen mit Milliarden von Zeilen innerhalb von Stunden statt Tagen geladen. Kleinere Tabellen wurden innerhalb von Minuten migriert. Darüber hinaus war die Datenaufnahme unabhängig von der Größe der Tabelle fehlerfrei und sehr stabil.

„Offensichtlich war die Datenbewegung mit DataStage ein absoluter Glücksgriff für unsere Datenmigrationsbemühungen – innerhalb weniger Wochen kamen wir aus unserer Starre los und waren in einem produktionsbereiten Zustand“, so Duffy.

„IBM Cloud Pak for Data bringt CEDP weiter voran“, sagt Inderpal Bhandari, Global Chief Data Officer von IBM. „DataStage für IBM Cloud Pak for Data als Motor für unsere Datenbewegungsstrategie hat uns buchstäblich Wochen gespart und unseren Benutzern ein neues Maß an Effizienz und Flexibilität gebracht. Als Nächstes haben wir die Nutzung von IBM Cloud Pak for Data im Visier, um unsere unternehmensweiten Datenschutzfunktionen auszubauen.“

Das GCDO arbeitet mit dem IBM Chief Privacy Office zusammen, um ein End-to-End-Hybrid-Cloud-System zu entwickeln, das die Compliance-Effizienz erheblich verbessern wird. Die aktuelle Roadmap für Datenschutzfunktionen umfasst Watson Knowledge Catalog, IBM Knowledge Accelerators und IBM OpenPages® mit Watson von der IBM Cloud Pak for Data-Lösung.

Entdecken Sie Lösungen zur Beseitigung von Datensilos

Informationen zum IBM Global Chief Data Office

Das IBM Global Chief Data Office entwickelt Datenstrategien und -plattformen, die Governance- und Managementsysteme, Deep-Data- und Analysepartnerschaften umfassen. Die Strategie wandelt Geschäftsdaten in geschäftlichen Nutzen um. Diese Plattformen werden zur zentralen Datenquelle für Unternehmensanalysen im gesamten Unternehmen und für die Entwicklung und Skalierung von Kompetenzen. Gemeinsam nutzen diese innovativen Fähigkeiten analytische Erkenntnisse, um Wachstum und Produktivität zu ermöglichen.

Lösungskomponenten

IBM Cloud Pak® for Data

IBM® DataStage for IBM Cloud Pak for Data

IBM Knowledge Accelerators

IBM OpenPages® with Watson

IBM® Watson Knowledge Catalog

Machen Sie den nächsten Schritt

Abonnieren Sie kuratierte Newsletter mit den neuesten Erkenntnissen und Denkanstößen zu Technologie, Business und darüber hinaus.

Das Beste von IBM – direkt in Ihren Posteingang

Eine einheitliche Daten- und KI-Plattform bietet geschäftliche Vorteile

Kundenreferenz

Fußnoten

Hergestellt in den Vereinigten Staaten von Amerika, März 2022.

IBM, das IBM Logo, ibm.com, DataStage, Db2, IBM Cloud Pak, OpenPages und IBM Watson sind Marken der International Business Machines Corp. und in vielen Ländern weltweit eingetragen. Weitere Produkt‐ und Servicenamen können Marken von IBM oder anderen Unternehmen sein. Eine aktuelle Liste der IBM Marken ist im Web unter “Copyright- und Markeninformationen” auf https://www.ibm.com/de-de/legal/copyright-trademark verfügbar.

Red Hat und OpenShift sind Marken oder eingetragene Marken von Red Hat, Inc. oder dessen Tochtergesellschaften in den Vereinigten Staaten und anderen Ländern.

Das vorliegende Dokument ist ab dem Datum der Erstveröffentlichung aktuell und kann jederzeit von IBM geändert werden. Nicht alle Angebote sind in allen Ländern verfügbar, in denen IBM tätig ist.

Die genannten Leistungsdaten und Kundenbeispiele dienen ausschließlich zur Veranschaulichung. Tatsächliche Leistungsergebnisse hängen von den jeweiligen Konfigurationen und Betriebsbedingungen ab. DIE INFORMATIONEN IN DIESEM DOKUMENT WERDEN OHNE JEGLICHE AUSDRÜCKLICHE ODER STILLSCHWEIGENDE GARANTIE ZUR VERFÜGUNG GESTELLT, EINSCHLIESSLICH DER GARANTIE DER MARKTGÄNGIGKEIT, DER EIGNUNG FÜR EINEN BESTIMMTEN ZWECK UND DER GARANTIE ODER BEDINGUNG DER NICHTVERLETZUNG VON RECHTEN. Die Garantie für Produkte von IBM richtet sich nach den Geschäftsbedingungen der Vereinbarungen, unter denen sie bereitgestellt werden.

Die Einhaltung der Datenschutzgesetze und -richtlinien liegt in der Verantwortung des Kunden. IBM bietet keine Rechtsberatung an und gewährleistet nicht, dass die Dienstleistungen oder Produkte von IBM die Einhaltung von Gesetzen oder Vorschriften durch den Kunden sicherstellen.

Deutlich erhöhte Datenmigrationsgeschwindigkeit

Schnelleres Laden von Daten

Datenbewegung im großen Maßstab

Fußnoten