Als GCDO seine Daten- und KI-Reise begann, gab es die Lösung IBM Cloud Pak for Data noch nicht. Während das CEDP einen wichtigen Schritt nach vorne darstellte, verschaffte die Entwicklung der Lösung IBM Cloud Pak for Data dem GCDO einen Heimvorteil, um seine eigene Plattform auf das nächste Level zu bringen.
Als Suite von Services und Erweiterungen, die je nach Bedarf genutzt werden können, bot IBM Cloud Pak for Data GCDO die nötige Flexibilität, um schrittweise zu modernisieren und mit den wichtigsten Prioritäten zu beginnen. Es gab keine vorgeschriebene Reihenfolge für die Einführung oder Bereitstellung.
Das GCDO begann zunächst mit der KI-Suite von Services innerhalb von IBM Cloud Pak for Data, einschließlich IBM® Watson Studio. IBM Watson Studio wird lokal und in der Cloud ausgeführt und analysiert Daten mit der IBM Db2 Big SQL-Lösung.Die Details dieses Teils der Modernisierung von GCDO werden in dieser Fallstudie beschrieben.
Für den nächsten Schritt verwendete GCDO die DataStage-Technologie, um die Geschwindigkeit der Aufnahme großer Datenmengen deutlich zu erhöhen, bei gleichzeitiger Stabilität und Genauigkeit.
„Nach mehreren Monaten, in denen wir Server und Datenbankverbindungen einrichteten sowie Trial-and-Error-Konfigurationen durchführten und dazulernten, dauerte die Replikation einer Tabelle mit 60 Millionen Datensätzen immer noch drei Tage“, erzählt Frank Duffy, Senior Project Manager bei GCDO Master Data. „Wenn man sich diese Statistiken ansieht, hätten wir bei etwa 20 großen Tabellen mit weiteren 60 Tagen rechnen müssen, um die Daten zu migrieren.“
Das Datenbewegungsteam von GCDO testete die Leistung der DataStage- und Spark-Technologie bei der Ausführung gängiger Anwendungsfälle zum Laden von Daten. In mehr als 75 % der Fälle erzielten sie mit der DataStage-Technologie eine bessere Leistung als mit der Spark-Technologie. Bei den restlichen 25 % stimmten die Ergebnisse nahezu überein.
Neben der Leistung waren es auch die folgenden Faktoren, die GCDO zur DataStage-Lösung bewogen haben:
- Integration mit dem IBM Cloud Pak for Data-Ökosystem, insbesondere für den IBM Watson Knowledge Catalog und für die Datenabstammung
- Breite der unterstützten Quellen, Ziele und Zwischenstufen, die den aktuellen und zukünftigen Bedürfnissen entsprachen
- Benutzerdefinierte Phasen, um Anforderungen bei Bedarf in wiederverwendbaren Einheiten zusammenzufassen
- Funktionen, die einen musterbasierten Ansatz unterstützen
Die IBM Cloud Pak for Data-Lösung ist auf verschiedene Branchendatenquellen abgestimmt und entwickelt diese Quellen ständig weiter, um neuen Technologien gerecht zu werden. Die DataStage for IBM Cloud Pak for Data-Lösung wird mit einem großen Bestand an Branchenkonnektoren geliefert, die die meisten der Datenspeicher abdecken, mit denen die GCDO-Benutzer arbeiten wollten. Dank dieser Konnektoren konnte GCDO mit diesen verschiedenen Speicherformaten und -systemen arbeiten, ohne dass dafür Code geschrieben werden musste.
In den Fällen, in denen noch kein Konnektor verfügbar war, konnten benutzerdefinierte Konnektoren entwickelt, bereitgestellt und in der Arbeitsfläche eingesetzt werden.
Die DataStage for IBM Cloud Pak for Data-Lösung bietet auch Funktionen für Runtime Column Propagation – für die GCDO-Ingenieure war das ein großer Vortiel, weil sie einen musterbasierten Ansatz für die Datenbewegung ermöglichte. Indem gängige Datenbewegungsmuster als Aufträge ausgedrückt wurden, konnte GCDO die Abläufe so skalieren, dass Tausende von Tabellen unterstützt werden konnten, ohne das Personal aufstocken zu müssen.
„Die Muster-Funktion von DataStage for IBM Cloud Pak ermöglichte es uns, einen Auftrag auf Tausende verschiedene Arten auszuführen“, erklärt Rick McCall, GCDO Technical Lead für das Data Movement Tool. „In einigen Fällen hatten wir mehr als 8.000 Aufträge – Seiten um Seiten – die einem einzelnen Muster zugeordnet und als einzelner Auftrag ausgeführt werden konnten. Dadurch ließ sich ein Satz Code mit optimierter Leistung und Quellcodekontrolle in einer superschnellen, hochzuverlässigen Lösung vereinen.“
Ein weiterer Vorteil der DataStage for IBM Cloud Pak for Data-Lösung besteht darin, dass sie sich nahtlos in RedHat® OpenShift® integrieren lässt. Es bietet außerdem API-Unterstützung, sodass Benutzer bei Bedarf benutzerdefinierte Workflows darauf aufbauen können.
„DataStage for IBM Cloud Pak for Data hat unsere Datenaufnahme grundlegend verändert“, sagt Peter Herr, Global Leader for Client Master Data. „Unser Team hatte alles innerhalb der Grenzen unseres bestehenden Systems versucht und befand sich immer noch in einer Sackgasse, um die enorme Menge an Datenmigration, die wir benötigten, akzeptabel durchzuführen. Als Rick und sein Team uns die Geschwindigkeit und Leistungsfähigkeit von DataStage demonstrierten, konnten wir innerhalb von Wochen statt Monaten produktiv werden.“