Das Ergebnis? IBMs Cloud Pak for Data und seine Watson Knowledge Catalog-Lösung erwiesen sich als am besten skalierbar. „Die meisten der von uns geprüften Lösungen wiesen Probleme auf, wie z.B. die Beschränkung auf die Verarbeitung von Metadaten oder dass wir zusätzliche Produkte für die Datenabstammung kaufen mussten oder dass die Daten verarbeitet werden mussten und nicht sofort verwendet werden konnten. Nur bei IBMs Cloud Pak for Data gibt es keine derartigen Probleme“, sagte Sanghee Han, Projektleiter bei Samsung-Electro Mechanics.
Ein zusätzlicher Vorteil war die Möglichkeit, SPSS® auszuführen und zu skalieren und Daten auf Dashboards über Jupyter Notebooks mit IBMs Cloud Pak for Data zu visualisieren. Das Team von Samsung Electro-Mechanics baute außerdem ein Portal am vorderen Ende der Lösung auf, um die benötigten Funktionen zu erstellen, hinzuzufügen, zu ergänzen und zu steuern. Dazu gehörten die Konstruktion von Bäumen anhand von Daten, das Zeichnen von Datenkarten und die Einbeziehung zusätzlicher Sicherheitsfunktionen. Die Tatsache, dass es an die Bedürfnisse des Unternehmens angepasst werden konnte und in Verbindung mit den eigenen Systemen einfach zu verwenden war, war ein großer Vorteil.
Die Verbindung mit Impala, SAP Hana, Oracle, MS SQL und anderen Datenbankservern war trotz anfänglicher technischer Herausforderungen beim Import von Assets oder der Verwendung von Funktionen erfolgreich. Dank der aktiven Mitwirkung von IBM Korea bei der Bereitstellung proaktiver technischer Unterstützung konnte das Team von Samsung Electro-Mechanics die technischen Probleme lösen. Die Entwicklungsarbeiten begannen im Oktober 2021 und die erste Phase wurde im Dezember zum Testen freigegeben. Das eigentliche Projekt nahm etwa 6 Monate in Anspruch und wurde am 22. April 2022 offiziell eingeführt.
Heute organisiert die auf IBM Cloud Pak for Data basierende Plattform Daten, die aus verschiedenen Quellen generiert wurden, in systematischen Assets, die leicht gemeinsam genutzt, durchsucht und über APIs im gesamten Unternehmen verwendet werden können. Persönliche und sensible Informationen werden gemäß den strengen Governance-Grundsätzen von Samsung Electro-Mechanics verwaltet und die Datenbestände werden kontinuierlich mit neu generierten Daten aktualisiert. Die Anzahl dieser Datenbestände ist von 500 auf mehr als 2.500 gestiegen und wächst weiter.
Das Beste an der Erstellung einer Datenplattform mit IBMs Cloud Pak for Data ist die Bereitstellung von Self-Service-Funktionen für die Benutzer. Die Benutzer können schnell die benötigten Daten finden, sie in der gewünschten Form verarbeiten und sofort nutzen, anstatt Entwickler zu bitten, Daten abzurufen, was Tage gedauert hätte. Dadurch konnten die Benutzer Aufgaben, die normalerweise 30 Tage dauerten, in 10 Tagen und weniger erledigen.
„Ein Kollege sagte, was früher eine Woche dauerte, kann jetzt innerhalb eines Tages erledigt werden. Der Zeitaufwand hängt zwar von der Art der Daten ab, aber insgesamt hat sich die Produktivität der Mitarbeiter verbessert und sie können nützliche Erkenntnisse daraus ableiten. Wenn Kunden spezielle Daten anfordern, kann unser Team die Daten schnell und effizient finden, analysieren und liefern, was nicht nur zur Zufriedenheit unserer Mitarbeiter, sondern auch unserer Kunden beigetragen hat.
„Hinzu kommt, dass die Datenmenge, die im Data Lake aus dem Rohmaterialsystem, das den größten Teil des Datenkorpus von Samsung Electro-Mechanics ausmacht, genutzt werden kann, erheblich gestiegen ist. Es ist jetzt möglich, nicht nur strukturierte Daten und Dateien, sondern auch Bilder und unstrukturierte Daten über das verbundene Portal zu suchen und zu nutzen, was ein weiteres wichtiges Ergebnis dieses Projekts ist“, so Sanghee Han, Projektleiter bei Samsung-Electro Mechanics.
Samsung Electro-Mechanics plant, die Datenplattform auf der Grundlage des erfolgreichen Ergebnisses des Projekts weiter auszubauen. Die Zahl der an die Lösung angeschlossenen Datensysteme ist von anfänglich fünf oder sechs auf heute mehr als 20 gestiegen. Derzeit wird die Lösung vor allem auf der DataOps-Seite in Zusammenarbeit mit Data Scientists eingesetzt, aber es gibt Pläne, sie auch für die MLOps-Seite zu nutzen.
„Es war schwieriger, als ich dachte, das System von Grund auf zu entwickeln und den Prozess einzurichten, da diese Art von Innovationsprozess nicht etwas ist, was wir jeden Tag machen. Aber ich bin sehr stolz darauf, dass die Benutzer so zufrieden sind und das System intensiver nutzen, als ich anfangs erwartet hatte“, sagt Sanghee Han, Project Lead, Samsung-Electro Mechanics.