KI-Systeme können nur so vertrauenswürdig sein wie die Daten, die zu ihrer Entwicklung verwendet werden. Deshalb ist die Verwendung hochwertiger, vertrauenswürdiger Daten ein entscheidender erster Schritt zum Aufbau verantwortungsvoller KI. Aber ohne Transparenz über die Herkunft der Daten – Details darüber, woher die Daten stammen, wie sie entwickelt wurden und wie sie aus rechtlicher und vertraglicher Sicht verwendet werden können – kann die Bewertung der Vertrauenswürdigkeit eines Datensatzes selbst für erfahrene Datenexperten eine Herausforderung sein. Das Fehlen einer einheitlichen Metadatentaxonomie für Datensätze ist ein häufiges Problem im gesamten Datenökosystem.
Als die Data & Trust Alliance (D&TA) die Entwicklung der ersten branchenübergreifenden Data Provenance Standards in Angriff nahm, wollte IBM unbedingt einen Beitrag dazu leisten. Im Laufe des Jahres 2024 haben wir erste Tests durchgeführt und waren unter den ersten Unternehmen, die damit begonnen haben, unsere internen Datenstandards an die Data Provenance Standards anzupassen, wo dies sinnvoll war. Jetzt, drei Monate nach Abschluss unserer Tests und der offiziellen Ankündigung von V1.0 der Data Provenance Standards, haben wir konsistente und quantifizierbare Auswirkungen auf die Gesamteffizienz unserer Prozesse zur Datenprüfung und -verwaltung festgestellt.
IBM setzt sich für die verantwortungsvolle Entwicklung und Bereitstellung von KI ein. Diese Verpflichtung erstreckt sich auch auf die Daten, die wir zum Aufbau und Trainieren unserer KI-Systeme verwenden. Als „Client Zero“ wollten wir die Data Provenance Standards in einer strengen Umgebung bewerten, um ihre Auswirkungen wirklich zu verstehen und sie auf sinnvolle Weise auf die Probe zu stellen. Also haben wir wichtige Elemente in unserem eigenen Integrated Governance Program (IGP) implementiert, das die von IBM entwickelten und verwendeten Daten und Modelle regelt, angefangen mit einer Bewertung der Vollständigkeit der Standards. Zu diesem Zweck haben wir die Data Provenance Standards mit unseren eigenen Anforderungen an die Aufnahme von Datensätzen verglichen, die zur Entwicklung von Foundation Models verwendet werden. Außerdem haben wir bewertet, inwieweit die Metadatentaxonomie der Data Provenance Standards es uns ermöglichte, die Dateneignung für eine Vielzahl von Anwendungsfällen zu validieren.
Als Nächstes haben wir Data Scientist und Forscher von IBM mit unterschiedlicher Erfahrung gebeten, die Data Provenance Standards auf verschiedene gängige Datentypen anzuwenden, darunter IBM Daten, Daten von Drittanbietern und Daten, die HAP-Material (Hassreden, Beleidigungen und Obszönitäten) enthalten.
Schließlich haben wir Experten des IBM Office of Privacy and Responsible Technology gebeten, die Vollständigkeit und Richtigkeit der eingereichten Metadaten gemäß den Data Provenance Standards zu untersuchen und mit den Data Scientists und Forschern zu besprechen, um deren Probleme oder Unklarheiten besser zu verstehen. Dieses qualitative Feedback ermöglichte es uns, Begriffe, Definitionen und Leitlinien zu ermitteln, die unklar oder mehrdeutig waren.
Die bemerkenswerteste Auswirkung, die wir seit der engeren Angleichung unserer internen Datenstandards an die Data Provenance Standards beobachtet haben, ist eine Verringerung der Zeit, die für die Bearbeitung von Anfragen zur Datenfreigabe benötigt wird. In dem achtmonatigen Zeitraum, in dem wir die Data Provenance Standards getestet und andere Technologie- und Prozessverbesserungen implementiert haben, konnten wir feststellen, dass die durchschnittliche Bearbeitungszeit für die Datenfreigabe bei Daten von Drittanbietern um 58 % und bei IBM-eigenen Daten um 62 % gesunken ist. Diese Verbesserung ist angesichts des Anstiegs der Freigabeanträge, die über IGP eingehen, besonders wichtig. Im August 2024 überstieg die Zahl der Freigabeanfragen für Daten Dritter und IBM-eigene Daten bereits die Gesamtzahl für das Jahr 2023.
Diese verbesserte Effizienz ist sehr wertvoll. Unser Data-Governance-Team ist in der Lage, mehr Datenanfragen schneller zu bearbeiten, was es uns ermöglicht, unser Data-Governance-Programm zu skalieren und gleichzeitig unsere Standards für Vertrauen und Transparenz beizubehalten. Zu den Aspekten der Data Provenance Standards, die uns geholfen haben, unsere Datenprüfungsprozesse zu beschleunigen, gehören die folgenden:
Dies hat Auswirkungen auf unser gesamtes Unternehmen. Wenn Anfragen zur Datenfreigabe korrekt sind und effizienter bearbeitet werden, wird die Modellentwicklung beschleunigt, sodass unsere Teams schneller auf Kundenanfragen reagieren können. Es bedeutet auch, dass unser unternehmensübergreifender Katalog an gelöschten Daten ständig erweitert und verbessert wird, was eine effizientere und verantwortungsvolle Wiederverwendung durch unsere Mitarbeiter im gesamten Unternehmen ermöglicht.
Transparente und konsistente Metadaten ermöglichen es Anwendern, schnellere und fundiertere Entscheidungen über die Datenauswahl zu treffen, was letztlich zu verantwortungsvolleren Modellen und Systemen führen kann. Das gilt nicht nur für IBM, sondern für das gesamte Datenökosystem. Eine breitere Akzeptanz der Data Provenance Standards kann durch weitere Automatisierung und verantwortungsvolle Innovation einen bedeutenden Return on Investment bringen.
Durch unsere „Client Zero“-Erfahrung mit den Data Provenance Standards stärken wir unser Engagement für Vertrauen, indem wir die Messlatte für Transparenz hinsichtlich der Daten, die unseren KI-Systemen zugrunde liegen, höher legen. Unsere Erfahrung bei der Verwaltung unseres eigenen Integrated Governance Program (IGP) – einschließlich der stärkeren Ausrichtung unserer internen Datenstandards an den Data Provenance Standards – ermöglicht es uns, KI schneller und vertrauensvoller auf den Markt zu bringen. Wir sind dadurch auch besser in der Lage, unsere Kunden bei der Implementierung ihrer eigenen Data Governance-Frameworks zu unterstützen, einschließlich der Anpassung an Branchenstandards und Frameworks wie die Data Provenance Standards. Denn wenn wir etwas für IBM zum Laufen bringen können, können wir unseren Kunden mit Sicherheit auch dabei helfen, dasselbe zu tun.
Lesen Sie unseren Leitfaden für die ersten Schritte mit KI-Governance