IBM setzt sich für die verantwortungsvolle Entwicklung und Bereitstellung von KI ein. Diese Verpflichtung erstreckt sich auch auf die Daten, die wir zum Aufbau und Trainieren unserer KI-Systeme verwenden. Als „Client Zero“ wollten wir die Data Provenance Standards in einer strengen Umgebung bewerten, um ihre Auswirkungen wirklich zu verstehen und sie auf sinnvolle Weise auf die Probe zu stellen. Also haben wir wichtige Elemente in unserem eigenen Integrated Governance Program (IGP) implementiert, das die von IBM entwickelten und verwendeten Daten und Modelle regelt, angefangen mit einer Bewertung der Vollständigkeit der Standards. Zu diesem Zweck haben wir die Data Provenance Standards mit unseren eigenen Anforderungen an die Aufnahme von Datensätzen verglichen, die zur Entwicklung von Foundation Models verwendet werden. Außerdem haben wir bewertet, inwieweit die Metadatentaxonomie der Data Provenance Standards es uns ermöglichte, die Dateneignung für eine Vielzahl von Anwendungsfällen zu validieren.

Als Nächstes haben wir Data Scientist und Forscher von IBM mit unterschiedlicher Erfahrung gebeten, die Data Provenance Standards auf verschiedene gängige Datentypen anzuwenden, darunter IBM Daten, Daten von Drittanbietern und Daten, die HAP-Material (Hassreden, Beleidigungen und Obszönitäten) enthalten.

Schließlich haben wir Experten des IBM Office of Privacy and Responsible Technology gebeten, die Vollständigkeit und Richtigkeit der eingereichten Metadaten gemäß den Data Provenance Standards zu untersuchen und mit den Data Scientists und Forschern zu besprechen, um deren Probleme oder Unklarheiten besser zu verstehen. Dieses qualitative Feedback ermöglichte es uns, Begriffe, Definitionen und Leitlinien zu ermitteln, die unklar oder mehrdeutig waren.