Warum Data Governance für die Unternehmens-KI so wichtig ist

Junger Mann im Homeoffice

Autor

Corey Keyser

Senior Product Manager - Data privacy and regulatory compliance

IBM

Der jüngste Erfolg großer Sprachmodelle, die auf künstlicher Intelligenz basieren, hat den Markt dazu veranlasst, ehrgeiziger darüber nachzudenken, wie KI viele Unternehmensprozesse transformieren könnte. Verbraucher und Aufsichtsbehörden machen sich jedoch auch zunehmend Sorgen um die Sicherheit ihrer Daten und der KI-Modelle selbst. Für eine sichere, weit verbreitete Einführung von KI müssen wir KI-Governance über den gesamten Datenlebenszyklus hinweg einführen, um Verbrauchern, Unternehmen und Regulierungsbehörden Vertrauen zu geben. Aber wie sieht das konkret aus?

Künstliche Intelligenzmodelle sind größtenteils recht einfach: Sie nehmen Daten auf und lernen dann Muster aus diesen Daten, um eine Ausgabe zu erzeugen. Komplexe große Sprachmodelle (LLMs) wie ChatGPT und Google Bard bilden da keine Ausnahme. Wenn wir also die Bereitstellung von KI-Modellen verwalten und steuern wollen, müssen wir uns zunächst auf die Daten konzentrieren, auf denen die KI-Modelle trainiert werden. Diese Data Governance erfordert, dass wir die Herkunft, die Sensibilität und den Lebenszyklus aller von uns verwendeten Daten verstehen. Dies ist die Grundlage für jede KI-Governance-Praxis und von entscheidender Bedeutung für die Minderung verschiedener Unternehmensrisiken.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Risiken beim Training von LLM-Modellen mit sensiblen Daten

Große Sprachmodelle können auf eigenen Daten trainiert werden, um spezifische Anwendungsfälle zu erfüllen. Zum Beispiel könnte ein Unternehmen ChatGPT nehmen und ein privates Modell erstellen, das auf den CRM-Verkaufsdaten des Unternehmens trainiert wird. Dieses Modell könnte als Slack-Chatbot bereitgestellt werden, um Vertriebsteams dabei zu helfen, Antworten auf Fragen wie „Wie viele Chancen hat Produkt X im letzten Jahr gewonnen?“ oder „Informieren Sie mich über die Geschäftschancen von Produkt Z bei Unternehmen Y“ zu finden.

Sie können sich leicht vorstellen, dass diese LLMs für eine beliebige Anzahl von Anwendungsfällen im Kundenservice, in der Personalabteilung oder im Marketing eingesetzt werden können. Es ist sogar denkbar, dass sie die juristische und medizinische Beratung ergänzen und LLMs zu einem diagnostischen Instrument der ersten Wahl für Gesundheitsdienstleister machen. Das Problem ist, dass diese Anwendungsfälle das Training von LLMs auf sensiblen, geschützten Daten erfordern. Das ist von Natur aus riskant. Einige dieser Risiken sind:

1. Datenschutz- und Re-Identifizierungsrisiko

KI-Modelle lernen aus Trainingsdaten, aber was ist, wenn diese Daten privat oder vertraulich sind? Eine beträchtliche Menge an Daten kann direkt oder indirekt zur Identifizierung bestimmter Personen verwendet werden. Wenn wir also ein LLM auf geschützte Daten über die Kunden eines Unternehmens trainieren, können wir in Situationen geraten, in denen die Nutzung dieses Modells dazu verwendet werden könnte, sensible Informationen preiszugeben.

2. Modellinterne Lerndaten

Viele einfache KI-Modelle haben eine Trainingsphase und anschließend eine Bereitstellungphase, in der das Training pausiert wird. LLMs sind ein bisschen anders. Sie nehmen den Kontext Ihres Gesprächs mit ihnen, lernen daraus und reagieren dann entsprechend.

Das macht die Verwaltung der Modelleingabedaten unendlich komplexer, da wir uns nicht nur um die anfänglichen Trainingsdaten kümmern müssen. Wir machen uns auch jedes Mal Sorgen, wenn das Modell abgefragt wird. Was, wenn wir dem Modell während eines Gesprächs sensible Informationen einspeisen? Können wir die Sensitivität identifizieren und verhindern, dass das Modell diese in anderen Kontexten verwendet?

3. Sicherheits- und Zugriffsrisiko

In gewissem Maße bestimmt die Sensitivität der Trainingsdaten die Sensitivität des Modells. Obwohl wir über gut etablierte Mechanismen verfügen, um den Zugriff auf Daten zu kontrollieren, zu überwachen, wer auf welche Daten zugreift, und Daten je nach Situation dynamisch zu maskieren, befindet sich die Sicherheit der KI-Bereitstellung noch in der Entwicklung. Obwohl es in diesem Bereich immer mehr Lösungen gibt, können wir die Sensibilität der Modellausgabe auf der Grundlage der Rolle der Person, die das Modell verwendet, immer noch nicht vollständig kontrollieren (z. B. wenn das Modell erkennt, dass eine bestimmte Ausgabe sensibel sein könnte, und die Ausgabe dann zuverlässig ändert, je nachdem, wer das LLM abfragt). Aus diesem Grund können diese Modelle leicht zu Sicherheitslücken für jegliche Art von sensiblen Informationen werden, die im Rahmen des Modelltrainings anfallen.

4. Risiko im Zusammenhang mit geistigem Eigentum

Was passiert, wenn wir ein Modell auf jedem Song von Drake schulen und das Modell dann anfängt, Drake-Kopien zu generieren? Verletzt das Model Drakes Urheberrechte? Können Sie beweisen, ob das Modell Ihre Arbeit in irgendeiner Weise kopiert?

Dieses Problem wird immer noch von den Aufsichtsbehörden geklärt, aber es könnte leicht zu einem großen Problem für jede Form von generativer KI werden, die aus künstlerischem geistigem Eigentum lernt. Wir gehen davon aus, dass dies in der Zukunft zu großen Klagen führen wird, die durch eine ausreichende Überwachung des geistigen Eigentums der für das Training verwendeten Daten abgefedert werden müssen.

5. Einwilligung und DSAR-Risiko

Eine der wichtigsten Ideen hinter den modernen Datenschutzbestimmungen ist die Zustimmung. Kunden müssen der Verwendung ihrer Daten zustimmen und sie müssen verlangen können, dass ihre Daten gelöscht werden. Das stellt ein einzigartiges Problem für die Nutzung von KI dar.

Wenn Sie ein KI-Modell mit sensiblen Kundendaten trainieren, wird dieses KI-Modell zu einer möglichen Angriffsquelle für diese sensiblen Daten. Wenn ein Kunde die Nutzung seiner Daten durch das Unternehmen widerruft (eine Anforderung der Datenschutz-Grundverordnung) und das Unternehmen bereits ein Modell auf die Daten trainiert hat, müsste das Modell im Grunde stillgelegt und neu trainiert werden, ohne auf die widerrufenen Daten zugreifen zu können.

Um LLMs als Unternehmenssoftware nutzbar zu machen, müssen die Trainingsdaten so verwaltet werden, dass die Unternehmen auf die Sicherheit der Daten vertrauen können und einen Prüfpfad für die Nutzung der Daten durch das LLM haben.

AI Academy

Vertrauen, Transparenz und Governance in der KI

KI-Vertrauen ist zweifelsohne das wichtigste Thema in der KI. Es ist verständlicherweise auch ein überwältigendes Thema. Wir werden uns mit Problemen wie Halluzinationen, Voreingenommenheit und Risiken auseinandersetzen und Schritte für eine ethische, verantwortungsvolle und faire Einführung von KI aufzeigen.

Data Governance für LLMs

Die beste Aufschlüsselung der LLM-Architektur, die ich je gesehen habe, stammt aus diesem Artikel von a16z. Es ist wirklich gut gemacht, aber als jemand, der seine ganze Zeit damit verbringt, an Data Governance und Datenschutz zu arbeiten, fehlt in dem oberen linken Abschnitt von „Kontextdaten → Datenpipelines“ etwas: Data Governance.

Wenn Sie die IBM Data Governance-Lösungen hinzufügen, sieht die obere linke Seite in etwa so aus:

Die auf IBM Knowledge Catalog basierende Data-Governance-Lösung bietet mehrere Funktionen, um erweiterte Datenerkennung, automatisierte Datenqualität und Datenschutz zu ermöglichen. Sie können:

  • Automatische Datenerkennung und Hinzufügung von Geschäftskontext für ein konsistentes Verständnis
  • Erstellung eines überprüfbaren Datenbestands, indem man die Daten katalogisiert, um die Datenerkennung per Self-Service zu ermöglichen
  • Identifizieren Sie sensible Daten und schützen Sie sie proaktiv, um den Datenschutz und gesetzliche Anforderungen zu erfüllen.

Der letzte Schritt oben wird oft übersehen: die Implementierung der Technik zur Verbesserung des Datenschutzes. Wie entfernen wir die sensiblen Sachen, bevor wir sie der KI weitergeben? Sie können dies in drei Schritte unterteilen:

  1. Identifizieren Sie die sensitiven Komponenten der Daten, die herausgenommen werden müssen (Hinweis: Dies wird bei der Datenerkennung festgelegt und ist an den „Kontext“ der Daten gebunden)
  2. Nehmen Sie die sensiblen Daten so heraus, dass die Daten immer noch verwendet werden können (z. B. die referentielle Integrität gewahrt bleibt, statistische Verteilungen ungefähr gleichwertig usw.)
  3. Führen Sie ein Protokoll darüber, was in 1) und 2) passiert ist, sodass diese Informationen den Daten folgen, wie sie von Modellen konsumiert werden. Dieses Tracking ist für die Überprüfbarkeit nützlich.

Schaffen Sie eine geregelte Grundlage für generative KI mit IBM watsonx und Data Fabric

Mit IBM watsonx hat IBM rasante Fortschritte gemacht, um die Macht der generativen KI in die Hände von „AI Builder“ zu legen. IBM watsonx.ai ist ein unternehmenstaugliches Studio, das herkömmliches maschinelles Lernen (ML) und neue generative KI-Funktionen zusammenbringt, die von Foundation Models angetrieben werden. Zu Watsonx gehört auch watsonx.data, ein zweckmäßiger Datenspeicher, der auf einer offenen Lakehouse-Architektur basiert. Sie wird durch Abfragen, Governance und offene Datenformate für den Zugriff und das Teilen von Daten in der Hybrid Cloud unterstützt.

Eine solide Datengrundlage ist für den Erfolg von KI-Implementierungen entscheidend. Mit IBM Data Fabric können Kunden mithilfe von Datenintegrations- und Data-Governance-Funktionen die richtige Dateninfrastruktur für KI aufbauen, um Daten zu erfassen, vorzubereiten und zu organisieren, bevor dann AI Builder mithilfe von watsonx.ai

IBM bietet eine zusammensetzbare Data Fabric-Lösung als Teil eines offenen und erweiterbaren Portfolios von KI-Produkten an, die in Cloud-Umgebungen von Drittanbietern bereitgestellt werden können. Diese Lösung umfasst Data Governance, Datenintegration, Daten-Observability, Datenabstammung, Datenqualität, Entitätsauflösung und Datenschutzmanagement-Funktionen.

Erste Schritte mit Data Governance für Unternehmens-KI

KI-Modelle, insbesondere LLMs, werden eine der transformativsten Technologien des nächsten Jahrzehnts sein. Aufgrund neuer KI-Regulierungen ist es entscheidend, nicht nur KI-Modelle zu verwalten und zu steuern, sondern es ist ebenso wichtig, die in die KI eingegebenen Daten zu kontrollieren.

Weiterführende Lösungen
IBM watsonx.governance

Verwalten Sie generative KI-Modelle ortsunabhängig und stellen Sie diese in der Cloud oder lokal mit IBM watsonx.governance bereit.

Entdecken sie watsonx.governance
KI-Governance-Lösungen

Erfahren Sie, wie KI-Governance dazu beitragen kann, das Vertrauen Ihrer Mitarbeiter in KI zu stärken, die Akzeptanz und Innovation zu beschleunigen und das Vertrauen Ihrer Kunden zu verbessern.

Entdecken Sie KI-Governance-Lösungen
Beratungsleistungen zur KI-Governance

Bereiten Sie sich auf die EU-Verordnung über künstliche Intelligenz vor und etablieren Sie mithilfe von IBM® Consulting einen verantwortungsvollen KI-Governance-Ansatz.

KI-Governance-Dienste entdecken
Machen Sie den nächsten Schritt

Steuern, verwalten und überwachen Sie Ihre KI mit einem einzigen Portfolio, um verantwortungsvolle, transparente und erklärbare KI voranzubringen.

watsonx.governance erkunden Buchen Sie eine Live-Demo