KI-Governance ist die Fähigkeit, KI-Aktivitäten innerhalb eines Unternehmens zu überwachen und zu verwalten. Dazu gehören Prozesse und Verfahren, um die Herkunft von im Unternehmen eingesetzten Daten und Modellen nachzuvollziehen und zu dokumentieren, sowie die Techniken, die zum Trainieren, Validieren und Überwachen der kontinuierlichen Genauigkeit von Modellen verwendet werden. Eine effektive KI-Governance bietet Unternehmen drei wesentliche Vorteile:
Compliance. Sie trägt dazu bei, dass KI-Lösungen und KI-gestützte Entscheidungen mit branchenweit anerkannten Verfahren, regulatorischen Standards und gesetzlichen Anforderungen übereinstimmen.
Vertrauen. Sie schafft Vertrauen in KI-Entscheidungen, indem sie dazu beiträgt, dass KI-Modelle erklärbar und fair sind.
Effizienz. Sie verbessert die Geschwindigkeit der Markteinführung und senkt die Kosten für die KI-Entwicklung durch Standardisierung und Optimierung der Verfahren zur KI-Entwicklung und -Einführung.
Unternehmen, die keine KI-Governance einführen, riskieren zahlreiche negative Konsequenzen. Der Prozess des maschinellen Lernens ist iterativ und erfordert Zusammenarbeit. Ohne gute Governance und Dokumentation können Data Scientists oder Validierer nicht sicher sein, woher die Daten eines Modells stammen oder wie das Modell erstellt wurde. Dies kann zu Ergebnissen führen, die nur schwer zu reproduzieren sind. Wenn Administratoren ein Modell mit falschen oder unvollständigen Daten trainieren, kann monatelange Arbeit zunichte gemacht werden.
Mangelnde KI-Governance kann auch zu erheblichen Strafen führen. So wurden bereits Banken zu Geldstrafen in siebenstelliger Höhe verurteilt, weil sie bei der Bestimmung der Kreditwürdigkeit voreingenommene Modelle verwendeten. Die EU plant, die Datenschutz-Grundverordnung (DSGVO) um KI-Vorschriften zu ergänzen. Verstöße gegen die DSGVO können derzeit zu einer Geldstrafe von bis zu 20 Millionen Euro oder 4 % des weltweiten Jahresumsatzes des Unternehmens aus dem vorangegangenen Geschäftsjahr führen, je nachdem, welcher Betrag höher ist.
Auch der Ruf der Marke ist gefährdet. In einem Experiment wurde eine KI-Software eingesetzt, um die Sprachmuster junger Menschen in den sozialen Medien zu lernen. Verwaltungsbeamte entfernten die Software schnell, nachdem Internet-Trolle dem Tool „beigebracht“ hatten, rassistische, sexistische und antisemitische Beiträge zu verfassen.
Das obige Diagramm zeigt die wichtigsten Komponenten einer KI-Governance-Lösung für eine generative KI-Lösung mit einem Large Language Model (LLM).
Model Governance ist die zentrale Clearingstelle für KI-Governance. Sie bietet Dashboards, Berichte und Warnfunktionen, die von den Mitarbeitern des Unternehmens zur Sicherstellung und Prüfung sowie zur Berichterstattung über die Einhaltung der Anforderungen an Fairness, Transparenz und Compliance durch KI-Modelle genutzt werden. Mit der Model Governance-Komponente können Unternehmen außerdem Gating-Kriterien und andere Richtlinien festlegen, die bestimmen, wann und wie Modelle von der Entwicklung in die Produktion übergehen.
Model Monitoring überwacht aktiv die Ergebnisse der Modelle, um sicherzustellen, dass die Modelle erklärbar, fair und vorschriftsmäßig sind und dies auch nach der Bereitstellung bleiben. Wenn sie Abweichungen aufweisen oder Verzerrungen in ihren Ergebnissen erkennen lassen, werden sie von der Model Monitoring-Komponente zur Untersuchung durch das KI-Betriebspersonal markiert.
Das folgende Diagramm zeigt die Interaktion der Komponenten auf höchster Ebene, um die KI-Governance im Unternehmen zu gewährleisten.
Die Mitglieder des Governance-Teams des Unternehmens verwenden die Model Governance-Komponente, um (i) die KI-Modelle (Foundation und Non-Foundation) zu visualisieren, die im Unternehmen über private Infrastrukturen, Hyperscaler und cloudbasierte Plattformen verteilt sind, und (ii) Mindestbetriebskriterien und andere Richtlinien für Modelle festzulegen, die im Unternehmen eingesetzt und betrieben werden sollen. Die Kriterien und Richtlinienkontrollen werden an die Model Monitoring-Komponente weitergeleitet, um eine anschließende Überwachung und Benachrichtigung zu ermöglichen.
Ein Model Developer stimmt ein Large Language Model (LLM) per Prompt-Tuning ab und wertet die Reaktion des Modells auf Testaufforderungen aus. Die Ergebnisse dieser Tests werden einschließlich zusammenfassender Statistiken erfasst und an die Modell Monitoring-Komponente weitergeleitet, wo sie zur Erstellung der Modell- und Datenreihenfolge aufgezeichnet werden.
Ein Model Validator überprüft die Ergebnisse der Abstimmung und der Tests und vergleicht sie mithilfe der Modell Monitoring-Komponente mit den vom Enterprise Governance Team festgelegten Gating-Kriterien und -Kontrollen. Sobald die Kriterien und Kontrollen erfüllt sind, wird das Modell zur Verwendung in der Produktion freigegeben.
Ein Model Developer verwendet die Model Monitoring-Komponente, um die Leistung des Modells im Zeitverlauf zu überwachen. Dabei achtet er insbesondere darauf, dass die Modellantworten weiterhin die Unternehmenskriterien für Fairness (keine Verzerrungen), Genauigkeit (korrekte Antworten) und Transparenz (erklärbare Antworten) erfüllen.
Die Model Monitoring-Komponente überwacht kontinuierlich die eingesetzten KI-Modelle (grundlegende/generative Modelle sowie „traditionelle“ Modelle für maschinelles Lernen), um die Genauigkeit und die Leistungsstatistiken zu erfassen.
Die Model Monitoring-Komponente erfasst darüber hinaus Benutzereingaben und die Antworten des Modells, um (i) einen weiteren Schutz vor Modelldrift (Abweichungen bei der Verzerrung und/oder der Modellgenauigkeit) zu gewährleisten und (ii) Testdaten zu erfassen und dabei zu helfen, Themenbereiche oder Datenbereiche mit zusätzlichem Optimierungsbedarf zu identifizieren.
Das aktuelle Mapping der Plattform IBM watsonx.governance, und IBM OpenPages-Lösungen für das konzeptionelle Modell sind im untenstehenden Diagramm dargestellt. Foundation Models, die auf der watsonx.ai-Plattform, lokal, auf cloudbasierter Infrastruktur oder auf KI-Plattformen von Drittanbietern wie Amazon Sagemaker ausgeführt werden, werden zur Laufzeit von watsonx.governance überwacht. watsonx.governance bietet außerdem Funktionen zum Erstellen, Aktualisieren und Verwalten von Modellkarten, die innerhalb von watsonx.governance als KI-Factsheets bekannt sind, sowie zum Erfassen und Berichten von Metriken zur Leistung. Das IBM OpenPages-Modul „Model Risk Management“ bietet Funktionen für die Risikoberichterstattung und das Risikomanagement sowie Funktionen für die Modellentwicklung und die Bereitstellung und Richtlinienmanagement (Model Governance).
Die Governance generativer KI-Lösungen ähnelt der Governance „traditioneller“ KI-Modelle. Allerdings erfordern ihre generativen Fähigkeiten eine genauere Verwaltung der Modelleingaben und -ausgaben als bei traditionellen Modellen, um sich vor unangemessenen oder böswilligen Prompts zu schützen und um sicherzustellen, dass die Modelle sachlich korrekte und akzeptable Ausgaben produzieren. Dieser Abschnitt veranschaulicht, wie IBM watsonx.governance im Rahmen von zwei zentralen Anwendungsfällen auf Foundation Models angewendet wird: Management des Modelllebenszyklus sowie Modellrisiken und Einhaltung gesetzlicher Vorschriften.
Das obige Diagramm veranschaulicht, wie watsonx.governance verwendet wird, um den Lebenszyklus des Modells von den ersten Tests und der Validierung bis zur Bereitstellung zu verwalten.
Ein Model Developer stimmt ein Modell per Prompt-Tuning in der On-Premise-Lösung von watsonx.ai (dem watsonx.ai-Service) oder auf einer anderen lokalen oder cloudbasierten Plattform ab und entwickelt und testet Prompts in Bezug auf dieses Modell.
Prompts und Modellantwortdaten werden zusammen mit Modellleistungsmetriken wie ROUGE, SARI, Chrf und BLEU in der Modellinventarisierungsfunktion von watsonx.governance erfasst. Es werden mehrere Versionen der Prompts und Antwortdaten aufgezeichnet, um einen Quervergleich und die Auswahl eines Modells und einer Prompt-Kombination zu ermöglichen, die den Anforderungen des Unternehmens am besten entspricht.
Ein Model Validator prüft die Ergebnisse der einzelnen Prompt- und Modellkombinationen und wählt eine Version aus, die für die Bereitstellung in der Produktion freigegeben werden soll.
Model Developer nutzen dieselbe Funktion, um Modell-/Prompt-Kombinationen und deren Leistung für bestimmte geschäftliche Anwendungsfälle zu verfolgen.
Nachfolgend sehen Sie die Komponenten für das Modellrisiko und die Einhaltung gesetzlicher Vorschriften in watsonx.governance.
Das KI-Governance-Teams des Unternehmens bestimmt und legt Kriterien fest, die als Mindest- und Höchstwerte sowie zulässige Abweichungen von Modellmetriken wie ROUGE spezifiziert sind und die von den Modellen in der Produktion erfüllt werden müssen. Diese Kriterien werden innerhalb des „Model Risk Management“-Tools von IBM OpenPages festgelegt und anschließend an watsonx.governance weitergegeben.
Ein Model Developer entwickelt Test-Prompts und stimmt diese per Prompt-Tuning in Bezug auf ein Foundation Model ab, das in der On-Premise-Lösung von watsonx.ai (dem watsonx.ai-Service) oder in einer anderen lokalen oder cloudbasierten Lösung wie Sagemaker bereitgestellt wird.
Prompt-Informationen und Modellreaktionsdaten werden zusammen mit Modellleistungsmetriken an watsonx.governance weitergeleitet, wo die Metriken mit den vom Governance-Team festgelegten Schwellenwerten abgeglichen werden.
Die Ergebnisse des Kennzahlenvergleichs werden an IBM OpenPages zur Überprüfung und Berichterstattung durch das Governance-Team weitergeleitet. Wenn die Prompt/Modell-Kombination alle festgelegten Kriterien erfüllt, kann sie als produktionsreif oder risikofrei gekennzeichnet werden. Erfüllt das Modell nur einige der Kriterien, kann es als potenziell unzureichend und noch nicht für die Produktion geeignet gekennzeichnet werden, je nachdem, wie streng das Governance-Team die Richtlinie formuliert hat.
Sorgen Sie für einen Mechanismus, um KI mit Vertrauen zu operationalisieren. Es ist von entscheidender Bedeutung, das Modell während der Entwicklung und Implementierung zu bewerten, um sicherzustellen, dass die Antworten des LLM nicht das Ergebnis von Halluzinationen sind und keine anstößigen Schimpfwörter enthalten. Stellen Sie sicher, dass die LLM-Antworten erklärbar, ethisch korrekt, vertrauenswürdig und unvoreingenommen sind. Die Qualitätsmetriken für LLMs unterscheiden sich deutlich von denen herkömmlicher KI-Modelle, da der Data Scientist hier konsequent die richtigen Metriken auswählen kann.
Bereitgestellte Lösungen mit generativer KI müssen konsistent sein, ohne dass es im Laufe der Zeit zu Verzerrungen oder Abweichungen kommt. Es ist nicht ungewöhnlich, dass ein Unternehmen eine Vielzahl von LLMs in verschiedenen Clouds einsetzt. Daher ist eine zentralisierte Governance über alle Bereiche hinweg von entscheidender Bedeutung. Ein Governance-Ansatz für verschiedene Bereitstellungsumgebungen in mehreren Clouds ist ein überaus wichtiger Aspekt.
Stellen Sie sicher, dass die von Ihnen eingesetzten generativen KI-Anwendungen aktuell sind und den sich ständig weiterentwickelnden Branchenvorschriften entsprechen. Sie sollten einen Überblick über alle im Unternehmen eingesetzten Modelle und deren Zustand haben.
Stellen Sie sicher, dass in den Trainingsdaten keine obszönen oder hasserfüllten Ausdrücke verwendet werden. Außerdem müssen Sie in der Lage sein, das Unternehmen von jeglicher Nutzung geschützter Daten freizustellen und sicherzustellen, dass keine personenbezogenen Daten oder geistiges Eigentum nach außen dringen. Die Fähigkeit, die Datenabstammung für die generative KI-Lösung zu prüfen und zu erhalten, ist entscheidend.
Hier wird beschrieben, wie ein RAG-Modell von Anfang bis Ende mit Überwachungs- und Governance-Funktionen während des gesamten Lebenszyklus eingesetzt wird. Neben der Model Governance ist auch die Data Governance wichtig. Wir zeigen, wie wir mithilfe der Komponenten von IBM watsonx.governance wie AI OpenScale, FactSheets und IBM Open Pages sicherstellen können, dass generative KI-Anwendungen verwaltet und kontrolliert werden. IBM Watson Knowledge Catalog ermöglicht eine ordnungsgemäße Datenverwaltung, einschließlich der Katalogisierung von Daten, der Datenabfolge und der Verwaltung personenbezogener Daten.