15. April 2025
Es ist so weit: Wir stellen die Model Risk Evaluation Engine vor! Ein neues Tool in watsonx.governance, das die Risiken von Foundation Models messen kann, indem es Metriken in Bezug auf Risikodimensionen aus dem KI-Risikoatlas berechnet. Als Teil eines umfassenden Modell-Onboarding-Prozesses ermöglicht es den Vergleich von Risikometriken über verschiedene Foundation Models hinweg und hilft dabei, die geeignetsten Foundation Models für die Bereitstellung in Ihrem Unternehmen zu identifizieren, die der spezifischen Risikotoleranz Ihres Unternehmens entsprechen.
Da Unternehmen ihre generativen KI-Bereitstellungen weiter skalieren, wird es für sie immer wichtiger, ein besseres Verständnis für die Risiken zu entwickeln, die mit den zugrunde liegenden Foundation Models verbunden sind, einschließlich Prompt, toxischer Ausgabe, Jailbreaking und Halluzination.
Unternehmen haben die Qual der Wahl, wenn es darum geht, welche generativen KI-Modelle sie in ihrem Unternehmen einsetzen wollen. Eine fundierte Entscheidung ist wichtig, um Situationen zu vermeiden, in denen generative Modelle schlecht abschneiden (z. B. ein „bösartiger“ Chatbot mit Kundenkontakt, der falsche oder schädliche Anweisungen gibt). Solche Situationen können enorme Auswirkungen auf den Ruf haben, von denen sich ein Unternehmen nur schwer erholen kann. Daher sollten objektive quantitative Risikodaten zur Vermeidung solcher Situationen Teil des Modell-Onboarding-Prozesses einer Organisation sein.
Der Onboarding-Prozess für generative KI-Modelle umfasst 3 Phasen:
Das Onboarding einer Risikobibliothek ist der erste Schritt, um zu verstehen, welche Risiken bestehen könnten. Der KI-Risikoatlas von IBM ist eine hervorragende Ressource, um die Risiken zu verstehen, die mit dem Einsatz von generativer KI und maschinellen Lernmodellen verbunden sind. Die Risiken sind zudem direkt in die Governance Console von watsonx.governance integriert und sofort verfügbar. Die Risikobibliothek kann bei Bedarf auch durch ein unternehmenseigenes Risikoinventar ergänzt werden. Die Risiken können mit KI-Anwendungsfällen und -Modellen verknüpft werden, indem die sofort einsatzfähigen Bewertungen zur Risikoidentifizierung (KI-Anwendungsfall, Modell-Onboarding und Anwendungsfall + Modell kombiniert) verwenden.
Das Verständnis der möglichen Risiken ist ein wichtiger erster Schritt, aber ebenso wichtig sind wirksame Methoden zur Identifizierung, Messung und Abschwächung dieser Risiken.
watsonx.governance enthält drei Risikobewertungen:
Diese Bewertungen werden eingesetzt, um zu bestimmen, welche Risiken aus dem Risikoatlas auf das integrierte Modell und/oder den Anwendungsfall zutreffen. In der watsonx.governance Governance Console gibt es einen Workflow für das Onboarding von Foundation Models, der die oben erwähnte Bewertung des Fragebogens zur Risikoidentifizierung beinhaltet.
Nach ihrer Identifizierung sollten die anwendbaren Risiken einzeln mithilfe einer Risiko- und Kontrollselbstbewertung (Risk and Control Self-Assessment, RCSA) untersucht werden, um das inhärente Risiko und das Restrisiko zu bestimmen. Dadurch wird ein Risikoprofil für das Modell erstellt, das Aufschluss darüber geben kann, welche Art von Verwendungen ein Unternehmen für das Modell genehmigen würde, z. B. RAG, Klassifizierung oder Zusammenfassung.
Zur besseren Information des RCSA-Prozesses kann eine quantitative Bewertung durchgeführt werden, um ein tieferes Verständnis des Risikos eines bestimmten Modells zu erlangen und zu sehen, wie es im Vergleich zu ähnlichen Modellen abschneidet. Die Unternehmen sind auch befugt, die Risiken jedes Modells zu bewerten, das sie entwickeln oder verbessern (z. B. durch Feinabstimmung).
Die Model Risk Evaluation Engine, die jetzt Teil von watsonx.governance ist, hilft bei der quantitativen Risikobewertung von Foundation Models. Es berechnet Metriken, die sich auf einen definierten Satz von Risikodimensionen aus dem KI-Risikoatlas beziehen. Durch die Berechnung dieser Metriken für eine breite Auswahl an Basismodellen können Unternehmen die Modelle auswählen, die ihren Geschäftszielen entsprechen und gleichzeitig ihre Risikobereitschaft berücksichtigen.
Die Model Risk Evaluation Engine unterstützt die Auswertung großer Sprachmodelle aus IBM watsonx.ai sowie aller externen großen Sprachmodelle. Die abgeschlossenen Ergebnisse der Evaluations-Engine können in der Governance Console von watsonx.governance gespeichert oder als PDF-Bericht exportiert werden.
Die Model Risk Evaluation Engine hilft bei der Erledigung der folgenden Aufgaben:
Sobald all diese Daten in die Governance-Konsole zurückfließen, können sie als Grundlage für die Risikobewertung des oben beschriebenen Onboarding-Workflows für das Foundation Models verwendet werden.
watsonx.governance-Benutzer können mit dem folgenden Befehl auf die Model Risk Evaluation Engine zugreifen:
Unser Beispiel-Notebook enthält Anweisungen, mit denen Sie selbst testen können. Die Dokumentationsseite der Model Risk Evaluation Engine enthält weitere Informationen.
Wenn Ihr Unternehmen die Risiken generativer KI effektiv identifizieren, messen und mindern soll, ist eine End-to-End-KI-Governance-Lösung wie watsonx.governance entscheidend. Probieren Sie es selbst aus oder vereinbaren Sie noch heute einen Termin für ein Gespräch mit einem IBM Experten.