Generative KI-Systeme stellen eine Reihe einzigartiger Sicherheitsherausforderungen dar. Neben der typischen Herausforderung, den Zugang zu generativen KI-Modellen zu sichern, müssen Unternehmen die kreative Kraft großer Sprachmodelle (LLMs) und anderer generativer Technologien auf das Risiko abstimmen, dass die Modelle falsche oder unerwünschte Ausgaben liefern, sensible oder private Informationen offenlegen oder unerwünschte oder falsche/verbotene/illegale Aktionen ausführen.
Das Open Web Application Security Project, OWASP, hat die erste Version der Top 10 Risiken und Schwachstellen für LLMs und generative KI-Anwendungen veröffentlicht. Das folgende Diagramm veranschaulicht diese Schwachstellen im Kontext einer agentischen KI-Architektur.
Die untenstehende Abbildung erweitert die Architektur, um die Platzierung von Komponenten zum Schutz vor bzw. zur Minderung der Schwachstellen in den OWASP Top 10 zu veranschaulichen.
Eine Komponente für Identity und Access Management (IAM) wird hinzugefügt, um starke Benutzeridentitäten und -rollen bereitzustellen. Das Risiko des Modelldiebstahls wird gemindert, indem der Zugriff auf Anwendungsfunktionen und APIs kontrolliert wird, die zu Diebstahl oder Offenlegung von Modellen führen könnten.
Die Agentenidentifizierung und Zugriffskontrolle (Agent Access Control), die ähnlich wie die privilegierte Benutzerverwaltung funktioniert, wurde hinzugefügt, um die Zugriffsrechte der Agenten mit den Identitäten und Rollen der Benutzer abzugleichen. Dies schützt vor übermäßiger Handlungsfähigkeit und abnormalen Agentenaktionen infolge von Halluzinationen oder schlecht formulierten oder mehrdeutigen Prompts.
Generative KI-Überwachungskomponenten (GenAI Monitoring) werden in der gesamten Architektur hinzugefügt, um Prompt Injection, unsichere Ausgabehandhabung, Offenlegung sensibler Daten und übermäßige Abhängigkeiten zu verhindern. Eine Kombination aus generativer K-Überwachung und traditioneller Datenlecküberwachung wird bereitgestellt, um gegen Prompt-/Reaktionsbasierte Angriffe zu schützen, z. B. ein Prompt, der in die Ergebnisse einer SQL Query eingefügt wird, sowie die Offenlegung sensibler Informationen, die in den Ergebnissen von API-Aufrufen, Datenbankanfragen und Ähnlichem erscheinen können.
Angriffe durch Manipulation von Trainingsdaten werden durch die Hinzunahme von Konfigurationsmanagement und Überwachungstools sowie durch einen strukturierten Versionskontroll- und Freigabeprozess für Modelltraining, Feinabstimmung und Konfigurationsdaten abgemildert.
Abschließend wird eine Komponente zur integrierten Verhaltensüberwachung und Ereigniskorrelation hinzugefügt, um potenzielle Schwachstellen und Angriffe aus den Protokollen einzelner Komponenten zu identifizieren. Eine Benachrichtigungs- und Alarmierungskomponente wurde hinzugefügt, um Systembetreiber über potenzielle Probleme zu informieren, sowie eine Reaktionsorchestrierungskomponente, um System- und manuelle Reaktionen auf identifizierte Probleme zu automatisieren und/oder zu koordinieren.