Ein Leitfaden zur Sicherung von Lösungen für generative KI

Überblick

Generative KI-Systeme stellen eine Reihe einzigartiger Sicherheitsherausforderungen dar. Neben der typischen Herausforderung, den Zugang zu generativen KI-Modellen zu sichern, müssen Unternehmen die kreative Kraft großer Sprachmodelle (LLMs) und anderer generativer Technologien auf das Risiko abstimmen, dass die Modelle falsche oder unerwünschte Ausgaben liefern, sensible oder private Informationen offenlegen oder unerwünschte oder falsche/verbotene/illegale Aktionen ausführen.

Architekturmuster für generative KI

Die OWASP Top 10 für LLMs und generative KI-Apps

Das Open Web Application Security Project, OWASP, hat die erste Version der Top 10 Risiken und Schwachstellen für LLMs und generative KI-Anwendungen veröffentlicht. Das folgende Diagramm veranschaulicht diese Schwachstellen im Kontext einer agentischen KI-Architektur.

Eine Zuordnung der 10 wichtigsten generativen KI-Bedrohungen von OWASP zu agentischer KI-Architektur.

Bei Prompt Injection kann ein Angreifer bösartigen Inhalt in LLM Prompts einfügen. Der Inhalt kann von in einen größeren Prompt eingebettete Prompts/ Anweisungen bis hin zu Hyperlinks reichen, die zu Inhalten führen, die vom LLM gelesen werden (z. B. „Lesen und analysieren Sie den Text unter der folgenden URL..“) oder auf andere Weise. Durch Prompt Injection kann ein Angreifer das Modell so manipulieren, dass es Anweisungen ignoriert und/oder unerwünschte oder falsche Ausgaben liefert.
Unsicheres Output-Handling tritt auf, wenn die Ausgaben eines LLM nicht ausreichend auf böswilliges Potenzial oder Absichten validiert sind. Bei dieser Art von Schwachstelle kann ein LLM aufgefordert werden, Javascript-Code zu generieren, der an den Browser des Benutzers zur Ausführung weitergeleitet wird, oder Shell-Skripte oder anderen von einem LLM generierten „System“-Code direkt auszuführen.
Training Data Poisoning liegt vor, wenn ein Angreifer in der Lage ist, die Trainings- und/oder Konfigurationsdaten eines Modells zu verändern oder zu manipulieren, um Sicherheitslücken ins Modell zu integrieren. Ein Angreifer könnte beispielsweise eine Beschreibung des Geschäftsprozesses so ändern, dass unbegrenzte Geldüberweisungen an eine bestimmte Person möglich sind. Oder ein Konkurrent könnte die Feinabstimmungsdaten so anpassen, dass das Modell seine Produkte und nicht die des Unternehmens empfiehlt.
Model Denial of Service tritt auf , wenn ein Angreifer ein Modell so manipulieren kann, dass es eine hohe Menge an Ressourcen verbraucht, was zu schlechter Leistung führt oder dazu, dass das Modell für andere Benutzer nicht verfügbar ist. Beispiele für Model Denial of Service sind wiederholtes Einreichen von Prompts, die knapp unter der Größe des Kontextfensters des Modells liegen und große Speichermengen verbrauchen, und das Einreichen von Prompts, die das Modell dazu bringen, das Kontextfenster rekursiv zu erweitern und zu verarbeiten (als Endlosschleife).
Bei Schwachstellen in der Lieferkette handelt es sich sowohl um typische Schwachstellen im Zusammenhang mit der Verwendung von Software von Drittanbietern mit unbekannten Sicherheitslücken, die von einem Angreifer ausgenutzt werden können, als auch Schwachstellen, die von Modellen verursacht wurden, die in ihrem Trainingsprozess unbestätigte und/oder Crowd-Sourcing-Daten verwenden.
Die Offenlegung sensibler Informationen liegt vor, wenn ein Modell sensible oder persönliche Informationen preisgibt. Dies kann als Folge eines erfolgreichen Prompt-Injection-Angriffs, durch unsichere Handhabung von Unternehmenssystemausgaben oder durch böswillige Prompts geschehen, die das Modell manipulieren, um sensible Ausgaben zu erzeugen, z. B. gültige Kreditkartennummern.
Unsicheres Plugin-Design tritt auf, wenn Tools, die direkt von Modellen aufgerufen werden, nicht sicher gestaltet sind, z.B. Tools, die als Administrator ausgeführt werden, oder Tools, die über ihre Ausgaben eine Prompt Injection ermöglichen.
Übermäßige Handlungsfähigkeit liegt vor, wenn ein Modell oder ein autonomer Agent die Fähigkeit besitzt, schädliche oder unautorisierte Aktionen als Reaktion auf unerwartete oder mehrdeutige Ausgaben eines LLM durchzuführen.
Übermäßige Abhängigkeit tritt auf, wenn die Ausgabe eines Modells nicht auf Korrektheit gegenüber faktischen Quellen oder Verfahrenskontrollen überprüft wird. Das häufigste Beispiel für eine übermäßige Abhängigkeit ist, wenn ein Modell halluziniert und die falsche Ausgabe als sachlich akzeptiert wird, z. B. ein Chatbot, der einem Kunden eine falsche Antwort auf die Rückgaberichtlinien eines Geschäfts gibt. Eine übermäßige Abhängigkeit kann aber auch bei modellgeneriertem Code oder Bildern auftreten.
Bei einem Modelldiebstahl ist ein Angreifer in der Lage, ein Modell, seine Gewichtung und/oder seine Parameter zu kompromittieren, physisch zu stehlen oder zu kopieren. Sobald ein Angreifer in den Besitz eines Modells gelangt ist, kann er aus dem wertvollen geistigen Eigentum, das in dem Modell enthalten ist, Kapital schlagen oder ein Duplikat des Modells für seinen eigenen Gebrauch erstellen.

Schutz generativer KI-Systeme

Die untenstehende Abbildung erweitert die Architektur, um die Platzierung von Komponenten zum Schutz vor bzw. zur Minderung der Schwachstellen in den OWASP Top 10 zu veranschaulichen.

Architekturdiagramm einer agentischen KI-Lösung, das die Platzierung von Sicherheitskontrollen zum Schutz vor KI-Bedrohungen zeigt.

Eine Komponente für Identity und Access Management (IAM) wird hinzugefügt, um starke Benutzeridentitäten und -rollen bereitzustellen. Das Risiko des Modelldiebstahls wird gemindert, indem der Zugriff auf Anwendungsfunktionen und APIs kontrolliert wird, die zu Diebstahl oder Offenlegung von Modellen führen könnten.

Die Agentenidentifizierung und Zugriffskontrolle (Agent Access Control), die ähnlich wie die privilegierte Benutzerverwaltung funktioniert, wurde hinzugefügt, um die Zugriffsrechte der Agenten mit den Identitäten und Rollen der Benutzer abzugleichen. Dies schützt vor übermäßiger Handlungsfähigkeit und abnormalen Agentenaktionen infolge von Halluzinationen oder schlecht formulierten oder mehrdeutigen Prompts.

Generative KI-Überwachungskomponenten (GenAI Monitoring) werden in der gesamten Architektur hinzugefügt, um Prompt Injection, unsichere Ausgabehandhabung, Offenlegung sensibler Daten und übermäßige Abhängigkeiten zu verhindern. Eine Kombination aus generativer K-Überwachung und traditioneller Datenlecküberwachung wird bereitgestellt, um gegen Prompt-/Reaktionsbasierte Angriffe zu schützen, z. B. ein Prompt, der in die Ergebnisse einer SQL Query eingefügt wird, sowie die Offenlegung sensibler Informationen, die in den Ergebnissen von API-Aufrufen, Datenbankanfragen und Ähnlichem erscheinen können.

Angriffe durch Manipulation von Trainingsdaten werden durch die Hinzunahme von Konfigurationsmanagement und Überwachungstools sowie durch einen strukturierten Versionskontroll- und Freigabeprozess für Modelltraining, Feinabstimmung und Konfigurationsdaten abgemildert.

Abschließend wird eine Komponente zur integrierten Verhaltensüberwachung und Ereigniskorrelation hinzugefügt, um potenzielle Schwachstellen und Angriffe aus den Protokollen einzelner Komponenten zu identifizieren. Eine Benachrichtigungs- und Alarmierungskomponente wurde hinzugefügt, um Systembetreiber über potenzielle Probleme zu informieren, sowie eine Reaktionsorchestrierungskomponente, um System- und manuelle Reaktionen auf identifizierte Probleme zu automatisieren und/oder zu koordinieren.

Ressourcen

Die Architektur der generativen KI von IBM

Die Architektur der generativen KI von IBM ist die vollständige generative KI-Architektur von IBM innerhalb von IBM IT Architect Assistant (IIAA), einem Tool zur Entwicklung und Verwaltung von Architekturen. Mit IIAA können Architekten die Architektur ausarbeiten und anpassen, um ihre eigenen generativen KI-Lösungen zu erstellen.

Nächste Schritte

Sprechen Sie mit unseren Experten darüber, wie Sie die Einführung generativer KI beschleunigen können.

Sicherung generativer KI-Lösungen

Beitragende

Chris Kirby, Wissam Dib, Manav Gupta

Aktualisiert: 31. Januar 2025