Was ist KI-Agentensicherheit?

Autoren

Staff writer

Staff Editor, AI Models

IBM Think

Unter KI-Agentensicherheit versteht man den Schutz sowohl vor den Risiken des Einsatzes von KI-Agenten als auch vor Bedrohungen für Agentenanwendungen. Es geht darum, die Agenten selbst und die Systeme, mit denen sie interagieren, zu sichern und sicherzustellen, dass sie wie vorgesehen funktionieren, ohne für schädliche Zwecke ausgenutzt zu werden.

Agenten sind KI-Systeme, die so konzipiert sind, dass sie autonom funktionieren, indem sie planen, Entscheidungen treffen und externe Tools aufrufen. Es ist entscheidend, sich sowohl vor externen Cyberangriffen als auch vor unbeabsichtigten Aktionen der Agenten zu schützen. Da sich die agentische KI schnell entwickelt, entwickelt sich auch die Geschäftswelt in Echtzeit zusammen mit der Technologie weiter.

Ein entscheidendes Merkmal von KI-Agenten ist ihre Fähigkeit, Toolaufrufe durchzuführen, bei denen sie sich mit einer API, einer Datenbank, einer Website oder einem anderen Tool verbinden und dieses bei Bedarf nutzen. Der Toolaufruf wird in der Regel über KI-Agenten-Frameworks und APIs orchestriert.

Theoretisch nutzen Agenten Tools, um ihre eigenen Funktionen bei der Planung und Erledigung komplexer Aufgaben zu erweitern. So könnte beispielsweise ein Kundenservice mit einem Kunden interagieren und sich dann mit einer internen Datenbank verbinden, um auf die Einkaufshistorie des Kunden zuzugreifen.

Multiagentensysteme gehen noch einen Schritt weiter, indem sie mehrere Agenten kombinieren, um komplexe Aufgaben an kleinere Teile zu delegieren. Ein zentraler Planungsagent verwaltet den geschäftlichen Workflow, während die Agenten die ihnen zugewiesenen Teile der Aufgabe erledigen.

Autonome KI-Entscheidungsfindung und Tool-Aufrufe bilden zusammen eine breite, zweigleisige Angriffsfläche. Hacker können das Verhalten des Agenten manipulieren und ihn zum Missbrauch von Tools veranlassen, oder das Tool selbst über traditionellere Vektoren wie SQL-Injection angreifen. Ziel der KI-Agentensicherheit ist der Schutz agentischer KI-Systeme vor beiden Bedrohungsarten.

Branchen-Newsletter

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Die Bedrohungslandschaft der agentischen KI

Agentische KI-Systeme bieten im Vergleich zu eigenständigen KI-Modellen wie Large Language Models (LLMs) oder herkömmlichen Anwendungen eine größere Bandbreite an Schwachstellen. Selbst ohne die Präsenz eines Angreifers können die Agenten selbst ein Sicherheitsrisiko darstellen, wenn sie nicht ordnungsgemäß verwaltet und mit klaren Leitplanken, Berechtigungen und Zugriffskontrollen gewartet werden.

Die Bedrohungslandschaft durch KI-Agenten umfasst:

Erweiterte Angriffsfläche

Autonome Aktionen mit hoher Geschwindigkeit

Unvorhersehbare Inferenz

Mangelnde Transparenz

KI-Agenten

5 Arten von KI-Agenten: Autonome Funktionen und Anwendungen in der echten Welt

Erfahren Sie, wie sich zielgerichtete und dienstprogrammbasierte KI an Workflows und komplexe Umgebungen anpassen kann.

Erstellen, bereitstellen und überwachen Sie KI-Agenten

Erweiterte Angriffsfläche

Agenten sind oft in größere Systeme integriert, die APIs, Datenbanken, cloudbasierte Systeme und sogar andere Agenten (Multiagentensysteme) umfassen. Jedes Element im agentenbasierten System weist eine eigene Suite von Schwachstellen auf. Angreifern steht eine Reihe von Tools und Exploits zur Verfügung, um potenzielle Schwachstellen im Workflow ausfindig zu machen.

Autonome Aktionen mit Tempo

Agentische Automatisierung bedeutet, dass Agenten handeln, ohne explizite Anweisungen von einem menschlichen Benutzer zu erhalten. Agenten können schnell handeln und sich möglicherweise mit anderen Agenten in Verbindung setzen, die ebenfalls zur gleichen Zeit dasselbe tun. Jede dieser Agentenaktionen und -Ausgaben bietet eine Angriffsmöglichkeit und einen Verstärkungsvektor, falls es einem Angreifer gelingt, einen Agenten oder ein ganzes Agentensystem zu kompromittieren.

Unvorhersehbare Inferenz

Inferenz ist der Prozess, mit dem LLMs und andere generative KI-Modelle, einschließlich Agenten, Entscheidungen treffen. Kurz gesagt: Sie verwenden statistische Modellierung, um auf den wahrscheinlichsten Output für eine beliebige Eingabe zu „schließen“. Da die Inferenz probabilistisch ist, kann der Output des Modells nicht vollständig vorhergesagt werden, was zu Unsicherheiten im Verhalten des Agenten führt.

Daher können Anbieter von Cybersicherheit nicht perfekt vorhersehen, was ein Agent tun wird. Diese Unvorhersehbarkeit erschwert die Art der Bedrohungsabwehr durch Agenten im Vergleich zu herkömmlichen Cybersecuritytechniken.

Mangelnde Transparenz

Viele KI-Modelle, wie z. B. die GPT-Modelle von OpenAI und Claude von Anthropic, sind nicht Open Source. Es ist nicht möglich, in das Modell hineinzuschauen und zu verstehen, wie es seine Entscheidungen trifft. Selbst Open-Source-Modelle bieten keine vollständige Transparenz, da ihre Funktionsweise komplex und undurchsichtig ist.

Cybersicherheitspersonal, das mit agentenbasierten Systemen arbeitet, hat es möglicherweise schwerer,Ursachenanalysen durchzuführen und Pläne für die Reaktion auf Vorfälle zu formulieren.

Schwachstellen der agentischen KI

Die vielschichtige Natur der Agenten-Geschäftswelt führt zu einer Reihe von Schwachstellen, die Angreifer ausnutzen können.

Zu den Sicherheitslücken im Bereich der KI-Agenten gehören:

Prompt-Injektion

Tool- und API-Manipulation

Datenvergiftung

Speichervergiftung

Kompromittierung von Berechtigungen

Authentifizierungs- und Zugriffskontroll-Spoofing

RCE-Angriffe (Remote Code Execution)

Kaskadenartige Ausfälle und Ressourcenüberlastung

Prompt Injection

Prompt Injection ist eine der schwerwiegendsten Schwachstellen aller Large Language Models (LLM), nicht nur von KI-Agenten. Mit Agenten ist das Risiko jedoch größer, da sie autonome Maßnahmen ergreifen können. Bei einem Prompt-Injection-Angriff füttert der Angreifer das LLM mit schädlichen Eingaben, die es zu einem unbeabsichtigten Verhalten veranlassen. Der Agent kann angewiesen werden, Sicherheits- und Ethikrichtlinien zu ignorieren, Phishing-E-Mails zu versenden, Daten preiszugeben oder Tools zu missbrauchen.

Bei einem indirekten Prompt-Injection-Angriff wird der bösartige Prompt in der Datenquelle des Agenten versteckt, statt direkt in das Modell eingespeist. Wenn der Agent die Datenquelle aufruft, z. B. eine externe Website, wird der Prompt an das Modell übermittelt. Multimodale Agenten, die mehrere Datentypen verarbeiten können, sind besonders anfällig, da jede verarbeitbare Datenform ein potenzieller Angriffsvektor ist.

Zielmanipulation versus Agenten-Hijacking

Zielmanipulation und Agenten-Hijacking sind häufig die gewünschten Ergebnisse von Prompt-Injection-Angriffen. Bei der Zielmanipulation optimieren Angreifer die Art und Weise, wie ein Agent an Aufgaben herangeht und Entscheidungen trifft, indem sie seine Ziele oder seinen Denkprozess ändern. Agent-Hijacking ist ein Angriff, bei dem ein Angreifer einen Agenten dazu zwingt, unbeabsichtigte Aktionen auszuführen, wie z. B. den Zugriff auf vertrauliche Daten.

Tool- und API-Manipulation

Agentische KI ist für ihre Fähigkeit bekannt, Tools zu verwenden und eine Verbindung zu APIs herzustellen. Gleichzeitig ist dies auch eine Sicherheitslücke. Oft führen Angreifer durch Prompt Injection einen Agenten dazu, Tools falsch zu nutzen, mit denen er verbunden ist.

Der Missbrauch von Tools kann zu Datenlecks führen, bei denen der Agent sensible Benutzerdaten an den Angreifer weitergibt, oder zu DDoS-(Distributed Denial-of-Service-)Angriffen, bei denen der Agent seine externen Verbindungen als Waffe einsetzt. Bei einem solchen Angriff koordiniert der Agent eine Flut von Verbindungsanfragen an das Zielnetzwerk, überlastet es und erzwingt ein Herunterfahren.

Datenvergiftung

Unter Data Poisoning versteht man das Einschleusen schädlicher Daten in den Trainingsdatensatz eines Agenten oder in externe Datenquellen. Daten bestimmen, wie ein Agent lernt, rationalisiert und sich verhält. Die Beschädigung von Trainingsdaten oder Eingaben kann zu unbeabsichtigtem Verhalten führen, wie z. B. Datenlecks.

Ein Programmieragent könnte beispielsweise auf eine externe Codebibliothek als Referenz zurückgreifen. Slopsquatting – eine Wortkreuzung von „AI slop“ und „typo squatting“ – ist, wenn jemand absichtlich den Namen einer Codebibliothek registriert, der dem einer legitimen Bibliothek ähnelt. Die Absicht besteht darin, dass das Modell versehentlich eine Teilmenge des Codes aus der gefälschten Bibliothek abruft und sie zu seinem generierten Code hinzufügt.

Zusammen mit dem Toolmissbrauch ist die Datenvergiftung eine Komponente der Ausbeutung der Lieferkette: Hier infiltriert ein Angreifer das System um einen KI-Agenten und korrumpiert es.

Speichervergiftung

Memory Poisoning ist die Beschädigung des persistenten Speichers eines Agenten: die Daten, die er aufbewahrt und die ihn darüber informieren, was er in letzter Zeit getan hat. Memory-Poisoning-Angriffe zielen darauf ab, das zukünftige Verhalten des Agenten zu beeinflussen, indem sein Verständnis für frühere Aktionen verändert wird.

Kompromittierung von Privilegien

Ein Bearbeiter, der im Zentrum eines automatisierten Workflows steht, verfügt über Systemberechtigungen, die ihm den Zugriff auf die Daten und Tools ermöglichen, die er für die ihm zugewiesenen Aufgaben benötigt. Wenn Agenten nicht überwacht werden, behalten oder erhalten sie möglicherweise mehr Berechtigungen als sie benötigen.

Wenn diese Privilegien nicht entfernt werden, wenn der Agent sie nicht mehr benötigt, bringen sie keinen Mehrwert mehr - aber sie sind immer noch ein potenzieller Angriffsvektor. Angreifer können die Berechtigungen eines Agenten ausnutzen, um Nachrichten zu senden, Transaktionen auszuführen, sich selbst mehr Berechtigungen zu erteilen, Systeme zu verändern, sensible Daten zu lesen und vieles mehr.

Spoofing von Authentifizierung und Zugriffskontrolle

Wenn es Angreifern gelingt, die Zugangsdaten von Agenten zu stehlen, können sie sich als diese Agenten ausgeben, um die Systeme zu kompromittieren, auf die der Agent Zugriff hat. Durch die Fälschung der Identität des Agenten erhalten Angreifer die gleichen Berechtigungen wie der Agent – alles, was der Agent tun kann, kann nun auch der nicht berechtigte Benutzer tun.

Schwache Authentifizierungsprotokolle in Verbindung mit maschinellem Lernen führen zu einer schnellen Lateralbewegung: wenn sich Angreifer nach einem ersten Verstoß tiefer in ein Netzwerk bewegen. Lateralbewegung öffnet die Tür für Datenexfiltration, Phishing-Angriffe, Malware-Verbreitung und mehr. Angreifer können auch das Verhalten des Agenten anpassen, um seine zukünftigen Aktionen zu beeinflussen.

RCE-Angriffe (Remote Code Execution)

Remote Code Execution (RCE) ist eine Art von Cyberangriff, bei dem ein Angreifer bösartigen Code von einem anderen Ort aus in ein System einfügt. Mit Agenten können Angreifer den Agenten dazu bringen, schädlichen Code auszuführen, der dem Angreifer Zugriff auf die Codeausführungsumgebung gewährt. Ein gängiges Beispiel aus der Praxis ist ein Angreifer, der die Zugangsdaten eines Benutzers aus dem Host-System eines kompromittierten Agenten extrahiert.

Kaskadierende Ausfälle und Ressourcenüberlastung

Kaskadierende Ausfälle und Ressourcenüberlastung führen dazu, dass das System überlastet wird. In einem Multiagentensystem treten kaskadenartige Ausfälle auf, wenn sich der Output eines kompromittierten Agenten negativ auf den nächsten Agenten im Netz auswirkt, bis das gesamte System ausgefallen ist.

Eine Überlastung der Ressourcen ähnelt einem DDoS-Angriff. Angreifer überlasten den Agenten mit Anforderungen, die dessen Durchsatz übersteigen. Dadurch wird die Laufzeit gestört. Für Endbenutzer wirkt die agentengestützte Anwendung ausgefallen.

Sicherheitsmaßnahmen für KI-Agenten

Trotz der breiten und vielfältigen Geschäftswelt können agentische KI-Systeme mit wirksamen Gegenmaßnahmen und agentischen KI-Leitplanken gesichert werden. Die Einführung eines proaktiven Sicherheitsstatus und die Befolgung der aktuellen Best Practices für das Schwachstellenmanagement kann ML- und Cybersicherheitsexperten dabei helfen, KI-Agenten zu schützen und vor unternehmungslustigen Cyberkriminellen immer einen Schritt voraus zu sein.

Zu den Best Practices für die Sicherheit von KI-Agenten gehören:

Zero-Trust-Architektur

Prinzip der minimalen Rechtevergabe

Kontextsensitive Authentifizierung

Datenverschlüsselung

Mikrosegmentierung

Prompt-Abschottung

Prompt-Validierung

Zero-Trust-Architektur

Die Zero-Trust-Architektur (ZTA) ist ein Cybersicherheitsansatz, bei dem davon ausgegangen wird, dass kein Gerät in einem Netzwerk standardmäßig vertrauenswürdig ist. Stattdessen muss jede einzelne Netzzugriffsanfrage authentifiziert und autorisiert werden, bevor sie fortgesetzt werden kann. Kontinuierliche Überwachung und Multi-Faktor-Authentifizierung (MFA) helfen bei der Abwehr von Bedrohungen.

Stellen Sie sich das Netz als Website und eine Zugriffsanfrage als Benutzer dieser Website vor. Bei ZTA gibt es auf dem Anmeldebildschirm keine Option, ein Kontrollkästchen zu aktivieren und die Website so einzustellen, dass sie sich beim nächsten Mal an mich erinnert. Der Benutzer muss jedes Mal, wenn er sich anmelden möchte, sein Kennwort eingeben und andere MFA-Anforderungen erfüllen.

Durch die Entscheidung für „nie vertrauen, immer verifizieren“ reduziert ZTA die Fähigkeit eines Angreifers zur Lateralbewegung, reduziert die Angriffsfläche und verschafft der Sicherheitsabteilung mehr Zeit für eine Reaktion.

Prinzip der minimalen Rechtevergabe

Das Prinzip der geringsten Rechte besagt, dass jedes Gerät oder jeder Agent in einem Netzwerk über die geringstmöglichen Berechtigungen verfügen sollte, die für seine Aufgaben erforderlich sind. Dies ist gleichbedeutend damit, dass man alles und jeden auf eine strikte „Need-to-know“-Basis stellt. Rollenbasierte Zugriffskontrolle (RBAC) und attributbasierte Zugriffskontrolle (ABAC) sind zwei Methoden zur Beibehaltung von Berechtigungsebenen und zur Erhöhung der Datensicherheit.

Kontextsensitive Authentifizierung

Die kontextsensitive Authentifizierung ermöglicht es Agenten, Daten nur dann abzurufen, wenn der Benutzer darauf zugreifen darf. Die Zugriffsberechtigungen können dynamisch je nach Rolle des Bearbeiters, der Berechtigungen oder sogar der Tageszeit angepasst werden.

Datenverschlüsselung

Neben der Minimierung des Zugriffs nach dem Prinzip der geringsten Privilegien können die Daten durch Verschlüsselung vor kompromittierten Agenten weiter geschützt werden. Sowohl während der Übertragung als auch im Ruhezustand sollten die Daten mit einer AES-256-Verschlüsselung oder einem ähnlichen Verfahren verschlüsselt sein. Daten mit sensiblen Informationen, wie beispielsweise personenbezogene Daten (PII), sollten ebenfalls anonymisiert werden, um Mitarbeiter und Kunden zusätzlich zu schützen.

Mikrosegmentierung

Unter Mikrosegmentierung versteht man die Aufteilung von Netzwerken und Umgebungen in einzelne Segmente. Wenn Bearbeiter Code ausführen können, sollten sie dies in Sandbox-Umgebungen tun, um Lateralbewegung zu verhindern. Strenge Laufzeitkontrollen stärken die Umgebung weiter, um den Agenten in der Sandbox zu halten.

Prompt Hardening

Prompt Hardening ist eine KI-Sicherheitspraxis, bei der LLMs strenge, begrenzte Anweisungen gegeben werden, die wenig Raum für Fehlinterpretationen lassen. Indem sie einen Agenten auf eine schmale Spur beschränken, können die Entwickler von ML-Systemen die Möglichkeiten eines Angreifers einschränken, den Agenten zu unbeabsichtigten Verhaltensweisen zu verleiten.

Zu den Techniken zur Abschottung von Prompt gehört es, dem Agenten zu verbieten, seine Anweisungen offenzulegen, und alle Anfragen außerhalb seines eingeschränkten Geltungsbereichs automatisch abzulehnen.

Prompt-Validierung

Bei der Prompt-Validierung werden Prompts anhand vordefinierter Regeln überprüft, bevor sie an den Agenten weitergeleitet werden. Diese Vorgehensweise, auch Prompt-Sanitization oder Eingabe-Validation genannt, schützt Agenten vor Prompt-Injection-Angriffen. Ebenso sollten die Outputs vor der Verwendung validiert werden, falls der Agent kompromittiert ist.

Kontradiktorisches Training

Beim Adversarial Training lernen Modelle, potenzielle Angriffe zu erkennen, indem sie trügerische Eingaben in die Trainingsdaten einmischen. Adversarial Training befindet sich in der laufenden Entwicklung und muss noch zu einem Standardsatz von Trainingsprotokollen werden.

ROI realisieren: Ein praktischer Leitfaden für agentische KI

Entdecken Sie Möglichkeiten, wie Sie KI erfolgreich in Ihrem Unternehmen skalieren und echte Ergebnisse erzielen können.

Ressourcen

Steigern Sie die Produktivität mit KI-Agenten, die für Ihr Unternehmen entwickelt wurden

Entdecken Sie das bahnbrechende Potenzial von KI-Agenten, die sich mühelos in Ihre Geschäftsabläufe integrieren lassen.

Einkaufsleitfaden für KI-Agenten 2025

In diesem umfassenden Leitfaden werden wichtige Anwendungsfälle, zentrale Funktionen und schrittweise Empfehlungen aufgeführt, die Ihnen bei der Auswahl der richtigen Lösungen für Ihr Unternehmen helfen.

Mit KI-Agenten und -Assistenten die Produktivität von Unternehmen neu definieren

Erfahren Sie, wie KI-Agenten und KI-Assistenten zusammenwirken können, um neue Produktivitätsniveaus zu erreichen.

Omdia-Bericht über handlungsfähige Intelligenz: Die Auswirkungen von KI-Agenten

Entdecken Sie, wie Sie sich das volle Potenzial von der generativen KI mit KI-Agenten erschließen können.

Das Zeitalter der agentischen Unternehmen: Einsatz von KI in Ihrem gesamten Technologiebestand

Bleiben Sie über die neuen KI-Agenten auf dem Laufenden, die einen grundlegenden Wendepunkt in der KI-Revolution darstellen.

watsonx Orchestrate testen

Erfahren Sie, wie generative KI-Assistenten Ihre Workloads erleichtern und die Produktivität steigern können.

Wie KI-Agenten die Produktivität neu definieren

Lernen Sie, wie Sie mithilfe von KI kreativer und effizienter werden und sich auf eine Zukunft einstellen können, in der Sie eng mit KI-Agenten zusammenarbeiten.

Die Zukunft der Agenten, der Energieverbrauch der KI, die Computernutzung von Anthropic und das Wasserzeichen von Google für KI-generierten Text

Bringen Sie sich in dieser Folge von Mixture of Experts mit unseren KI-Experten auf den neuesten Stand, wenn sie sich eingehend mit der Zukunft von KI-Agenten und mehr befassen.

Wie Comparus einen „Bankassistenten“ einsetzt

Comparus nutzte Lösungen von IBM watsonx.ai und präsentierte eindrucksvoll das Potenzial von dialogorientiertem Banking als neues Interaktionsmodell.

Weiterführende Lösungen

KI-Agenten für Unternehmen

Entwickeln, implementieren und verwalten Sie leistungsstarke KI-Assistenten und -Agenten, die Workflows und Prozesse mit generativer KI automatisieren.

Entdecken Sie watsonx Orchestrate

IBM KI-Agenten-Lösungen

Gestalten Sie die Zukunft Ihres Unternehmens mit KI-Lösungen, denen Sie vertrauen können.

KI-Agenten-Lösungen erkunden

IBM Consulting KI-Dienstleistungen

Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

Erkunden Sie die Services im Bereich der künstlichen Intelligenz

Machen Sie den nächsten Schritt

Ganz gleich, ob Sie vorgefertigte Apps und Skills anpassen oder mithilfe eines KI-Studios eigene Agentenservices erstellen und bereitstellen möchten, die IBM watsonx-Plattform bietet Ihnen alles, was Sie brauchen.