Was ist KI-Agentensicherheit?

Autoren

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Unter KI-Agentensicherheit versteht man den Schutz sowohl vor den Risiken des Einsatzes von KI-Agenten als auch vor Bedrohungen für Agentenanwendungen. Es geht darum, die Agenten selbst und die Systeme, mit denen sie interagieren, zu sichern und sicherzustellen, dass sie wie vorgesehen funktionieren, ohne für schädliche Zwecke ausgenutzt zu werden.

Agenten sind KI-Systeme, die so konzipiert sind, dass sie autonom funktionieren, indem sie planen, Entscheidungen treffen und externe Tools aufrufen. Es ist entscheidend, sich sowohl vor externen Cyberangriffen als auch vor unbeabsichtigten Aktionen der Agenten zu schützen. Da sich die agentische KI schnell entwickelt, entwickelt sich auch die Geschäftswelt in Echtzeit zusammen mit der Technologie weiter. 

Ein entscheidendes Merkmal von KI-Agenten ist ihre Fähigkeit, Toolaufrufe durchzuführen, bei denen sie sich mit einer API, einer Datenbank, einer Website oder einem anderen Tool verbinden und dieses bei Bedarf nutzen. Der Toolaufruf wird in der Regel über KI-Agenten-Frameworks und APIs orchestriert. 

Theoretisch nutzen Agenten Tools, um ihre eigenen Funktionen bei der Planung und Erledigung komplexer Aufgaben zu erweitern. So könnte beispielsweise ein Kundenservice mit einem Kunden interagieren und sich dann mit einer internen Datenbank verbinden, um auf die Einkaufshistorie des Kunden zuzugreifen. 

Multiagentensysteme gehen noch einen Schritt weiter, indem sie mehrere Agenten kombinieren, um komplexe Aufgaben an kleinere Teile zu delegieren. Ein zentraler Planungsagent verwaltet den geschäftlichen Workflow, während die Agenten die ihnen zugewiesenen Teile der Aufgabe erledigen. 

Autonome KI-Entscheidungsfindung und Tool-Aufrufe bilden zusammen eine breite, zweigleisige Angriffsfläche. Hacker können das Verhalten des Agenten manipulieren und ihn zum Missbrauch von Tools veranlassen, oder das Tool selbst über traditionellere Vektoren wie SQL-Injection angreifen. Ziel der KI-Agentensicherheit ist der Schutz agentischer KI-Systeme vor beiden Bedrohungsarten. 

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Die Bedrohungslandschaft der agentischen KI

Agentische KI-Systeme bieten im Vergleich zu eigenständigen KI-Modellen wie Large Language Models (LLMs) oder herkömmlichen Anwendungen eine größere Bandbreite an Schwachstellen. Selbst ohne die Präsenz eines Angreifers können die Agenten selbst ein Sicherheitsrisiko darstellen, wenn sie nicht ordnungsgemäß verwaltet und mit klaren Leitplanken, Berechtigungen und Zugriffskontrollen gewartet werden. 

Die Bedrohungslandschaft durch KI-Agenten umfasst: 

  • Erweiterte Angriffsfläche

  • Autonome Aktionen mit hoher Geschwindigkeit 

  • Unvorhersehbare Inferenz 

  • Mangelnde Transparenz

    KI-Agenten

    5 Arten von KI-Agenten: Autonome Funktionen und Anwendungen in der echten Welt

    Erfahren Sie, wie sich zielgerichtete und dienstprogrammbasierte KI an Workflows und komplexe Umgebungen anpassen kann.

    Erweiterte Angriffsfläche

    Agenten sind oft in größere Systeme integriert, die APIs, Datenbanken, cloudbasierte Systeme und sogar andere Agenten (Multiagentensysteme) umfassen. Jedes Element im agentenbasierten System weist eine eigene Suite von Schwachstellen auf. Angreifern steht eine Reihe von Tools und Exploits zur Verfügung, um potenzielle Schwachstellen im Workflow ausfindig zu machen.

    Autonome Aktionen mit Tempo

    Agentische Automatisierung bedeutet, dass Agenten handeln, ohne explizite Anweisungen von einem menschlichen Benutzer zu erhalten. Agenten können schnell handeln und sich möglicherweise mit anderen Agenten in Verbindung setzen, die ebenfalls zur gleichen Zeit dasselbe tun. Jede dieser Agentenaktionen und -Ausgaben bietet eine Angriffsmöglichkeit und einen Verstärkungsvektor, falls es einem Angreifer gelingt, einen Agenten oder ein ganzes Agentensystem zu kompromittieren.

    Unvorhersehbare Inferenz

    Inferenz ist der Prozess, mit dem LLMs und andere generative KI-Modelle, einschließlich Agenten, Entscheidungen treffen. Kurz gesagt: Sie verwenden statistische Modellierung, um auf den wahrscheinlichsten Output für eine beliebige Eingabe zu „schließen“. Da die Inferenz probabilistisch ist, kann der Output des Modells nicht vollständig vorhergesagt werden, was zu Unsicherheiten im Verhalten des Agenten führt. 

    Daher können Anbieter von Cybersicherheit nicht perfekt vorhersehen, was ein Agent tun wird. Diese Unvorhersehbarkeit erschwert die Art der Bedrohungsabwehr durch Agenten im Vergleich zu herkömmlichen Cybersecuritytechniken.

    Mangelnde Transparenz

    Viele KI-Modelle, wie z. B. die GPT-Modelle von OpenAI und Claude von Anthropic, sind nicht Open Source. Es ist nicht möglich, in das Modell hineinzuschauen und zu verstehen, wie es seine Entscheidungen trifft. Selbst Open-Source-Modelle bieten keine vollständige Transparenz, da ihre Funktionsweise komplex und undurchsichtig ist. 

    Cybersicherheitspersonal, das mit agentenbasierten Systemen arbeitet, hat es möglicherweise schwerer,Ursachenanalysen durchzuführen und Pläne für die Reaktion auf Vorfälle zu formulieren.

    Schwachstellen der agentischen KI

    Die vielschichtige Natur der Agenten-Geschäftswelt führt zu einer Reihe von Schwachstellen, die Angreifer ausnutzen können. 

    Zu den Sicherheitslücken im Bereich der KI-Agenten gehören: 

    • Prompt-Injektion 

    • Tool- und API-Manipulation 

    • Datenvergiftung 

    • Speichervergiftung 

    • Kompromittierung von Berechtigungen 

    • Authentifizierungs- und Zugriffskontroll-Spoofing 

    • RCE-Angriffe (Remote Code Execution) 

    • Kaskadenartige Ausfälle und Ressourcenüberlastung

      Prompt Injection

      Prompt Injection ist eine der schwerwiegendsten Schwachstellen aller Large Language Models (LLM), nicht nur von KI-Agenten. Mit Agenten ist das Risiko jedoch größer, da sie autonome Maßnahmen ergreifen können. Bei einem Prompt-Injection-Angriff füttert der Angreifer das LLM mit schädlichen Eingaben, die es zu einem unbeabsichtigten Verhalten veranlassen. Der Agent kann angewiesen werden, Sicherheits- und Ethikrichtlinien zu ignorieren, Phishing-E-Mails zu versenden, Daten preiszugeben oder Tools zu missbrauchen. 

      Bei einem indirekten Prompt-Injection-Angriff wird der bösartige Prompt in der Datenquelle des Agenten versteckt, statt direkt in das Modell eingespeist. Wenn der Agent die Datenquelle aufruft, z. B. eine externe Website, wird der Prompt an das Modell übermittelt. Multimodale Agenten, die mehrere Datentypen verarbeiten können, sind besonders anfällig, da jede verarbeitbare Datenform ein potenzieller Angriffsvektor ist.

      Zielmanipulation versus Agenten-Hijacking

      Zielmanipulation und Agenten-Hijacking sind häufig die gewünschten Ergebnisse von Prompt-Injection-Angriffen. Bei der Zielmanipulation optimieren Angreifer die Art und Weise, wie ein Agent an Aufgaben herangeht und Entscheidungen trifft, indem sie seine Ziele oder seinen Denkprozess ändern. Agent-Hijacking ist ein Angriff, bei dem ein Angreifer einen Agenten dazu zwingt, unbeabsichtigte Aktionen auszuführen, wie z. B. den Zugriff auf vertrauliche Daten

      Tool- und API-Manipulation

      Agentische KI ist für ihre Fähigkeit bekannt, Tools zu verwenden und eine Verbindung zu APIs herzustellen. Gleichzeitig ist dies auch eine Sicherheitslücke. Oft führen Angreifer durch Prompt Injection einen Agenten dazu, Tools falsch zu nutzen, mit denen er verbunden ist. 

      Der Missbrauch von Tools kann zu Datenlecks führen, bei denen der Agent sensible Benutzerdaten an den Angreifer weitergibt, oder zu DDoS-(Distributed Denial-of-Service-)Angriffen, bei denen der Agent seine externen Verbindungen als Waffe einsetzt. Bei einem solchen Angriff koordiniert der Agent eine Flut von Verbindungsanfragen an das Zielnetzwerk, überlastet es und erzwingt ein Herunterfahren.

      Datenvergiftung

      Unter Data Poisoning versteht man das Einschleusen schädlicher Daten in den Trainingsdatensatz eines Agenten oder in externe Datenquellen. Daten bestimmen, wie ein Agent lernt, rationalisiert und sich verhält. Die Beschädigung von Trainingsdaten oder Eingaben kann zu unbeabsichtigtem Verhalten führen, wie z. B. Datenlecks. 

      Ein Programmieragent könnte beispielsweise auf eine externe Codebibliothek als Referenz zurückgreifen. Slopsquatting – eine Wortkreuzung von „AI slop“ und „typo squatting“ – ist, wenn jemand absichtlich den Namen einer Codebibliothek registriert, der dem einer legitimen Bibliothek ähnelt. Die Absicht besteht darin, dass das Modell versehentlich eine Teilmenge des Codes aus der gefälschten Bibliothek abruft und sie zu seinem generierten Code hinzufügt. 

      Zusammen mit dem Toolmissbrauch ist die Datenvergiftung eine Komponente der Ausbeutung der Lieferkette: Hier infiltriert ein Angreifer das System um einen KI-Agenten und korrumpiert es.

      Speichervergiftung

      Memory Poisoning ist die Beschädigung des persistenten Speichers eines Agenten: die Daten, die er aufbewahrt und die ihn darüber informieren, was er in letzter Zeit getan hat. Memory-Poisoning-Angriffe zielen darauf ab, das zukünftige Verhalten des Agenten zu beeinflussen, indem sein Verständnis für frühere Aktionen verändert wird.

      Kompromittierung von Privilegien

      Ein Bearbeiter, der im Zentrum eines automatisierten Workflows steht, verfügt über Systemberechtigungen, die ihm den Zugriff auf die Daten und Tools ermöglichen, die er für die ihm zugewiesenen Aufgaben benötigt. Wenn Agenten nicht überwacht werden, behalten oder erhalten sie möglicherweise mehr Berechtigungen als sie benötigen. 

      Wenn diese Privilegien nicht entfernt werden, wenn der Agent sie nicht mehr benötigt, bringen sie keinen Mehrwert mehr - aber sie sind immer noch ein potenzieller Angriffsvektor. Angreifer können die Berechtigungen eines Agenten ausnutzen, um Nachrichten zu senden, Transaktionen auszuführen, sich selbst mehr Berechtigungen zu erteilen, Systeme zu verändern, sensible Daten zu lesen und vieles mehr.

      Spoofing von Authentifizierung und Zugriffskontrolle

      Wenn es Angreifern gelingt, die Zugangsdaten von Agenten zu stehlen, können sie sich als diese Agenten ausgeben, um die Systeme zu kompromittieren, auf die der Agent Zugriff hat. Durch die Fälschung der Identität des Agenten erhalten Angreifer die gleichen Berechtigungen wie der Agent – alles, was der Agent tun kann, kann nun auch der nicht berechtigte Benutzer tun. 

      Schwache Authentifizierungsprotokolle in Verbindung mit maschinellem Lernen führen zu einer schnellen Lateralbewegung: wenn sich Angreifer nach einem ersten Verstoß tiefer in ein Netzwerk bewegen. Lateralbewegung öffnet die Tür für Datenexfiltration, Phishing-Angriffe, Malware-Verbreitung und mehr. Angreifer können auch das Verhalten des Agenten anpassen, um seine zukünftigen Aktionen zu beeinflussen.

      RCE-Angriffe (Remote Code Execution)

      Remote Code Execution (RCE) ist eine Art von Cyberangriff, bei dem ein Angreifer bösartigen Code von einem anderen Ort aus in ein System einfügt. Mit Agenten können Angreifer den Agenten dazu bringen, schädlichen Code auszuführen, der dem Angreifer Zugriff auf die Codeausführungsumgebung gewährt. Ein gängiges Beispiel aus der Praxis ist ein Angreifer, der die Zugangsdaten eines Benutzers aus dem Host-System eines kompromittierten Agenten extrahiert.

      Kaskadierende Ausfälle und Ressourcenüberlastung

      Kaskadierende Ausfälle und Ressourcenüberlastung führen dazu, dass das System überlastet wird. In einem Multiagentensystem treten kaskadenartige Ausfälle auf, wenn sich der Output eines kompromittierten Agenten negativ auf den nächsten Agenten im Netz auswirkt, bis das gesamte System ausgefallen ist. 

      Eine Überlastung der Ressourcen ähnelt einem DDoS-Angriff. Angreifer überlasten den Agenten mit Anforderungen, die dessen Durchsatz übersteigen. Dadurch wird die Laufzeit gestört. Für Endbenutzer wirkt die agentengestützte Anwendung ausgefallen.

      Sicherheitsmaßnahmen für KI-Agenten

      Trotz der breiten und vielfältigen Geschäftswelt können agentische KI-Systeme mit wirksamen Gegenmaßnahmen und agentischen KI-Leitplanken gesichert werden. Die Einführung eines proaktiven Sicherheitsstatus und die Befolgung der aktuellen Best Practices für das Schwachstellenmanagement kann ML- und Cybersicherheitsexperten dabei helfen, KI-Agenten zu schützen und vor unternehmungslustigen Cyberkriminellen immer einen Schritt voraus zu sein. 

      Zu den Best Practices für die Sicherheit von KI-Agenten gehören: 

      • Zero-Trust-Architektur 

      • Prinzip der minimalen Rechtevergabe 

      • Kontextsensitive Authentifizierung

      • Datenverschlüsselung 

      • Mikrosegmentierung 

      • Prompt-Abschottung 

      • Prompt-Validierung 

        Zero-Trust-Architektur

        Die Zero-Trust-Architektur (ZTA) ist ein Cybersicherheitsansatz, bei dem davon ausgegangen wird, dass kein Gerät in einem Netzwerk standardmäßig vertrauenswürdig ist. Stattdessen muss jede einzelne Netzzugriffsanfrage authentifiziert und autorisiert werden, bevor sie fortgesetzt werden kann. Kontinuierliche Überwachung und Multi-Faktor-Authentifizierung (MFA) helfen bei der Abwehr von Bedrohungen. 

        Stellen Sie sich das Netz als Website und eine Zugriffsanfrage als Benutzer dieser Website vor. Bei ZTA gibt es auf dem Anmeldebildschirm keine Option, ein Kontrollkästchen zu aktivieren und die Website so einzustellen, dass sie sich beim nächsten Mal an mich erinnert. Der Benutzer muss jedes Mal, wenn er sich anmelden möchte, sein Kennwort eingeben und andere MFA-Anforderungen erfüllen. 

        Durch die Entscheidung für „nie vertrauen, immer verifizieren“ reduziert ZTA die Fähigkeit eines Angreifers zur Lateralbewegung, reduziert die Angriffsfläche und verschafft der Sicherheitsabteilung mehr Zeit für eine Reaktion.

        Prinzip der minimalen Rechtevergabe

        Das Prinzip der geringsten Rechte besagt, dass jedes Gerät oder jeder Agent in einem Netzwerk über die geringstmöglichen Berechtigungen verfügen sollte, die für seine Aufgaben erforderlich sind. Dies ist gleichbedeutend damit, dass man alles und jeden auf eine strikte „Need-to-know“-Basis stellt. Rollenbasierte Zugriffskontrolle (RBAC) und attributbasierte Zugriffskontrolle (ABAC) sind zwei Methoden zur Beibehaltung von Berechtigungsebenen und zur Erhöhung der Datensicherheit.

        Kontextsensitive Authentifizierung

        Die kontextsensitive Authentifizierung ermöglicht es Agenten, Daten nur dann abzurufen, wenn der Benutzer darauf zugreifen darf. Die Zugriffsberechtigungen können dynamisch je nach Rolle des Bearbeiters, der Berechtigungen oder sogar der Tageszeit angepasst werden. 

        Datenverschlüsselung

        Neben der Minimierung des Zugriffs nach dem Prinzip der geringsten Privilegien können die Daten durch Verschlüsselung vor kompromittierten Agenten weiter geschützt werden. Sowohl während der Übertragung als auch im Ruhezustand sollten die Daten mit einer AES-256-Verschlüsselung oder einem ähnlichen Verfahren verschlüsselt sein. Daten mit sensiblen Informationen, wie beispielsweise personenbezogene Daten (PII), sollten ebenfalls anonymisiert werden, um Mitarbeiter und Kunden zusätzlich zu schützen.

        Mikrosegmentierung

        Unter Mikrosegmentierung versteht man die Aufteilung von Netzwerken und Umgebungen in einzelne Segmente. Wenn Bearbeiter Code ausführen können, sollten sie dies in Sandbox-Umgebungen tun, um Lateralbewegung zu verhindern. Strenge Laufzeitkontrollen stärken die Umgebung weiter, um den Agenten in der Sandbox zu halten.

        Prompt Hardening

        Prompt Hardening ist eine KI-Sicherheitspraxis, bei der LLMs strenge, begrenzte Anweisungen gegeben werden, die wenig Raum für Fehlinterpretationen lassen. Indem sie einen Agenten auf eine schmale Spur beschränken, können die Entwickler von ML-Systemen die Möglichkeiten eines Angreifers einschränken, den Agenten zu unbeabsichtigten Verhaltensweisen zu verleiten. 

        Zu den Techniken zur Abschottung von Prompt gehört es, dem Agenten zu verbieten, seine Anweisungen offenzulegen, und alle Anfragen außerhalb seines eingeschränkten Geltungsbereichs automatisch abzulehnen.

        Prompt-Validierung

        Bei der Prompt-Validierung werden Prompts anhand vordefinierter Regeln überprüft, bevor sie an den Agenten weitergeleitet werden. Diese Vorgehensweise, auch Prompt-Sanitization oder Eingabe-Validation genannt, schützt Agenten vor Prompt-Injection-Angriffen. Ebenso sollten die Outputs vor der Verwendung validiert werden, falls der Agent kompromittiert ist.

        Kontradiktorisches Training

        Beim Adversarial Training lernen Modelle, potenzielle Angriffe zu erkennen, indem sie trügerische Eingaben in die Trainingsdaten einmischen. Adversarial Training befindet sich in der laufenden Entwicklung und muss noch zu einem Standardsatz von Trainingsprotokollen werden.

        Weiterführende Lösungen
        KI-Agenten für Unternehmen

        Entwickeln, implementieren und verwalten Sie leistungsstarke KI-Assistenten und -Agenten, die Workflows und Prozesse mit generativer KI automatisieren.

          Entdecken Sie watsonx Orchestrate
          IBM KI-Agenten-Lösungen

          Gestalten Sie die Zukunft Ihres Unternehmens mit KI-Lösungen, denen Sie vertrauen können.

          KI-Agenten-Lösungen erkunden
          IBM Consulting KI-Dienstleistungen

          Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

          Erkunden Sie die Services im Bereich der künstlichen Intelligenz
          Machen Sie den nächsten Schritt

          Ganz gleich, ob Sie vorgefertigte Apps und Skills anpassen oder mithilfe eines KI-Studios eigene Agentenservices erstellen und bereitstellen möchten, die IBM watsonx-Plattform bietet Ihnen alles, was Sie brauchen.

          Entdecken Sie watsonx Orchestrate watsonx.ai erkunden