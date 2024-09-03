Wenn KI-Chatbots aus der Bahn geraten

In der sich rasant entwickelnden Welt der künstlichen Intelligenz ist eine neue Herausforderung entstanden. „AI Whisperers“ loten die Grenzen der KI-Ethik aus, indem sie gut erzogene Chatbots dazu bringen, gegen ihre eigenen Regeln zu verstoßen.

Diese als Prompt Injections oder „Jailbreaks“ bezeichneten Exploits legen Schwachstellen in KI-Systemen offen und schüren Bedenken hinsichtlich ihrer Sicherheit. Microsoft hat kürzlich mit seiner „Skeleton Key“-Technik für Aufsehen gesorgt, einem mehrstufigen Prozess zur Umgehung der ethischen Schutzmechanismen einer KI. Aber dieser Ansatz ist nicht so neu, wie es scheint.

„Skeleton Key ist insofern einzigartig, als es mehrere Interaktionen mit der KI erfordert“, erklärt Chenta Lee, Chief Architect of Threat Intelligence bei IBM. „Bisher zielten die meisten Prompt-Injection-Angriffe darauf ab, die KI mit einem einzigen Versuch aus dem Konzept zu bringen. Skeleton Key führt mehrere Angriffe aus, was die Erfolgsquote erhöhen kann.“

Die Kunst der KI-Manipulation

Die Welt der KI-Jailbreaks ist vielfältig und entwickelt sich ständig weiter. Einige Angriffe sind überraschend einfach, während andere ausgeklügelte Szenarien beinhalten, die das Fachwissen eines erfahrenen Hackers erfordern. Was sie verbindet, ist ein gemeinsames Ziel: diese digitalen Assistenten über ihre programmierten Grenzen hinaus zu bringen.

Diese Exploits nutzen die eigentliche Natur von Sprachmodellen aus. KI-Chatbots sind darauf trainiert, hilfreich zu sein und den Kontext zu verstehen. Jailbreaker erstellen Szenarien, in denen die KI der Meinung ist, dass es angemessen ist, ihre üblichen ethischen Richtlinien zu ignorieren.

Während mehrstufige Angriffe wie Skeleton Key Schlagzeilen machen, argumentiert Lee, dass Einmal-Techniken nach wie vor ein dringenderes Problem darstellen. „Es ist einfacher, ein großes Sprachmodell mit einem einzigen Angriff zu attackieren“, bemerkt er. „Stellen Sie sich vor, Sie fügen eine schnelle Injektion in Ihren Lebenslauf ein, um ein KI-gestütztes Bewerbungssystem zu verwirren. Das ist ein Einmal-Angriff ohne Chance auf mehrere Interaktionen.“

Nach Angaben von Experten für Cybersicherheit sind die möglichen Folgen alarmierend. „Böswillige Akteure könnten Skeleton Key verwenden, um KI-Schutzmaßnahmen zu umgehen und schädliche Inhalte zu generieren, Desinformation zu verbreiten oder Social-Engineering-Angriffe in großem Maßstab zu automatisieren“, warnt Stephen Kowski, Field CTO bei SlashNext E-Mail Security+.

Obwohl viele dieser Angriffe noch theoretischer Natur sind, zeigen sich allmählich Auswirkungen in der Praxis. Lee nennt ein Beispiel, bei dem Forscher den KI-gestützten virtuellen Agenten eines Unternehmens dazu gebracht haben, massive, nicht genehmigte Rabatte anzubieten. „Man kann ihren virtuellen Agenten verwirren und einen guten Rabatt erhalten. Das ist vielleicht nicht ganz im Sinne des Unternehmens“, sagt er.

In seiner eigenen Forschung hat Lee Proofs of Concept entwickelt, um zu zeigen, wie ein LLM hypnotisiert werden kann, um anfälligen und bösartigen Code zu erstellen, und wie Live-Audio-Gespräche nahezu in Echtzeit abgefangen und verzerrt werden können.

Sicherung des digitalen Wandels

Die Abwehr dieser Angriffe ist eine ständige Herausforderung. Lee skizziert zwei Hauptansätze: ein verbessertes KI-Training und den Aufbau von KI-Firewalls.

„Wir wollen besser trainieren, damit das Modell selbst weiß: ‚Oh, jemand versucht, mich anzugreifen‘“, erklärt Lee. „Wir werden auch alle eingehenden Abfragen an das Sprachmodell überprüfen und Prompt Injections erkennen.“

Da die generative KI immer stärker in unser tägliches Leben integriert wird, ist das Verständnis dieser Schwachstellen nicht nur ein Problem für Technikexperten. Es wird immer wichtiger, dass alle, die mit KI-Systemen interagieren, sich ihrer potenziellen Schwachstellen bewusst sind.

Lee vergleicht die Anfänge der SQL-Injection-Angriffe auf Datenbanken. „Es hat 5 bis 10 Jahre gedauert, bis allen klar war, dass man beim Schreiben einer SQL-Abfrage alle Eingaben parametrisieren muss, um gegen Injection-Angriffe immun zu sein“, sagt er. „Im Bereich der KI beginnen wir, Sprachmodelle überall einzusetzen. Die Menschen müssen verstehen, dass man einer KI nicht einfach einfache Anweisungen geben kann, da dies die Software anfällig macht.“

Die Entdeckung von Jailbreaking-Methoden wie Skeleton Key könnte das Vertrauen der Öffentlichkeit in KI schwächen und die Einführung nützlicher KI-Technologien behindern. Laut Narayana Pappu, CEO von Zendata, sind Transparenz und unabhängige Überprüfungen unerlässlich, um das Vertrauen wiederherzustellen.

„KI-Entwickler und Unternehmen können ein Gleichgewicht zwischen der Erstellung leistungsstarker, vielseitiger Sprachmodelle und der Gewährleistung robuster Schutzmaßnahmen gegen Missbrauch herstellen“, sagte er. „Dies können sie durch interne Systemtransparenz, das Verständnis der Risiken der KI-/Datenlieferkette und die Einbindung von Bewertungsinstrumenten in jede Phase des Entwicklungsprozesses erreichen.“

 
