Die Welt der KI-Jailbreaks ist vielfältig und entwickelt sich ständig weiter. Einige Angriffe sind überraschend einfach, während andere ausgeklügelte Szenarien beinhalten, die das Fachwissen eines erfahrenen Hackers erfordern. Was sie verbindet, ist ein gemeinsames Ziel: diese digitalen Assistenten über ihre programmierten Grenzen hinaus zu bringen.
Diese Exploits nutzen die eigentliche Natur von Sprachmodellen aus. KI-Chatbots sind darauf trainiert, hilfreich zu sein und den Kontext zu verstehen. Jailbreaker erstellen Szenarien, in denen die KI der Meinung ist, dass es angemessen ist, ihre üblichen ethischen Richtlinien zu ignorieren.
Während mehrstufige Angriffe wie Skeleton Key Schlagzeilen machen, argumentiert Lee, dass Einmal-Techniken nach wie vor ein dringenderes Problem darstellen. „Es ist einfacher, ein großes Sprachmodell mit einem einzigen Angriff zu attackieren“, bemerkt er. „Stellen Sie sich vor, Sie fügen eine schnelle Injektion in Ihren Lebenslauf ein, um ein KI-gestütztes Bewerbungssystem zu verwirren. Das ist ein Einmal-Angriff ohne Chance auf mehrere Interaktionen.“
Nach Angaben von Experten für Cybersicherheit sind die möglichen Folgen alarmierend. „Böswillige Akteure könnten Skeleton Key verwenden, um KI-Schutzmaßnahmen zu umgehen und schädliche Inhalte zu generieren, Desinformation zu verbreiten oder Social-Engineering-Angriffe in großem Maßstab zu automatisieren“, warnt Stephen Kowski, Field CTO bei SlashNext E-Mail Security+.
Obwohl viele dieser Angriffe noch theoretischer Natur sind, zeigen sich allmählich Auswirkungen in der Praxis. Lee nennt ein Beispiel, bei dem Forscher den KI-gestützten virtuellen Agenten eines Unternehmens dazu gebracht haben, massive, nicht genehmigte Rabatte anzubieten. „Man kann ihren virtuellen Agenten verwirren und einen guten Rabatt erhalten. Das ist vielleicht nicht ganz im Sinne des Unternehmens“, sagt er.
In seiner eigenen Forschung hat Lee Proofs of Concept entwickelt, um zu zeigen, wie ein LLM hypnotisiert werden kann, um anfälligen und bösartigen Code zu erstellen, und wie Live-Audio-Gespräche nahezu in Echtzeit abgefangen und verzerrt werden können.