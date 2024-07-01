Seit der weit verbreiteten und zunehmenden Verwendung von ChatGPT und anderen großen Sprachmodellen (LLMs) in den letzten Jahren ist die Cybersicherheit ein wichtiges Anliegen. Unter den vielen Fragen, die sich die Experten für Cybersicherheit stellten, war auch die Frage, wie effektiv diese Tools bei der Durchführung eines Angriffs sind. Cybersicherheitsforscher Richard Fang, Rohan Bindu, Akul Gupta und Daniel Kang haben kürzlich eine Studie durchgeführt, um die Antwort zu ermitteln. Das Fazit: Sie sind sehr effektiv.
Während der Studie nutzte das Team 15 One-Day-Schwachstellen, die im echten Leben aufgetreten sind. Eintägige Sicherheitslücken beziehen sich auf den Zeitraum zwischen der Entdeckung eines Problems und der Erstellung des Patches, d. h. es handelt sich um eine bekannte Sicherheitslücke. Zu den Fällen gehörten Webseiten mit Sicherheitslücken, Container-Management-Software und Python-Pakete. Da alle Schwachstellen aus der CVE-Datenbank stammen, enthalten sie die CVE-Beschreibung.
Die LLM-Agenten verfügten außerdem über Web-Browsing-Elemente, ein Terminal, Suchergebnisse, Dateierstellung und einen Code-Interpreter. Zusätzlich verwendeten die Forscher einen sehr detaillierten Prompt mit insgesamt 1.056 Tokens und 91 Codezeilen. Die Prompt enthielt auch Debugging- und Protokollierung-Anweisungen. Die Prompts enthielten jedoch keine Subagenten oder ein separates Planungsmodul.
Das Team fand schnell heraus, dass ChatGPT in 87 % Fällen eine eintägige Sicherheitslücke korrekt ausnutzen konnte. Alle anderen getesteten Methoden, darunter LLMs und Open-Source-Schwachstellen-Scanner, konnten keine Sicherheitslücken ausnutzen. Auch bei der Erkennung von Sicherheitslücken war GPT-3.5 nicht erfolgreich. Dem Bericht zufolge ist GPT-4 nur bei zwei Sicherheitslücken ausgefallen, die beide sehr schwer zu erkennen sind.
„Die Iris-Web-App ist für einen LLM-Agenten extrem schwierig zu bedienen, da die Navigation über JavaScript erfolgt. Als Folge davon versucht der Agent, auf Formulare/Schaltflächen zuzugreifen, ohne mit den notwendigen Elementen zu interagieren, um diese verfügbar zu machen, was ihn daran hindert. Die detaillierte Beschreibung für HertzBeat ist auf Chinesisch, was den von uns bereitgestellten GPT-4-Agenten verwirren könnte, da wir für die Eingabeaufforderung Englisch verwenden“, erklärten die Autoren des Berichts.
Die Forscher kamen zu dem Schluss, dass der Grund für die hohe Erfolgsquote in der Fähigkeit des Tools liegt, komplexe, mehrstufige Schwachstellen auszunutzen, verschiedene Angriffsmethoden zu starten, Codes für Ausnutzungen zu erstellen und Nicht-Web-Schwachstellen zu manipulieren.
Die Studie stellte außerdem eine erhebliche Einschränkung von Chat GPT bei der Suche nach Schwachstellen fest. Als LLM aufgefordert wurde, eine Sicherheitslücke ohne den CVE-Code auszunutzen, war es nicht in der Lage, die gleiche Leistung zu erbringen. Ohne den CVE-Code war GPT-4 nur in 7 % der Fälle erfolgreich, was einer Reduzierung um 80 % entspricht. Aufgrund dieser großen Diskrepanz gingen die Forscher einen Schritt zurück und untersuchten, wie oft GPT-4 die richtige Schwachstelle ermitteln konnte: 33,3 %.
„Überraschenderweise stellten wir fest, dass sich die durchschnittliche Anzahl der mit und ohne CVE-Beschreibung durchgeführten Aktionen nur um 14 % unterschied (24,3 Aktionen gegenüber 21,3 Aktionen). Wir vermuten, dass dies zum Teil auf die Länge des Kontextfensters zurückzuführen ist, was ferner darauf hindeutet, dass ein Planungsmechanismus und Unteragenten die Leistung steigern könnten“, schrieben die Forscher.
Die Forscher kamen in ihrer Studie zu dem Schluss, dass LLMs in der Lage sind, eintägige Sicherheitslücken autonom auszunutzen, aber derzeit kann nur GPT-4 diese Marke erreichen. Es besteht jedoch die Sorge, dass die Fähigkeiten und Funktionen des LLM in Zukunft nur zunehmen werden, was es zu einem noch zerstörerischeren und mächtigeren Tool für Cyberkriminelle macht.
„Unsere Ergebnisse zeigen sowohl die Möglichkeit neuer Funktionen als auch, dass das Aufdecken einer Schwachstelle schwieriger ist als deren Ausnutzung. Dennoch unterstreichen unsere Ergebnisse die Notwendigkeit, dass die breitere Cybersicherheit-Gemeinschaft und die LLM-Anbieter sorgfältig darüber denken, wie LLM-Agenten in Abwehrmaßnahmen integriert und wie sie Bereitstellung eingesetzt werden können“, so die Forscher.
