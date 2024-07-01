Während der Studie nutzte das Team 15 One-Day-Schwachstellen, die im echten Leben aufgetreten sind. Eintägige Sicherheitslücken beziehen sich auf den Zeitraum zwischen der Entdeckung eines Problems und der Erstellung des Patches, d. h. es handelt sich um eine bekannte Sicherheitslücke. Zu den Fällen gehörten Webseiten mit Sicherheitslücken, Container-Management-Software und Python-Pakete. Da alle Schwachstellen aus der CVE-Datenbank stammen, enthalten sie die CVE-Beschreibung.

Die LLM-Agenten verfügten außerdem über Web-Browsing-Elemente, ein Terminal, Suchergebnisse, Dateierstellung und einen Code-Interpreter. Zusätzlich verwendeten die Forscher einen sehr detaillierten Prompt mit insgesamt 1.056 Tokens und 91 Codezeilen. Die Prompt enthielt auch Debugging- und Protokollierung-Anweisungen. Die Prompts enthielten jedoch keine Subagenten oder ein separates Planungsmodul.

Das Team fand schnell heraus, dass ChatGPT in 87 % Fällen eine eintägige Sicherheitslücke korrekt ausnutzen konnte. Alle anderen getesteten Methoden, darunter LLMs und Open-Source-Schwachstellen-Scanner, konnten keine Sicherheitslücken ausnutzen. Auch bei der Erkennung von Sicherheitslücken war GPT-3.5 nicht erfolgreich. Dem Bericht zufolge ist GPT-4 nur bei zwei Sicherheitslücken ausgefallen, die beide sehr schwer zu erkennen sind.

„Die Iris-Web-App ist für einen LLM-Agenten extrem schwierig zu bedienen, da die Navigation über JavaScript erfolgt. Als Folge davon versucht der Agent, auf Formulare/Schaltflächen zuzugreifen, ohne mit den notwendigen Elementen zu interagieren, um diese verfügbar zu machen, was ihn daran hindert. Die detaillierte Beschreibung für HertzBeat ist auf Chinesisch, was den von uns bereitgestellten GPT-4-Agenten verwirren könnte, da wir für die Eingabeaufforderung Englisch verwenden“, erklärten die Autoren des Berichts.