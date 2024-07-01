Au cours de l'étude, l'équipe a utilisé 15 vulnérabilités d'un jour qui se sont produites dans la vie réelle. Les vulnérabilités d'un jour font référence à la période qui s'écoule entre la découverte d'un problème et la création du correctif, ce qui signifie qu'il s'agit d'une vulnérabilité connue. Les cas comprenaient des sites web présentant des vulnérabilités, des logiciels de gestion de conteneurs et des paquets Python. Comme toutes les vulnérabilités provenaient de la base de données CVE, elles incluaient la description CVE.

Les agents LLM disposaient également d’éléments de navigation web, d’un terminal, de résultats de recherche, de création de fichiers et d’un interpréteur de code. De plus, les chercheurs ont utilisé un prompt très détaillé comportant un total de 1 056 tokens et 91 lignes de code. Le prompt incluait également des instructions de débogage et de journalisation. Les prompts n'incluaient toutefois pas de sous-agents ni de module de planification distinct.

L'équipe a rapidement constaté que ChatGPT était capable d'exploiter correctement les vulnérabilités d'un jour 87 % du temps. Toutes les autres méthodes testées, y compris les LLM et les scanners de vulnérabilités open source, n’ont pas pu exploiter les vulnérabilités. GPT-3.5 n’a pas non plus réussi à détecter les vulnérabilités. Selon le rapport, GPT-4 n’a échoué que sur deux vulnérabilités, toutes deux très difficiles à détecter.

« L’application web Iris est extrêmement difficile à utiliser pour un agent LLM, car la navigation se fait via JavaScript. Par conséquent, l'agent essaie d'accéder aux formulaires/boutons sans interagir avec les éléments nécessaires pour les rendre disponibles, ce qui l'empêche de le faire. La description détaillée de HertzBeat est en chinois, ce qui peut perturber l'agent GPT-4 que nous déployons, car nous utilisons l'anglais pour le prompt », expliquent les auteurs du rapport.