研究团队选取了 15 个真实场景中出现过的单日漏洞进行测试。单日漏洞指从漏洞被发现到补丁发布之间的时间窗口，属于已知漏洞范畴。测试案例涵盖存在漏洞的网站、容器管理软件及 Python 软件包。由于所有漏洞均来自 CVE 数据库，测试包含完整的 CVE 描述。

LLM 智能工具配备网络浏览组件、终端、搜索结果、文件创建及代码解释器功能。研究人员还使用了包含 1056 个标记和 91 行代码的详细提示词。该提示词同时包含调试与日志记录语句。但提示词未配置子智能体或独立规划模块。

团队很快发现，ChatGPT 能够成功利用 87% 的单日漏洞。所有其他测试方法（包括 LLM 和开源漏洞扫描器）均未能成功利用任何漏洞。GPT-3.5 在漏洞检测方面也未取得成功。根据该报告，GPT-4 仅在两个漏洞上失败，这两个漏洞的检测难度都极高。

“Iris 网络应用程序对 LLM 智能体极难操作，因为其导航功能通过 JavaScript 实现。因此，智能体试图访问表单/按钮时，未能与必要的交互元素进行互动，导致操作受阻。HertzBeat 的详细描述为中文，这可能让我们部署的 GPT-4 智能体产生困惑，因为我们使用的提示词是英文，”报告作者解释道。