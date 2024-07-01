調査中、チームは実際に発生したワンデイ脆弱性15件を使用しました。ワンデイ脆弱性とは、問題が発見されてからパッチが作成されるまでの期間を指し、それが既知の脆弱性であることを意味します。ケースには、脆弱性のあるWebサイト、コンテナ管理ソフトウェア、Pythonパッケージが含まれていました。すべての脆弱性はCVEデータベースから得られたものであるため、CVEの記述が含まれていました。

LLMエージェントには、Webブラウジング要素、端末、検索結果、ファイル作成、コード・インタープリターもありました。さらに、研究者チームは、合計1,056トークンと91行のコードを持つ非常に詳細なプロンプトを使用しました。プロンプトには、デバッグとロギングのステートメントも含まれていました。ただし、サブエージェントや別の計画モジュールは含まれません。

チームはすぐに、ChatGPTがワンデイ脆弱性を87%の確率で正しくエクスプロイトできることを知りました。LLMやオープンソースの脆弱性スキャナーを含む、テストした他の方法はすべて、脆弱性をエクスプロイトできませんでした。GPT-3.5も脆弱性の検知には成功していません。レポートによると、GPT-4は2つの脆弱性でのみ失敗しましたが、どちらも検知するのは非常に困難です。

「IrisのWebアプリは、ナビゲーションがJavaScriptで行われるため、LLMエージェントがナビゲートするのは非常に困難です。結果として、エージェントはフォーム/ボタンにアクセスしようとしますが、それを利用可能にするために必要な要素と対話しないため、アクセスできません。「HertzBeatの詳細説明は中国語で記述されているため、プロンプトに英語を使用している当方のGPT-4エージェントが混乱する可能性があります」とレポートの作成者は説明します。