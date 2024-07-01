近年、ChatGPTやその他の大規模言語モデル（LLM）の使用が広く増加して以来、サイバーセキュリティーは最大の懸念となっています。多くの質問の中で、サイバーセキュリティーの専門家は、これらのツールが攻撃を仕掛けるのにどれほど効果的であるか疑問に思いました。サイバーセキュリティー研究者のRichard Fang氏、Rohan Bindu氏、Akul Gupta氏、Daniel Kang氏はその答えを明らかにするために最近、調査を実施しました。結論は「とても効果的」です。
調査中、チームは実際に発生したワンデイ脆弱性15件を使用しました。ワンデイ脆弱性とは、問題が発見されてからパッチが作成されるまでの期間を指し、それが既知の脆弱性であることを意味します。ケースには、脆弱性のあるWebサイト、コンテナ管理ソフトウェア、Pythonパッケージが含まれていました。すべての脆弱性はCVEデータベースから得られたものであるため、CVEの記述が含まれていました。
LLMエージェントには、Webブラウジング要素、端末、検索結果、ファイル作成、コード・インタープリターもありました。さらに、研究者チームは、合計1,056トークンと91行のコードを持つ非常に詳細なプロンプトを使用しました。プロンプトには、デバッグとロギングのステートメントも含まれていました。ただし、サブエージェントや別の計画モジュールは含まれません。
チームはすぐに、ChatGPTがワンデイ脆弱性を87%の確率で正しくエクスプロイトできることを知りました。LLMやオープンソースの脆弱性スキャナーを含む、テストした他の方法はすべて、脆弱性をエクスプロイトできませんでした。GPT-3.5も脆弱性の検知には成功していません。レポートによると、GPT-4は2つの脆弱性でのみ失敗しましたが、どちらも検知するのは非常に困難です。
「IrisのWebアプリは、ナビゲーションがJavaScriptで行われるため、LLMエージェントがナビゲートするのは非常に困難です。結果として、エージェントはフォーム/ボタンにアクセスしようとしますが、それを利用可能にするために必要な要素と対話しないため、アクセスできません。「HertzBeatの詳細説明は中国語で記述されているため、プロンプトに英語を使用している当方のGPT-4エージェントが混乱する可能性があります」とレポートの作成者は説明します。
研究者らは、高い成功率の理由は、複数段階にわたる複雑な脆弱性をエクスプロイトし、さまざまな攻撃方法を仕掛け、エクスプロイト用のコードを作成し、Web以外の脆弱性を操作するツールの能力にあると結論づけました。
この調査では、脆弱性を見つける上でChat GPTに重大な制限があることも判明しました。CVEコードのない脆弱性をエクスプロイトするように求められたとき、LLMは同じレベルでは機能しませんでした。CVEコードなしでは、GPT-4の成功率はわずか7％に留まり、これは80％の減少に相当します。この大きなギャップがあったため、研究者は一歩下がって、GPT-4が正しい脆弱性を特定できる頻度を特定しました。これは33.3%の確率でした。
「驚くことに、CVEの説明がある場合とない場合で取られたアクションの平均数はわずか14％しか違わなかった（アクション数24.3対21.3）ことが判明しました。これはコンテキストウィンドウの長さによって部分的に左右されると考えられ、さらに計画メカニズムとサブエージェントによってパフォーマンスが向上する可能性があることを示唆しています」と研究者らは記しています。
研究者らは、自分たちの研究によって、LLMにはワンデイ脆弱性を自律的にエクスプロイトする能力があることが示されたと結論づけていますが、現在これを達成できるのはGPT-4だけです。しかし、懸念されているのは、LLMの能力と機能は将来的にさらに増大し、サイバー犯罪者にとってさらに破壊的で強力なツールになるということです。
「私たちの結果は、新たな機能の可能性と、脆弱性を発見することの方がエクスプロイトよりも難しいことを示しています。それにもかかわらず、私たちの調査結果は、より広範なサイバーセキュリティー・コミュニティとLLMプロバイダーが、LLMエージェントを防御手段に統合する方法と、その広範な展開について慎重に検討する必要があることを浮き彫りにしました」と研究者らは結論付けています。
