AIエージェント・セキュリティーとは

執筆者

Staff writer

Staff Editor, AI Models

IBM Think

AIエージェント・セキュリティは、AIエージェントの使用に伴うリスクとエージェント・アプリケーションへの脅威の両方から保護する実践です。これには、エージェント自体とエージェントがやり取りするシステムの保護が含まれ、エージェントが有害な目的で悪用されることなく、意図したとおりに動作することが保証されます。

エージェントは、計画、決定、外部ツールの呼び出しによって自律的に機能するように設計されたAIシステムです。重要な点は、外部のサイバー攻撃とエージェントによる意図しないアクションの両方から保護することです。エージェント型AIは急速に発展している分野であるため、ランドスケープはテクノロジーとともにリアルタイムで進化しています。

AIエージェントの主要な機能の1つは、ツール呼び出しを実行できることです。ツール呼び出しでは、API、データベース、Web サイト、またはその他のツールに接続し、必要に応じてそれを使用します。ツールの呼び出しは通常、AIエージェント・フレームワークとAPIを通じて調整されます。

理論的には、エージェントは複雑なタスクの計画と完了において自身の機能を強化するためにツールを使用します。たとえば、カスタマー・サービスのエージェントは顧客と対話した後、社内のデータベースに接続してその顧客の買い物履歴にアクセスできます。

マルチエージェント・システムは、複数のエージェントを組み合わせて複雑なタスクをより小さなチャンクにして委任することで、さらに一歩進んでいます。中央計画エージェントはエージェント・ワークフローを管理し、ワーカー・エージェントはタスクの割り当てられた部分を完了します。

自律的なAI による意思決定とツールの呼び出しが組み合わされることで、2つの側面からの広範な攻撃対象領域が生まれます。ハッカーは、エージェントの動作を操作してツールを悪用させたり、SQLインジェクションなどの従来のベクトルを通じてツール自体を攻撃させたりすることができます。AIエージェント・セキュリティーは、両方のタイプの脅威からエージェントAIシステムを保護することを目的としています。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

エージェント型AI脅威のランドスケープ

エージェント型AIシステムは、大規模言語モデル（LLM）などのスタンドアロンAIモデルや従来のアプリケーションと比較すると、より広範囲の脆弱性を伴います。攻撃者が存在しなくても、エージェント自体が、明確なガードレール、権限、アクセス制御で適切に管理および維持されないと、セキュリティー・リスクを引き起こす可能性があります。

AIエージェントの脅威のランドスケープには以下が含まれています。

攻撃対象領域の拡大

高速な自律的アクション

予測不可能な推論

透明性の欠如

AIエージェント

AIエージェントの5つのタイプ：自律機能と実世界アプリケーション

目標主導型でユーティリティーベースのAIがワークフローや複雑な環境にどのように適応するかをご覧ください。

AIエージェントを構築、展開、監視

攻撃対象領域の拡大

エージェントは、API、データベース、クラウドベースのシステム、さらには他のエージェント（マルチエージェント・システム）を含む大規模なシステムに組み込まれることがよくあります。エージェント・システム内の各要素に、独自の脆弱性スイートが存在します。攻撃者は、エージェント・ワークフローの潜在的な弱点を狙うために、自由に使えるさまざまなツールやエクスプロイトを用意しています。

高速な自律的アクション

エージェントの自動化とは、エージェントが人間のユーザーから明示的な指示を受け取らずに行動することを意味します。エージェントは迅速に行動し、同時に同じことを行っている他のエージェントと連携する場合があります。これらの各エージェントのアクションとアウトプットは、攻撃者がエージェントまたはエージェント・システム全体の侵害に成功した場合の攻撃機会と増幅ベクトルを示します。

予測不可能な推論

推論とは、LLMやエージェントなどの他の生成AIモデルが意思決定を行うプロセスです。つまり、統計的モデリングを使用して、あらゆるインプットに対して最も可能性の高いアウトプットを「推測」します。推論は確率的であるため、モデルの出力は完全には予測できず、エージェントの動作に不確実性が生じます。

そのため、サイバーセキュリティー・プロバイダーは、エージェントが何を行うかを完全に予測することはできません。この予測不可能性により、従来のサイバーセキュリティー技術と比較して、エージェントの脅威軽減の性質が複雑になります。

透明性の欠如

OpenAIのGPTモデルやAnthropicのClaudeなど、多くのAIモデルはオープンソースではありません。モデルの「内部を見て」、モデルがどのように意思決定を行うかを理解することは不可能です。また、モデルが出力に到達する方法という本質的に複雑で不透明な性質を考えると、オープンソース・モデルでさえ完全な透明性を提供することはできません。

エージェント型システムを扱うサイバーセキュリティ担当者は、根本原因分析を実施したり、インシデント対応計画を策定したりするのが難しくなる可能性があります。

エージェント型AIの脆弱性

エージェント上の脅威ランドスケープの多面的な性質により、攻撃者がエクスプロイトできるさまざまな脆弱性が生まれます。

AIエージェントのセキュリティーの脆弱性には次のようなものがあります。

プロンプト・インジェクション

ツールとAPIの操作

データ・ポイズニング

メモリー・ポイズニング

権限の侵害

認証およびアクセス制御のスプーフィング

リモート・コード実行（RCE）攻撃

連鎖的な障害とリソースへの過負荷

プロンプト・インジェクション

プロンプト・インジェクションは、AIエージェントだけでなく、あらゆる大規模言語モデル（LLM）の最も深刻な脆弱性の1つです。しかし、エージェントの場合、エージェントは自律的に行動できるため、リスクが増大します。プロンプト・インジェクション攻撃では、攻撃者は敵対的なインプットをLLMに送り、意図しない方法で動作するよう指示します。エージェントは、安全と倫理のガイドラインを無視したり、フィッシング・メールを送信したり、データを漏洩したり、ツールを悪用したりするように指示される可能性があります。

間接的なプロンプト・インジェクション攻撃は、悪意のあるプロンプトをモデルに直接入力するのではなく、エージェントのデータ・ソースに隠します。エージェントが外部Webサイトなどのデータ・ソースを呼び出すと、悪意のあるプロンプトがモデルに配信されます。複数のデータ型に対応できるマルチモーダル・エージェントは、このタイプの攻撃に対して特に脆弱です。エージェントが処理できるデータのそれぞれの形式が潜在的な攻撃ベクトルになります。

目標操作とエージェント・ハイジャックの比較

目標操作とエージェントのハイジャックは、プロンプト・インジェクション攻撃の望ましい結果であることがよくあります。目標操作により、攻撃者はエージェントがタスクに取り組む方法を微調整し、目標や思考プロセスを変更することで意思決定を行います。エージェント・ハイジャックは、攻撃者がエージェントに機密データへのアクセスなどの意図しないアクションを強制する攻撃です。

ツールとAPIの操作

エージェント型AIは、ツールを使用し、APIに接続する機能で知られています。しかし、この同じ機能は脆弱性でもあります。多くの場合、攻撃者はプロンプト・インジェクションを通じてエージェントをだまして、そのエージェントが接続されているツールを悪用させます。

ツールを誤用すると、エージェントが機密性の高いユーザー・データを攻撃者に漏洩するデータ漏洩や、エージェントが外部接続を武器化するDDoS（分散型サービス拒否）攻撃が発生する可能性があります。このような攻撃では、エージェントがターゲット・ネットワークへの大量の接続要求を調整し、過負荷にして、強制的にシャットダウンします。

データ・ポイズニング

データ・ポイズニングとは、エージェントのトレーニング・データセットまたは外部データソースに悪意のあるデータが導入されることです。データは、エージェントがどのように学習し、推論し、行動するかを決定します。トレーニング・データやインプットが破損すると、データ漏洩などの意図しない動作が発生する可能性があります。

たとえば、コーディング・エージェントは、参照のために外部コード・ライブラリーを呼び出す場合があります。スロップスクワッティング（「AIスロップ」と「タイポ・スクワッティング」の造語）は、誰かが意図的に正規のライブラリに似たコードライブラリ名を登録することです。その目的は、モデルが偽のライブラリーからコードのサブセットを誤って取得し、それを生成されたコードに追加することです。

ツールの誤用と並んで、データ・ポイズニングはサプライチェーンのエクスプロイテーションのコンポーネントです。つまり、攻撃者がAIエージェントを取り巻くシステムに侵入し、破損させます。

メモリー・ポイズニング

メモリー・ポイズニングとは、エージェントの永続メモリー（エージェントが最近実行した内容について情報を供給し続けるために保持するデータ）を破損させることです。メモリー・ポイズニング攻撃は、過去のアクションに関するエージェントの理解を変更することで、エージェントの将来の動作を形成することを目的としています。

権限侵害

自動化されたワークフローの中心にあるエージェントには、割り当てられたタスクに必要なデータやツールにアクセスできるシステム権限があります。エージェントが監視されていない場合、必要を超える過剰な権限が保持または付与される可能性があります。

エージェントがこれらの権限を必要としなくなったときにこれらの権限が削除されない場合、それはもはや価値を追加することはありませんが、依然として潜在的な攻撃ベクトルであることには変わりません。攻撃者はエージェントの権限をエクスプロイトして、メッセージの送信、トランザクションの実行、追加の権限の付与、システムの改ざん、機密データの読み取りなどを行います。

認証とアクセス制御のスプーフィング

攻撃者がエージェントの認証情報を盗むことに成功した場合、それらのエージェントを装い、そのエージェントがアクセス可能なシステムを侵害する可能性があります。エージェントのIDを偽装すると、そのエージェントが持っているものと同じ権限が攻撃者に与えられます。エージェントが実行できることはすべて、不正ユーザーも実行できるようになります。

脆弱な認証プロトコルは機械学習と組み合わせられることで、迅速な横移動につながります。つまり、攻撃者は最初の侵入後に、ネットワークのより奥深くまで移動できます。横移動により、データ窃盗、フィッシング攻撃、マルウェア配布などが発生する可能性が生じます。攻撃者はエージェントの動作方法を調整して、将来のアクションを変更することもできます。

リモートコード実行（RCE）攻撃

リモート・コード実行（RCE）は、攻撃者が悪意のあるコードを別の場所からシステムに挿入するサイバー攻撃の一種です。エージェントを使用すると、攻撃者はエージェントに悪意のあるコードを実行させ、攻撃者がコード実行環境にアクセスできるようになります。一般的な実際の例では、攻撃者が侵害されたエージェントのホスト・システムからユーザー認証情報を抽出します。

連鎖的な障害とリソースへの過負荷

連鎖的な障害とリソースの過負荷はどちらも、エージェント・システムを圧倒します。マルチエージェント・システムでは、侵害されたエージェントの出力がネットワーク内の次のエージェントに悪影響を及ぼし、システム全体がダウンすると、連鎖障害が発生します。

リソースの過負荷はエージェントに対するDDoS攻撃に似ています。攻撃者はスループットを超えるリクエストでエージェントに過負荷となり、ランタイム全体を中断させる可能性があります。エンドユーザーの観点からは、エージェントを利用したアプリケーションがダウンしているように見えます。

AIエージェントのセキュリティー対策

脅威の状況は広範かつ多様ですが、エージェント型AIシステムは効果的な対策とAIガードレールによって保護できます。積極的なセキュリティー体制を採用し、脆弱性管理のベスト・プラクティスに従うことで、MLおよびサイバーセキュリティーの専門家はAIエージェントを保護し、積極的なサイバー犯罪者より一歩先に行くことができます。

AIエージェントのセキュリティのベスト・プラクティスには次のものが含まれます。

ゼロトラスト・アーキテクチャー

最小特権の原則

コンテキスト認識型認証

データ暗号化

マイクロセグメンテーション

プロンプト・ハードニング

迅速な検証

ゼロトラスト・アーキテクチャー

ゼロトラスト・アーキテクチャ（ZTA）は、ネットワーク上のどのデバイスもデフォルトでは信頼できないと想定するサイバーセキュリティーへのアプローチです。代わりに、すべてのネットワーク・アクセス要求が処理を進める前に、認証および許可されなければなりません。継続的な監視と多要素認証（MFA）は、脅威から身を守るのに役立ちます。

ネットワークをWebサイトとして考え、アクセス要求をそのサイトのユーザーとして考えてください。ZTAでは、ログイン画面でチェックボックスを選択して、サイトに「ログイン情報を記憶する」と表示するオプションはありません。ユーザーはログインするたびにパスワードを入力し、他のMFAチャレンジを実行する必要があります。

ZTAは「信頼せず、常に確認する」ことを選択することで、攻撃者の横移動能力を低減し、攻撃対象領域を縮小し、セキュリティーが対応する時間をより多く確保します。

最小特権の原則

最小権限の原則は、ネットワーク内のすべてのデバイスまたはエージェントが、その責任を果たすために必要な可能な限り最小の権限を持つべきであると規定しています。これは、全員とすべてを厳格な「知る必要性」ベースに置くことと同義です。ロール・ベースのアクセス制御（RBAC）と属性ベースのアクセス制御（ABAC）は、権限レベルを維持し、データ・セキュリティーを強化するための2つの方法です。

コンテキスト認識型の認証

コンテキスト認識型認証により、エージェントは、ユーザーがデータへのアクセスを許可している場合にのみデータを取得できます。アクセス権限は、エージェントの役割、権限、さらには時間帯に応じて動的に調整できます。

データ暗号化

最小権限の原則に基づいてアクセスを最小限に抑えることに加えて、暗号化を通じて、侵害されたエージェントからデータをさらに保護できます。転送中と保存中のデータはどちらもAES-256暗号化または同様の方法で暗号化する必要があります。個人を特定できる情報（PII）などの機密情報を含むデータも、従業員と顧客をさらに保護するために匿名化する必要があります。

マイクロセグメンテーション

マイクロセグメンテーションとは、ネットワークと環境を個々のセグメントに分割する設計手法です。エージェントがコードを実行できる場合は、横移動を防ぐために、サンドボックス環境で実行する必要があります。厳格なランタイム制御により、サンドボックス内にエージェントを含める環境がさらに強化されます。

プロンプト・ハードニング

プロンプトの強化とは、誤解の余地がほとんどない厳格で限定的な指示をLLMに与えるAI セキュリティの実践です。MLシステムの設計者は、エージェントを狭い領域に制限することで、エージェントをだまして意図しない動作を実行させる攻撃者の能力を制限できます。

プロンプト・ハードニング技術には、エージェントがその指示を開示しないようにすることや、制限された範囲外にある要求を自動的に拒否することなどが含まれます。

プロンプト検証

プロンプトがエージェントに渡される前に、事前に定義されたルールに照らしてプロンプトをチェックします。プロンプト・サニタイズまたはインプット検証とも呼ばれるこの手法は、エージェントをプロンプト・インジェクション攻撃から切り離すのに役立ちます。同様に、エージェントが侵害された場合に備えて、出力を使用前に検証する必要があります。