データ・ポイズニングとは何か？

共同執筆者

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

データ・ポイズニングとは

データ・ポイズニングとは、脅威アクターが人工知能（AI）および機械学習（ML）モデルの開発に使用されるトレーニングデータを操作または破損するタイプのサイバー攻撃です。

ニューラル・ネットワーク、大規模言語モデル（LLM）およびディープラーニングモデルは、トレーニングデータの品質と完全性に大きく依存しており、最終的にはモデルの機能を決定します。このトレーニング・データは、インターネット、官公庁・自治体のデータベース、サードパーティのデータ・プロバイダーなど、さまざまなソースから得ることができます。このようなトレーニング・データセットに不正確な、あるいは偏りのあるデータポイント（汚染されたデータ）を注入することで、悪意のある行為者はモデルの動作を微妙に、あるいは劇的に変化させることができます。

たとえば、ポイズニングによるデータの改ざんは、AIおよびMLシステムの有効性と精度を低下させるデータの誤分類につながる可能性があります。さらにこれらの攻撃は、特にヘルスケアや自動運転車などの産業で、深刻なサイバーセキュリティー・リスクをもたらす可能性があります。

Thinkニュースレター

あなたのチームは時間内に次のゼロデイを受け入れますか？

AI、サイバーセキュリティ、データ、自動化に関する厳選されたニュースをThinkニュースレターで購読しているセキュリティリーダーに加わりましょう。専門家によるチュートリアルと解説をメールで直接配信することで、手軽に学ぶことができます。IBMプライバシー・ステートメントをご覧ください。

標的型攻撃と非標的型攻撃の比較

データ・ポイズニング攻撃は、その意図に基づいて、標的型攻撃と非標的型攻撃の2つのカテゴリーに分類できます。

標的型攻撃

標的型データ・ポイズニング攻撃は、特定の方法でAIモデルのアウトプットを操作します。たとえばサイバー犯罪者は、ChatGPTなどのチャットボットや生成AI（gen AI）アプリケーションに汚染されたデータを挿入して、その応答を変更する可能性があります。同様に、サイバーセキュリティのシナリオでは、マルウェアを検知するように設計されたモデルに攻撃者が汚染されたデータを導入し、特定の脅威を見逃す可能性があります。

標的型攻撃は、モデルの動作を攻撃者にメリットを与えるように操作し、システムに新たな脆弱性を生み出す可能性があります。

非標的型攻撃

非標的型攻撃は、モデルの一般的な堅牢性を低下させることに焦点を当てています。特定のアウトプットを攻撃するのではなく、データを正しく処理するモデルの能力を弱めることを目標としています。たとえば、自動運転車では、ターゲットを絞らないデータ・ポイズニングにより、システムがセンサーからのインプットを誤って解釈し、「一時停止」標識を「速度を落とせ」標識と誤って解釈する可能性があります。こうした種類の攻撃により、 AIモデルは敵対的攻撃をさらに受けやすくなり、攻撃者はモデルの意思決定プロセスにおける小さな、多くの場合は気づかれないような欠陥を悪用しようとします。

データ・ポイズニング攻撃の種類

データ・ポイズニング攻撃には、ラベル・フリッピング、データ・インジェクション、バックドア攻撃、クリーンラベル攻撃など、さまざまな形態があります。各タイプは、AIモデルの機能の異なる側面を対象としています。

ラベル・フリッピング

ラベル・フリッピング攻撃では、悪意のある行為者がトレーニング・データ内のラベルを操作し、正しいラベルと誤ったラベルを交換します。シカゴ大学で開発されたAIポイズニング・ツール、Nightshadeについて考えてみましょう。Nightshadeは、デジタル・アーティストが画像をオンラインにアップロードする前に、画像のピクセルを微妙に変更することを可能にします。AI企業が生成AIモデルをトレーニングするためにオンライン・データセットを収集すると、変更された画像によりトレーニング・プロセスが中断されます。この改ざんにより、AIモデルは分類を誤ったり、予測不可能な動作をしたりする可能性があり、時には牛の画像を革袋と間違えることもあります。¹

データ・インジェクション

データ・インジェクションは、多くの場合、AIモデルの動作を特定の方向に導くために、構築されたデータポイントをトレーニング・データセットに導入します。よくある例は、攻撃者がインプットフィールドに「1=1」または「=」を追加するSQLインジェクションです。この悪意のあるデータを SQLクエリに含めると、クエリの意味が変わり、１つのレコードではなくすべてのレコードが返されます。²同様に、機械学習モデルでは、データ注入によってモデルの意思決定が操作される可能性があります。これにより、モデルが誤って分類されたり、偏りが生じたりして、データの整合性とモデル全体の堅牢性が損なわれる可能性があります。

バックドア攻撃

バックドア攻撃は、音声に聞き取れないバックグラウンド・ノイズを加えたり、画像に知覚できない透かしを入れたりするなど、微妙な改ざんを導入するため危険です。これにより、ほとんどの状況でAIシステムは正常に機能します。ただし、特定のトリガー・インプットに遭遇した場合、モデルは攻撃者にメリットをもたらす方法で動作します。トレーニング・データやアルゴリズムへのアクセスがあまり制限されていないオープンソース・モデルの場合、これらの攻撃は特に有害となる可能性があります。ReversingLabsは、2020年から2023年にかけて、オープンソース・リポジトリーを通じた脅威が1300%以上増加したと報告しています。³

クリーンラベル攻撃

クリーンラベル攻撃では、攻撃者は検知が困難な方法でデータを変更します。主要な特徴は、汚染されたデータが正しくラベル付けされているように見えるため、従来のデータ検証方法では特定するのが困難であるということです。これらの攻撃は、最新の機械学習およびディープラーニング・システムの複雑さを利用しており、一見無害に見える小さな変化にフラグを立てることができません。クリーンラベル攻撃は最もステルス性の高い攻撃の1つであり、AIモデルを歪んだアウトプットやモデル機能の低下に対して脆弱にします。

データ・ポイズニングとプロンプト・インジェクション

データ・ポイズニングとプロンプト・インジェクションはAIライフサイクルの異なる段階をターゲットにしていますが、モデル入力の脆弱性をエクスプロイトするという共通の目標があります。データ・ポイズニングは、トレーニング・データセットを操作し、モデルの学習プロセスと長期的な機能を損なう可能性のある破損したデータや悪意のあるデータを埋め込みます。対照的に、プロンプト・インジェクションは悪意のある入力を正当なプロンプトとして偽装し、生成AIシステムを操作して機密データを漏洩させたり、誤った情報を拡散させたり、さらに悪い事態を引き起こしたりします。

データ・ポイズニングの例

標的型データ・ポイズニング：ハッカーは、マルウェアのサンプルを安全であるとラベリングすることで、サイバーセキュリティ・モデルのトレーニング・データを汚染し、モデルが特定の脅威を無視するように仕向けます。
非標的型データ・ポイズニング：悪意のある行為者が偏ったデータをスパム・フィルターのトレーニング・データセットに注入し、全体的な精度と信頼性を低下させます。

プロンプト・インジェクションの例

直接プロンプト・インジェクション：ハッカーは、チャットボットのインタラクションにコマンドを埋め込んで、ガードレールを回避し、機密性の高いアカウントの詳細を明らかにします。
間接プロンプト・インジェクション：攻撃者は、AIアシスタントに出力されたフィッシング・リンクを表示させる指示をウェブページに隠します。

ハッカーは、これらのストラテジーを個別にデプロイすることも、連携させてデプロイすることもでき、その影響力を増幅できます。例えば、組織のシステムにアクセスできるインサイダーは、理論的には、検証対策を回避し、歪んだデータや偏ったデータを埋め込むことでトレーニング・データセットを汚染する可能性があります。その後インサイダーは、プロンプト・インジェクションを実行し、汚染されたデータをアクティブ化し、悪意のある動作をトリガーすることで、侵害されたシステムをエクスプロイトすることができます。これには、機密情報の漏洩、さらなる敵対的攻撃のためのバックドアの作成、システムの意思決定機能の弱体化などが含まれます。

AIモデルに対するデータ・ポイズニングの影響

データ・ポイズニングはAIモデルやMLモデルに幅広い影響を及ぼす可能性があり、セキュリティーとモデル全体の性能の両方に影響を与えます。

誤分類とパフォーマンスの低下

汚染されたトレーニング・データセットは、機械学習がインプットを誤分類する原因となり、AIモデルの信頼性と機能を損なう可能性があります。消費者向けのアプリケーションでは、これは顧客の信頼とエクスペリエンスを損なう不正確なおすすめの原因となる可能性があります。同様に、サプライチェーン・マネジメントにおいても、汚染されたデータは、予測の誤り、遅延、エラーを引き起こし、モデルの性能とビジネスの有効性の両方に損害を与える可能性があります。このような誤分類は、トレーニング用データの脆弱性を露呈し、AIシステム全体の堅牢性を損なう可能性があります。

偏りと歪んだ意思決定

データ・ポイズニングは、AIシステム内の既存のバイアスを増幅させる可能性もあります。攻撃者は、特定の人口統計などの特定のデータのサブセットをターゲットにして、偏ったインプットを導入することができます。これにより、AIモデルの動作が不公平または不正確になることがあります。例えば、偏ったデータまたは汚染されたデータでトレーニングされた顔認識モデルは、特定のグループの人々を誤って識別し、差別的な結果につながる可能性があります。この種の攻撃は、採用の決定から法執行機関の監視に至るまで、さまざまな用途にわたるMLモデルの公平性と精度の両方に影響を与える可能性があります。

セキュリティーの脆弱性とバックドアの脅威

データ・ポイズニングは、ハッカーがモデルのトレーニング・データをリバース・エンジニアリングしようとする反転攻撃など、より高度な攻撃への扉を開く可能性があります。攻撃者がトレーニング・データの汚染に成功すると、これらの脆弱性をさらに利用して、より多くの敵対的攻撃を開始したり、バックドア・アクションをトリガーしたりすることができます。医療診断やサイバーセキュリティなどの機密タスク向けに設計されたシステムでは、これらのセキュリティリスクは特に危険な場合があります。

データ・ポイズニングのリスクの軽減

データ・ポイズニング攻撃から防御するために、組織は、トレーニング・データセットの整合性を確保し、モデルの堅牢性を向上させ、AIモデルを継続的に監視するためのストラテジーを導入できます。

データ検証とサニタイズ

データ・ポイズニングに対する基本的な防御ストラテジーは、トレーニング・データを使用する前に検証し、サニタイズすることです。トレーニング段階でデータ検証プロセスを実装すると、疑わしいデータ・ポイントや破損したデータ・ポイントがモデルに悪影響を及ぼす前に、特定して削除できるようになります。この手順は、特に整合性を維持するのが難しいオープンソースのデータソースやモデルを使用する場合に、悪意のあるデータが AI システムに侵入するのを防ぐために不可欠です。

敵対的トレーニングと堅牢性の向上

敵対的トレーニングは、データ・ポイズニングやその他のタイプの攻撃から防御するための事前対応型の方法です。開発者は、敵対的な例をトレーニング・モデルに意図的に導入することで、汚染されたデータを認識して抵抗するようにモデルを教育し、改ざんに対する堅牢性を向上させることができます。自動運転車やAIセキュリティーなどのリスクの高いアプリケーションの場合、敵対的トレーニングはAIとMLモデルをより堅牢で信頼できるものにするための重要なステップです。

継続的な監視と異常検知

AIシステムを導入した後は、継続的に監視して、データ・ポイズニング攻撃を示す可能性のある異常な動作を検知できます。パターン認識アルゴリズムなどの異常検知ツールは、セキュリティー・チームがインプットとアウトプットの両方の不一致を特定し、システムが侵害された場合に迅速に対応するのに役立ちます。ChatGPTなどの生成AIアプリケーションでは、トレーニング・データやモデルの動作をリアルタイムで更新することが不正使用を防ぐために特に重要であるため、継続的な監査が特に重要になります。異常が検知された場合、さらなる被害を防ぐために、モデルを一時停止または再評価することができます。

アクセス制御とセキュリティー対策

厳格なアクセス制御の実施は、データ・ポイズニングのリスクを軽減するためのもう1つのストラテジーです。トレーニング・データセットとリポジトリーを変更できるユーザーを制限すると、不正な改ざんのリスクを軽減できます。また、暗号化などのセキュリティ対策を組み込むことで、データソースやAIシステムを外部からの攻撃から保護することができます。ヘルスケアやサイバーセキュリティーのようなリスクの高い環境では、厳格なセキュリティ管理が機械学習モデルの安全性と信頼性を確保するのに役立ちます。

2025年データ侵害のコストに関する調査

データ侵害のコストは過去最高を記録しています。サイバーセキュリティーの脅威と、それが組織に与える財務的影響について、最新の洞察を得ましょう。

脚注

¹What is Nightshade、シカゴ大学、2024年。

²SQL Injection、W3 Schools。

³Key Takeaways from the 2024 State of SSCS Report、ReversingLabs、2024年1月16日。

データ・ポイズニングとは何か