ニューラル・ネットワーク、大規模言語モデル(LLM)およびディープラーニングモデルは、トレーニングデータの品質と完全性に大きく依存しており、最終的にはモデルの機能を決定します。このトレーニング・データは、インターネット、官公庁・自治体のデータベース、サードパーティのデータ・プロバイダーなど、さまざまなソースから得ることができます。このようなトレーニング・データセットに不正確な、あるいは偏りのあるデータポイント(汚染されたデータ)を注入することで、悪意のある行為者はモデルの動作を微妙に、あるいは劇的に変化させることができます。
たとえば、ポイズニングによるデータの改ざんは、AIおよびMLシステムの有効性と精度を低下させるデータの誤分類につながる可能性があります。さらにこれらの攻撃は、特にヘルスケアや自動運転車などの産業で、深刻なサイバーセキュリティー・リスクをもたらす可能性があります。
データ・ポイズニング攻撃は、その意図に基づいて、標的型攻撃と非標的型攻撃の2つのカテゴリーに分類できます。
標的型データ・ポイズニング攻撃は、特定の方法でAIモデルのアウトプットを操作します。たとえばサイバー犯罪者は、ChatGPTなどのチャットボットや生成AI(gen AI)アプリケーションに汚染されたデータを挿入して、その応答を変更する可能性があります。同様に、サイバーセキュリティのシナリオでは、マルウェアを検知するように設計されたモデルに攻撃者が汚染されたデータを導入し、特定の脅威を見逃す可能性があります。
標的型攻撃は、モデルの動作を攻撃者にメリットを与えるように操作し、システムに新たな脆弱性を生み出す可能性があります。
データ・ポイズニング攻撃には、ラベル・フリッピング、データ・インジェクション、バックドア攻撃、クリーンラベル攻撃など、さまざまな形態があります。各タイプは、AIモデルの機能の異なる側面を対象としています。
ラベル・フリッピング攻撃では、悪意のある行為者がトレーニング・データ内のラベルを操作し、正しいラベルと誤ったラベルを交換します。シカゴ大学で開発されたAIポイズニング・ツール、Nightshadeについて考えてみましょう。Nightshadeは、デジタル・アーティストが画像をオンラインにアップロードする前に、画像のピクセルを微妙に変更することを可能にします。AI企業が生成AIモデルをトレーニングするためにオンライン・データセットを収集すると、変更された画像によりトレーニング・プロセスが中断されます。この改ざんにより、AIモデルは分類を誤ったり、予測不可能な動作をしたりする可能性があり、時には牛の画像を革袋と間違えることもあります。1
データ・インジェクションは、多くの場合、AIモデルの動作を特定の方向に導くために、構築されたデータポイントをトレーニング・データセットに導入します。よくある例は、攻撃者がインプットフィールドに「1=1」または「=」を追加するSQLインジェクションです。この悪意のあるデータを SQLクエリに含めると、クエリの意味が変わり、1つのレコードではなくすべてのレコードが返されます。2同様に、機械学習モデルでは、データ注入によってモデルの意思決定が操作される可能性があります。これにより、モデルが誤って分類されたり、偏りが生じたりして、データの整合性とモデル全体の堅牢性が損なわれる可能性があります。
バックドア攻撃は、音声に聞き取れないバックグラウンド・ノイズを加えたり、画像に知覚できない透かしを入れたりするなど、微妙な改ざんを導入するため危険です。これにより、ほとんどの状況でAIシステムは正常に機能します。ただし、特定のトリガー・インプットに遭遇した場合、モデルは攻撃者にメリットをもたらす方法で動作します。トレーニング・データやアルゴリズムへのアクセスがあまり制限されていないオープンソース・モデルの場合、これらの攻撃は特に有害となる可能性があります。ReversingLabsは、2020年から2023年にかけて、オープンソース・リポジトリーを通じた脅威が1300%以上増加したと報告しています。3
クリーンラベル攻撃では、攻撃者は検知が困難な方法でデータを変更します。主要な特徴は、汚染されたデータが正しくラベル付けされているように見えるため、従来のデータ検証方法では特定するのが困難であるということです。これらの攻撃は、最新の機械学習およびディープラーニング・システムの複雑さを利用しており、一見無害に見える小さな変化にフラグを立てることができません。クリーンラベル攻撃は最もステルス性の高い攻撃の1つであり、AIモデルを歪んだアウトプットやモデル機能の低下に対して脆弱にします。
データ・ポイズニングとプロンプト・インジェクションはAIライフサイクルの異なる段階をターゲットにしていますが、モデル入力の脆弱性をエクスプロイトするという共通の目標があります。データ・ポイズニングは、トレーニング・データセットを操作し、モデルの学習プロセスと長期的な機能を損なう可能性のある破損したデータや悪意のあるデータを埋め込みます。対照的に、プロンプト・インジェクションは悪意のある入力を正当なプロンプトとして偽装し、生成AIシステムを操作して機密データを漏洩させたり、誤った情報を拡散させたり、さらに悪い事態を引き起こしたりします。
ハッカーは、これらのストラテジーを個別にデプロイすることも、連携させてデプロイすることもでき、その影響力を増幅できます。例えば、組織のシステムにアクセスできるインサイダーは、理論的には、検証対策を回避し、歪んだデータや偏ったデータを埋め込むことでトレーニング・データセットを汚染する可能性があります。その後インサイダーは、プロンプト・インジェクションを実行し、汚染されたデータをアクティブ化し、悪意のある動作をトリガーすることで、侵害されたシステムをエクスプロイトすることができます。これには、機密情報の漏洩、さらなる敵対的攻撃のためのバックドアの作成、システムの意思決定機能の弱体化などが含まれます。
データ・ポイズニングはAIモデルやMLモデルに幅広い影響を及ぼす可能性があり、セキュリティーとモデル全体の性能の両方に影響を与えます。
汚染されたトレーニング・データセットは、機械学習がインプットを誤分類する原因となり、AIモデルの信頼性と機能を損なう可能性があります。消費者向けのアプリケーションでは、これは顧客の信頼とエクスペリエンスを損なう不正確なおすすめの原因となる可能性があります。同様に、サプライチェーン・マネジメントにおいても、汚染されたデータは、予測の誤り、遅延、エラーを引き起こし、モデルの性能とビジネスの有効性の両方に損害を与える可能性があります。このような誤分類は、トレーニング用データの脆弱性を露呈し、AIシステム全体の堅牢性を損なう可能性があります。
データ・ポイズニングは、AIシステム内の既存のバイアスを増幅させる可能性もあります。攻撃者は、特定の人口統計などの特定のデータのサブセットをターゲットにして、偏ったインプットを導入することができます。これにより、AIモデルの動作が不公平または不正確になることがあります。例えば、偏ったデータまたは汚染されたデータでトレーニングされた顔認識モデルは、特定のグループの人々を誤って識別し、差別的な結果につながる可能性があります。この種の攻撃は、採用の決定から法執行機関の監視に至るまで、さまざまな用途にわたるMLモデルの公平性と精度の両方に影響を与える可能性があります。
データ・ポイズニングは、ハッカーがモデルのトレーニング・データをリバース・エンジニアリングしようとする反転攻撃など、より高度な攻撃への扉を開く可能性があります。攻撃者がトレーニング・データの汚染に成功すると、これらの脆弱性をさらに利用して、より多くの敵対的攻撃を開始したり、バックドア・アクションをトリガーしたりすることができます。医療診断やサイバーセキュリティなどの機密タスク向けに設計されたシステムでは、これらのセキュリティリスクは特に危険な場合があります。
データ・ポイズニング攻撃から防御するために、組織は、トレーニング・データセットの整合性を確保し、モデルの堅牢性を向上させ、AIモデルを継続的に監視するためのストラテジーを導入できます。
敵対的トレーニングは、データ・ポイズニングやその他のタイプの攻撃から防御するための事前対応型の方法です。開発者は、敵対的な例をトレーニング・モデルに意図的に導入することで、汚染されたデータを認識して抵抗するようにモデルを教育し、改ざんに対する堅牢性を向上させることができます。自動運転車やAIセキュリティーなどのリスクの高いアプリケーションの場合、敵対的トレーニングはAIとMLモデルをより堅牢で信頼できるものにするための重要なステップです。
AIシステムを導入した後は、継続的に監視して、データ・ポイズニング攻撃を示す可能性のある異常な動作を検知できます。パターン認識アルゴリズムなどの異常検知ツールは、セキュリティー・チームがインプットとアウトプットの両方の不一致を特定し、システムが侵害された場合に迅速に対応するのに役立ちます。ChatGPTなどの生成AIアプリケーションでは、トレーニング・データやモデルの動作をリアルタイムで更新することが不正使用を防ぐために特に重要であるため、継続的な監査が特に重要になります。異常が検知された場合、さらなる被害を防ぐために、モデルを一時停止または再評価することができます。
厳格なアクセス制御の実施は、データ・ポイズニングのリスクを軽減するためのもう1つのストラテジーです。トレーニング・データセットとリポジトリーを変更できるユーザーを制限すると、不正な改ざんのリスクを軽減できます。また、暗号化などのセキュリティ対策を組み込むことで、データソースやAIシステムを外部からの攻撃から保護することができます。ヘルスケアやサイバーセキュリティーのようなリスクの高い環境では、厳格なセキュリティ管理が機械学習モデルの安全性と信頼性を確保するのに役立ちます。
1What is Nightshade、シカゴ大学、2024年。
2SQL Injection、W3 Schools。
3Key Takeaways from the 2024 State of SSCS Report、ReversingLabs、2024年1月16日。
IBM watsonx.governanceを使用すれば、生成AIモデルをあらゆる場所から管理したり、クラウドまたはオンプレミスにデプロイしたりできます。
複数の環境にまたがるデータを保護し、プライバシー規制を満たし、複雑な運用を簡素化します。
IBMは、エンタープライズ・データ、アプリケーション、AIを保護するための包括的なデータ・セキュリティー・サービスを提供します。