イノベーションにおける、受け入れ難い真実の一つ:テクノロジーが進歩すればするほど、それを使用するリスクも高まります。
たとえば、データ収集と分析を強化するツールでは、個人データや機密情報が適切ではない場所に表示される可能性も高まります。
この特定のリスクであるプライバシーリスクは、人工知能(AI)の時代に特に蔓延しており、機密情報がAIおよび機械学習システムの作成とファイン・チューニングの際に収集・使用されていることが要因です。そして、政策立案者がAIの使用に関するプライバシー規制の問題への取り組みを急ぐ中、意思決定にAIテクノロジーを使用する企業にコンプライアンス関連の新たな課題を生み出しています。
プライバシーやコンプライアンスに関する懸念にもかかわらず、企業は生産性を高め、価値を引き出すためにAIモデルのデプロイを進めています。今日の社会と商取引に影響を与えるAIプライバシーのリスクと保護策について詳しく見てみましょう。
AIプライバシーとは、AIによって収集、使用、共有、または保管される個人情報や機密情報を保護することです。
AIプライバシーはデータ・プライバシーと密接に関連していますデータ・プライバシー(情報プライバシーとも呼ばれる)は、個人が自分の個人データを制御できるべきであるという原則です。この制御には、組織がデータをどのように収集、保管、使用するかを決定する機能が含まれます。しかし、データ・プライバシーの概念はAIよりも前から存在し、データ・プライバシーに対する人々の考え方はAIの出現とともに進化してきました。
「10年前、ほとんどの人がデータ・プライバシーについてオンライン・ショッピングの観点から考えていました。スタンフォード大学人間中心人工知能研究所のJennifer King研究員は、同研究所のウェブサイトに掲載されたインタビューで、「企業が私が買ったり探したりしているものを把握していても気になりません。役立つ場合もあるので」と説明しました。1
「しかし今は、企業がAIシステムをトレーニングするこのユビキタスなデータ収集に移行している時代です。これは社会全体、特に公民権に大きな影響を与える可能性があります」とKing氏は言います。
AIのプライバシーに関する懸念は、データ収集、サイバーセキュリティー、モデル設計、ガバナンスに関する問題に起因することがよくあります。このようなAIプライバシー・リスクには、次のようなものがあります。
AIがそれ以前の技術的進歩よりも大きなデータ・プライバシー・リスクをもたらすとされている理由の1つは、やり取りする情報の量が膨大であることです。テラバイトやペタバイト単位のテキスト、画像、動画がトレーニング・データとして日常的に含まれ、そのデータには必然的に機密性が高いものも一部含まれます。たとえば、医療情報、ソーシャル・メディア・サイトの個人データ、個人の金融データ、顔認識に使用される生体認証データなどです。かつてないほど機密データが収集、保管、送信される中、その一部がプライバシーの権利を侵害する形で公開またはデプロイされる確率が高まっています。
データ収集の対象である人々による明示的な同意や知識なしに、AI開発を目的としてデータが調達される場合、問題が生じる可能性があります。Webサイトやプラットフォームの場合、ユーザーは自分のデータに対する自律性の向上や、データ収集に関する透明性の向上をますます期待しています。こうした期待が表面化したのは最近、プロフェッショナル・ネットワーキング・サイトのLinkedInで、生成AIモデルのトレーニングに、ユーザーのデータを自動的に使用できるように最適化されていたことに一部のユーザーが気づき、同サイトに反発したためです。2
個人の同意を得てデータを収集した場合でも、そのデータが最初に開示された目的以外の目的に使用される場合、プライバシーリスクが潜んでいます。「一つの目的のために共有または投稿した履歴書や写真などのデータが、多くの場合、私たちが認識していない、または同意がない状況で、AIシステムのトレーニングに転用されています」とKing氏は言います。たとえば、カリフォルニアでは、元外科患者が、自分の治療に関連する写真がAIトレーニングデータ・セットで使用されていたことを発見したと報告されています。患者は、医師が写真を撮影することについては同意書に署名したが、データ・セットに含めることには署名していないと主張しました。3
公共道路の防犯カメラや個人コンピューター上のクッキーの追跡など、広範でチェックされない監視に関連するプライバシー上の懸念は、AIが普及するよりもかなり前に浮上しました。しかし、AIモデルは監視データの分析に使用されるため、AIがこうしたプライバシーに関する懸念を悪化させる可能性があります。時として、特にバイアスがある場合には、このような分析の結果が有害となることがあります。たとえば、法執行の分野では、有色人種の人々に対する多数の不当逮捕が、AIを利用した意思決定と関連していると考えられています。4
AIモデルには、攻撃者にとって魅力的な機密データが大量に含まれています。IBMセキュリティ・ディスティンバーティング・エンジニアであるJeff Crumeは、最近公開されたIBMテクノロジーの動画(リンクはoutside ibm.comにあります)で「この[データ]は最終的に目立つ標的となり、誰かが攻撃しようとするでしょう」と説明しました。悪意のある攻撃者は、さまざまな戦略を通じてAIアプリケーションからこのようなデータの持ち出し(データの窃盗)を行う可能性があります。たとえば、プロンプト・インジェクション攻撃では、ハッカーは悪意のあるインプットを正当なプロンプトとして偽装し、生成AIシステムを操作して機密データを公開します。たとえば、ハッカーが適切なプロンプトを使用すると、LLMを搭載したバーチャル・アシスタントをだましてプライベート・ドキュメントを転送させる可能性があります。
データ漏洩とは、機密データが偶発的に公開されることであり、一部のAIモデルはこのようなデータ侵害に対して脆弱であることが判明しています。記事の見出しになるような事例ですが、OpenAI社の大規模言語モデル(LLM)であるChatGPTは、一部のユーザーに他のユーザーの会話履歴のタイトルを表示しました。5 小規模な独自のAIモデルにもリスクが存在します。たとえば、顧客のデータに基づいて社内向けのAI搭載診断アプリを構築する医療系企業について考えてみましょう。そのアプリは、意図せずに特定のプロンプトを使用した顧客に、他の顧客の個人情報を漏洩する可能性があります。このような意図しないデータ共有でさえ、深刻なプライバシー侵害につながる可能性があります。
技術の進歩によって個人のプライバシーが損なわれるのを防ごうとする政策立案者の取り組みは、少なくとも1970年代までさかのぼります。しかし、商業化されたデータ収集の急速な増加とAIのデプロイメントにより、データ・プライバシー法の制定に新たな緊急性が生じました。このような法律には以下が含まれます。
GDPRは、個人データを扱う際に管理者と処理者が従わなければならないいくつかの原則を定めています。目的制限の原則に基づき、企業は収集するデータについて特定の合法的な目的を念頭に置く必要があります。その目的をユーザーに伝え、データ収集をその目的に必要な最小限のデータに限定する必要があります。
企業はまた、データを公正に使用しなければなりません。ユーザーには個人データの処理について常に通知し、データ保護規則に従う必要があります。保管制限の原則に基づき、企業は目的が達成されるまでの間に限り個人データを保管するべきです。データは、不要になったら削除しなくてはなりません。
AIに関する世界初の包括的な規制の枠組みと考えられているEU AI法は、一部のAIの使用を完全に禁止し、その他については厳格なガバナンス、リスク管理、透明性の要件を定めています。
EU AI法は、AIのプライバシーに関する個別の禁止事項を特に定めてはいませんが、データの使用制限を課しています。禁止されているAIの利用には、以下のようなものがあります。
高リスクのAIシステムは、厳格なデータ・ガバナンス手法を採用して、トレーニング、検証、テスト用データが特定の品質基準を満たすことを保証するなど、特定の要件に準拠する必要があります。
近年、米国の複数の管轄区域でデータ・プライバシーに関する法律が施行されています。例としては、California Consumer Privacy Actやテキサス州データ・プライバシー・セキュリティ法などが挙げられます。2024年3月、ユタ州はAIの使用を具体的に統制する最初の主要な州法と考えられるArtificial Intelligence and Policy Actを制定しました。
連邦レベルでは、米国政府はまだ新しい全国規模のAI・データ・プライバシー法を施行していません。しかし、2022年に大統領府科学技術政策局(OSTP)は「Blueprint for an AI Bill of Rights(AI権利章典の青写真)」を発表しました。この非拘束型フレームワークでは、AI開発の指針となる5つの原則を規定しています。このフレームワークには、AI専門家がデータの使用について個人の同意を求めるよう奨励するデータ・プライバシー専門セクションがあります。
中国は、AI規制を最初に制定した国または地域の一つです。中国は2023年に生成AIサービスの管理に関する暫定措置を公布しました。同法では、生成AIサービスの提供と使用は「他者の正当な権利と利益を尊重」しなければならず「他者の心身の健康を危険にさらさず、他者の肖像権、名誉権、プライバシー権、個人情報権を侵害しない」ことが定められています。6
組織は、規制を遵守し、利害関係者との信頼を構築するために、AIプライバシーに関するアプローチを考案できます。7OSTPからの推奨事項には、以下が含まれます。
プライバシー・リスクは、AIシステムの開発ライフサイクル全体を通じて評価し、対処する必要があります。これらのリスクには、システムのユーザーではないものの、高度なデータ分析を通じて個人情報が推測される可能性のある人物に対する、潜在的な有害性が含まれる可能性があります。
組織は、トレーニングデータの収集を、合法的に収集でき、「データ収集対象である人々の想定に沿って」使用できるものに限定する必要があります。このようなデータの最小化に加えて、企業はデータ保持のタイムラインも確立し、できるだけ早くデータを削除することを目標にする必要があります。
組織は、データに対する「同意、アクセス、制御」の仕組みを一般市民に提供すべきです。データ収集を促したユースケースが変更された場合は、同意を再取得する必要があります。
組織がAIを使用する場合、データやメタデータの漏洩を避けるために、ベスト・プラクティスに従う必要があります。このような慣行には、暗号化、匿名化、アクセス制御の仕組みの利用が含まれる場合があります。
特定のドメインからのデータは追加の保護の対象となり、「狭い定義のコンテキスト」でのみ使用される必要があります。これらの「機密領域」には、健康、雇用、教育、刑事司法、個人金融などがあります。子供によって生成されたデータ、または子供に関するデータは、たとえリストに記載されているドメインのいずれにも該当しない場合でも、機密情報とみなされます。
組織は、どのデータがAIシステムで使用されているかを知ることに関する、個人の要求に応じる必要があります。組織はまた、人々のデータがどのように使用、アクセス、保管されているかについての一般的な概要レポートを積極的に一般に提供する必要があります。機密領域からのデータに関して、組織はデータ漏洩を引き起こしたセキュリティー違反や侵害についても報告する必要があります。
データ・ガバナンスツールとプログラムは、企業がOSTPの推奨事項やその他のAIプライバシーのベスト・プラクティスに従うのに役立ちます。企業は、次の目的でソフトウェア・ツールをデプロイできます。
AIとデータ・プライバシーに関する法律が進化する中、新しいテクノロジー・ソリューションにより、企業は規制の変更に対応し、規制当局が監査を要求した場合に備えることができます。最新のソリューションにより、規制変更の特定と執行可能なポリシーへの変換を自動化します。
1 “Privacy in an AI Era: How Do We Protect Our Personal Information?” Stanford University Institute of Human-Centered Artificial Intelligence. 18 March 2024.
2 “LinkedIn Is Quietly Training AI on Your Data—Here's How to Stop It.” PCMag. 18 September 2024.
3 “Artist finds private medical record photos in popular AI training data set.” Ars Technica。21 September 2022.
4「When Artificial Intelligence Gets It Wrong.」Innocence Project。19 September 2023.
5 “OpenAI CEO admits a bug allowed some ChatGPT users to see others’ conversation titles.” CNBC. 17 April 2023.
6 Interim Measures for the Administration of Generative Artificial Intelligence Services, Cyberspace Administration of China. 13 July 2023.
7 “Blueprint for an AI Privacy Bill of Rights.” The White House Office of Science and Technology Policy. Accessed 19 September 2024.