AIと機械学習のデータ・プライバシー・ガイド

公開日 2025年12月16日

南京錠とチェックマークのアイコンが表示されたタブレットでデジタルデータを保護する人

By David Zax

一般にデータ・プライバシーは長年の課題ですが、「AIデータ・プライバシー」という用語は、人工知能という新興テクノロジーが新たなリスクとプライバシー上の懸念を伴うことを示しています。

トレーニング中、AIシステムは膨大なデータ・セットから学習します。多くのモデルが学習に使用するCommon Crawlデータ・セットには、9.5ペタバイトを超えるデータが含まれています。¹日常的にAIを使用している多くの人は、自身のプライバシーが損なわれることに十分気付かないまま、機微なデータをシステムに入力している可能性もあります。また、AIの導入がAIエージェントの時代へと広がるにつれ、適切なアクセス制御やAIガバナンスがなければ、新たな種類のプライバシー侵害が起こり得ます。

変化するリスク環境

AIモデルはより多くのデータを処理するだけでなく、従来型システムとは異なる方法でデータを扱います。従来のソフトウェアが誤って機密情報を漏えいさせた場合、エンジニアはコードをデバッグして修正できます。しかしAIモデル（ChatGPTのような大規模言語モデルを含む）は、コードで記述するというより、機械学習と呼ばれるプロセスを通じて進化するように作られます。その仕組みを作成者自身が正確に把握しているわけではないため、「デバッグ」は対応が難しく、不可能な場合もあります。

意図しない出力は懸念事項の1つですが、組織は意図的で悪意のある攻撃にも警戒する必要があります。研究者は、AIツールには巧妙なハッカーが悪用できる新たな種類の脆弱性が含まれることを示しており、この分野は敵対的機械学習と呼ばれています。

例えば近年では、サイバーセキュリティーの専門家が、AIモデルのある特性を悪用することで、特定のデータがトレーニング・セットに含まれていたかどうかを推測できることを示しています。その特性とは、学習したデータに応答する場合に、出力により高い確信度スコアが付与されるという点です。状況によっては、こうした推測は重大なプライバシー侵害となります。例えば、HIV陽性患者の非公開の医療記録で学習したことが分かっているAIモデルがあるとします。

別の有名な事例では、研究者はデータがトレーニング・セットに含まれていたかどうかを推測するだけにとどまりませんでした。研究者は、モデルの学習に使用された実データを実質的に逆解析できるアルゴリズム攻撃を作り出しました。AIモデルの“勾配”と呼ばれる側面を悪用することで、研究者はノイズが混ざった画像を反復的に改善し、顔認識モデルの学習に使用された実際の顔に近い画像へと近づけることができました。²

データ保護を巡るリスクは依然として高い状況です。IBMの2025年データ侵害のコストに関する調査では、こうした侵害の平均コストはUSD 440万とされています。（こうした侵害は、ブランドに対する社会的信頼の毀損という、定量化しにくいコストも伴います。）

これらのデータ侵害の多くはAIが原因ではありませんが、AIが関与する事例は増加しています。Stanfordの2025 AI Index Reportでは、AIのプライバシーおよびセキュリティー関連インシデントが1年で56.4％増加し、2024年には233件が報告されたとしています。³

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

変化する規制環境

世界各国の政策立案者は、AI技術が基本的なプライバシー保護の責務から決して免除されるべきではないとしています。個人データの取り扱いに関する基準として長年位置付けられてきた欧州連合（EU）の一般データ保護規則（GDPR）は、企業のAIシステム利用にも適用されます。GDPRの原則には、データ最小化（目的に必要な最小限のデータのみを収集すること）、透明性（データの利用方法を利用者に通知すること）、保管制限（必要以上にデータを保持しないこと）などがあります。

2024年は、AIアプリケーションに関わる事案で、複数の規制当局がプライバシー法の執行を開始した節目の年でした。

例えば2024年、アイルランドのデータ保護委員会は、ソーシャルメディア・ネットワークLinkedInに対し、AIに関連するプライバシー違反を理由に3億1,000万ユーロの制裁金を科しました。LinkedInは、投稿にどれくらいの時間留まったかなどの細かな利用者の行動を追跡していました。その後、AIを用いて、これらの利用者について（積極的に転職を探しているか、燃え尽き症候群のリスクが高いかなど）推論を導き出しました。このプロファイリングは、広告のターゲティングや、LinkedIn内部の一部のランキングシステムの更新に利用されました。

アイルランドの当局は最終的に、匿名化されているように見えても、AIにより得られた推論は識別可能な個人のデータに結び付けられるため、データ・プライバシー法に抵触すると判断しました。裁判所は、LinkedInがGDPRの目的制限の原則を尊重せず、利用者から十分な説明に基づく同意も得ていなかったとして、利用者のプライバシーを侵害したと判断しました。また、判決によりLinkedInは、リアルタイムの同意取得メカニズムを導入し、広告のパーソナライゼーション設定のデフォルトを見直すことを余儀なくされました。⁴

また2024年には、顔認識企業Clearview AIに対する法執行措置が、生体情報（顔写真など）が、たとえ技術的には公開されているデータ（保護されていないソーシャルメディア・アカウント上の情報など）であっても、さらなるプライバシー課題を引き起こすことを示しました。

Clearviewは、写真がオンライン上で公開されていることを理由に利用者の許可は不要だと主張し、FacebookやInstagramなどのサイトから300億枚の画像をスクレイピングして収集していました。この大規模なデータ収集が、AIを活用した顔認識データベースの開発を後押ししました。

オランダの法執行当局はClearviewの手法を厳しく批判しました。オランダのデータ保護当局は最終的に、Clearviewのデータ収集に含まれていたオランダ市民の個人の権利が侵害されたとして、同社に3,050万ユーロの制裁金を科しました。⁵

最後に、2024年には欧州連合（EU）がAI法（AI Act）によりAI固有の規制を拡充し、同年8月に施行しました。同法の対象はAI関連データにとどまらず、AIやAI開発全般に伴うリスクにも及びます。しかし、多くの規定はデータ・セキュリティー、データ共有、データ・ガバナンスなどに関わります。代表的な例を挙げると、同法は生体識別システムのうち、人種、宗教、性的指向などの機微な属性に基づいて個人を特定するためにデータとAIモデルを使用するものを禁止しています。

AI Academy

AIにおける信頼、透明性、ガバナンス

AIの信頼性は、AIにおいて最も重要なトピックといえるでしょう。また、圧倒されても仕方がないようなトピックでもあります。ハルシネーション、バイアス、リスクなどの問題を解明し、倫理的で、責任ある、公正な方法でAIを導入する手順を紹介します。

エピソードに移動

AIデータ・プライバシー・リスクを最小化する原則

急速に変化する状況の中で、イノベーションを取り入れる必要性と、責任ある形で実施する必要性は、しばしば相反するように見えます。このバランスを取るために、企業はどのような手順を取れるでしょうか。このテーマは1冊の本になるほど奥深いものですが、いくつかの原則から、企業が責任ある形でAIを導入する際の指針を得られます。

AIデータ・ライフサイクル全体のガバナンス

AIモデルのライフサイクルの複数の段階でデータが取り込まれ、処理され、生成される状況では、従来のデータ・セキュリティーの考え方だけでは不十分です。データ管理者、コンプライアンス担当者、その他の利害関係者は、トレーニング・データの整合性に注意を払い、可能であればプライバシーリスクの監査を実施するべきです。ある企業は、Common Crawlデータ・セットの中に12,000件のAPIキーとパスワードを発見したと主張しています。⁶

また、企業活動によって生成されるビッグデータの活用については、GDPRなどの基準や関連するプライバシー規制が有用なガイドとなります。

攻防の激化への先手

AIは非常に活発な分野であり、ほぼ毎日のように新たな研究や発見が積み重なっています。サイバーセキュリティーの担当者にとっては、脅威アクターが悪用する前に脆弱性へ対処できるよう、最新の技術進歩を常に把握しておくことが重要です。

企業は、連合学習、差分プライバシー、合成データなどのプライバシー強化技術を活用できます。また、従来どおり強固なアクセス制御を徹底し、人とAIエージェントの双方による不正アクセスを防ぐことも重要です。

プライバシーを考慮した意思決定

生成AIやその他のAIテクノロジーを使用して意思決定を自動化する企業が増えるにつれ、経営層は、「データ」という概念が曖昧になり得るAI主導の取り組みに対して、プライバシーの視点を取り入れるべきです。この原則は、前述のLinkedInに関する判決にも表れています。状況によっては、データのパターンに基づいて推論を導き出すことは、匿名化されているように見えても、GDPRや関連規制に抵触することがあります。

AIがパターンを見つけ出す能力を高めるにつれ、「匿名化」データに該当する要件についての従来の考え方が覆される可能性があります。Natureに掲載された2019年の研究では、適切な生成モデルを用いれば「15の人口統計属性を使って、どのデータ・セットでも米国人の99.98％を正確に再識別できる」と示されました。この結果は、個人データと見なされる要件そのものが変化しつつあることを示唆しています。⁷