プライバシー攻撃は、AIシステムの癖を悪用し、トレーニング・データ・セットに含まれていた機微な情報を間接的に推測または抽出します。理論上、MLモデルは、学習に使用したデータを「記憶」することを意図していません。データ・セット全体から有用なパターンを抽出し、ハード・ドライブのように学習データそのものを保持しないはずです。しかし、AIの「記憶」の実態はより複雑です。研究者は、ある側面ではモデルがトレーニング・データを「記憶」しているように見えることを確認しています。特に、MLシステムは、予測がトレーニング中に見たデータ・ポイントに関連する場合、予測により高い確信度を示すことが少なくありません。(ChatGPTのような利用者向けチャットボットは確信度スコアを表示しませんが、これらの値は開発者向けAPIや研究者用ツールを通じて取得できることが少なくありません。)
メンバーシップ推論(membership inference)と呼ばれるプライバシー攻撃の手法では、攻撃者が、対象が精神科施設の患者だったかどうかなど、個人に関する機微な情報を推測できる可能性があります。攻撃者が特定の個人に関するデータ(例えば医療記録の一部)を持っている場合、機微なデータ・セット(精神科施設の記録など)で学習したことが分かっているモデルに対してクエリーできます。モデルが返す確信度スコアを観察することで、攻撃者は、標的がモデルの学習に使用された集団の一員だったことを推測できます。
モデル反転(model inversion)攻撃はさらに踏み込み、モデルの学習に使用された実データそのものを実質的に逆解析できるようにします。攻撃者はブルートフォースの手法を用い、モデルが返す確信度スコアを手がかりにしながら、ランダムでノイズの多いデータを反復的に調整し、モデルの実際の学習データに似たものへと近づけていきます。例えば2015年、学術研究者は、顔認識モデルの確信度スコアを悪用して、モデルの学習に使用された実際の顔に近い画像を再構成しました。その際、純粋なノイズ画像から始め、画像を反復的に微調整し、モデル出力の確信度スコアを次の調整の指針として用いました。5