프라이버시 공격은 학습 데이터 세트의 일부였던 민감한 정보를 간접적으로 추론하거나 추출하기 위해 AI 시스템의 단점을 악용합니다. 이론적으로 ML 모델은 학습하는 데이터를 '기억'하는 것이 아니라, 데이터 세트에서 유용한 패턴을 추출하며, 학습에 사용된 데이터를 하드 드라이브처럼 유지하지 않습니다. 하지만 AI '메모리'의 현실은 더 복잡합니다. 실제로 연구자들은 어떤 측면에서 모델이 학습 데이터를 '기억'하는 것처럼 보인다는 것을 관찰했습니다. 특히 ML 시스템은 학습에서 본 데이터 포인트와 관련된 예측인 경우 더 높은 신뢰 수준을 표시하는 경우가 많습니다. (ChatGPT와 같은 소비자 챗봇은 신뢰도 점수를 표시하지 않지만, 이러한 값은 개발자 API 또는 연구자 툴을 통해 액세스할 수 있는 경우가 많습니다.)
멤버십 추론으로 알려진 프라이버시 공격 방법에서 공격자는 누군가에 대한 민감한 정보를 추론할 수 있습니다(예: 과거에 정신 병원 환자였는지 여부). 공격자는 특정 개인에 대한 일부 데이터(아마도 일부 의료 차트)를 가지고 있는 한, 민감한 데이터 세트(예: 정신과 시설 기록)에 대해 학습한 것으로 알려진 모델을 쿼리할 수 있습니다. 공격자는 모델에서 반환한 신뢰도 점수를 관찰하여 표적이 실제로 모델을 학습하는 데 사용된 그룹의 구성원임을 추론할 수 있었습니다.
모델 역추론 공격은 더 나아가 공격자가 모델을 학습시킨 실제 데이터를 역설계할 수 있게 합니다. 공격자는 무차별 대입 기법을 사용해 모델의 반환된 신뢰도 점수를 반복적으로 활용해 노이즈가 많은 무작위 데이터를 모델의 실제 학습 데이터와 유사하게 만드는 방법을 통해 모델 역추론 공격을 시행합니다. 예를 들어, 2015년 학술 연구자들은 얼굴 인식 모델의 신뢰도 점수를 활용하여 모델을 학습하기 위해 사용된 실제 얼굴을 근사한 이미지를 재구성하는 데 성공했습니다. 이들은 순수 노이즈 이미지에서 시작해 이미지를 반복적으로 조정한 뒤, 모델 아웃풋의 신뢰도 점수를 바탕으로 다음 조정을 진행했습니다.5