تستغل هجمات الخصوصية ثغرات أنظمة الذكاء الاصطناعي من أجل استنتاج أو استخراج معلومات حساسة كانت جزءاً من مجموعة بيانات التدريب الخاصة بها بشكل غير مباشر. من الناحية النظرية، ليس من المفترض أن"تتذكر" نماذج التعلم الآلي البيانات التي تتدرب عليها—فهي تستخلص أنماطاً مفيدة من مجموعات البيانات ولا تحتفظ بالبيانات التي تتدرب عليها كما يفعل القرص الصلب. لكن حقيقة "ذاكرة" الذكاء الاصطناعي هي في الواقع أكثر تعقيداً. من الناحية العملية، لاحظ الباحثون أن النماذج تبدو وكأنها "تتذكر" بيانات التدريب الخاصة بها من بعض النواحي. على وجه الخصوص، غالباً ما تُظهر أنظمة التعلم الآلي مستويات ثقة أعلى في توقعاتها عندما تتعلق هذه التوقعات بنقاط بيانات تمت رؤيتها أثناء التدريب. (بينما لا تعرض روبوتات المحادثة الموجهة للمستهلكين مثل ChatGPT درجات الثقة، إلا أنه غالباً ما يمكن الوصول إلى هذه القيم عبر واجهات برمجة التطبيقات للمطورين أو أدوات الباحثين.)
في أسلوب هجوم على الخصوصية يُعرف باسم استدلال العضوية، قد يتمكن المهاجم من استنتاج معلومات حساسة عن شخص ما: على سبيل المثال، ما إذا كان قد تلقى العلاج في منشأة للطب النفسي. طالما يمتلك المهاجم بعض البيانات عن فرد معين (ربما سجل طبي جزئي)، فبإمكان ذلك المهاجم استعلام نموذج يُعرف بأنه تدرّب على مجموعات بيانات حساسة (على سبيل المثال: سجلات المرافق النفسية). من خلال مراقبة درجات الثقة التي أعادها النموذج، يمكن للمهاجم أن يستنتج أن هدفه كان بالفعل عضوًا في المجموعة المستخدمة لتدريب النموذج.
تذهب هجمات عكس النموذج إلى أبعد من ذلك، حيث تُمكّن المهاجم بشكل أساسي من هندسة عكسية للبيانات الفعلية التي استُخدمت في تدريب النموذج. بإمكان المهاجم القيام بذلك عبر استخدام تقنيات القوة الغاشمة، وذلك من خلال الاستخدام التكراري لدرجات الثقة التي يقدّمها النموذج كدليل توجيهي لكيفية تحويل البيانات العشوائية والمشوّشة إلى بيانات تشبه فعلياً بيانات التدريب الحقيقية الخاصة بالنموذج. على سبيل المثال، في عام 2015، تمكن باحثون أكاديميون من استغلال درجات الثقة في نموذج للتعرف على الوجه لإعادة بناء صور تقريبية للوجوه الحقيقية المستخدمة في تدريب النموذج. وقد فعلوا ذلك من خلال البدء بصورة مكونة من ضجيج رقمي خالص، ثم تعديل الصورة بشكل متكرر واستخدام درجات الثقة الصادرة عن النموذج لتوجيه التعديل التالي.5