Datenschutzangriffe nutzen die Eigenheiten von KI-Systemen aus, um indirekt sensible Informationen abzuleiten oder zu extrahieren, die Teil ihres Trainingsdatensatzes waren. Theoretisch sind ML-Modelle nicht dazu gedacht, sich an die Daten, auf denen sie trainieren, zu „erinnern“ – sie extrahieren nützliche Muster über Datensätze hinweg und behalten die Daten, auf denen sie trainieren, nicht wie eine Festplatte. Die Realität des KI-„Gedächtnisses“ ist jedoch in Wirklichkeit komplexer. In der Praxis haben Forscher beobachtet, dass Modelle in mancher Hinsicht ihre Trainingsdaten tatsächlich zu „erinnern“ scheinen. Insbesondere zeigen ML-Systeme oft ein höheres Maß an Vertrauen in ihre Vorhersagen, wenn diese Vorhersagen sich auf Datenpunkte beziehen, die sie während des Trainings gesehen haben. (Während Verbraucher-Chatbots wie ChatGPT keine Vertrauenswerte anzeigen, sind diese Werte oft über Entwickler-API oder Forschungstools zugänglich.)
Bei einer Methode zum Angriff auf den Datenschutz, die als Mitgliedschaftsinferenz bekannt ist, könnte ein Angreifer in der Lage sein, sensible Informationen über eine Person abzuleiten: beispielsweise ob die Person Patient in einer psychiatrischen Einrichtung war. Solange der Angreifer über Daten zu einer bestimmten Person verfügt (vielleicht Teile einer medizinischen Akte), könnte dieser Angreifer ein Modell abfragen, das bekanntermaßen auf sensiblen Datensätzen trainiert wurde (z. B. psychiatrische Einrichtungen). Durch die Beobachtung der vom Modell zurückgegebenen Konfidenzwerte könnte der Angreifer zu dem Schluss kommen, dass sein Opfer tatsächlich ein Mitglied der Gruppe war, mit der das Modell trainiert wurde.
Ein Angriff auf die Modellinversion geht noch einen Schritt weiter und ermöglicht es dem Angreifer, die tatsächlichen Daten, die das Modell trainiert haben, zurückzuentwickeln. Der Angreifer kann dies mit Brute-Force-Techniken tun, indem er iterativ die vom Modell zurückgegebenen Konfidenzwerte als Anleitung anwendet, wie die Verwandlung beliebiger rauschiger Daten in etwas, das tatsächlich realen Trainingsdaten für das Modell ähnelt. So konnten Universitätsforscher beispielsweise im Jahr 2015 die Konfidenzwerte eines Gesichtserkennungsmodells ausnutzen, um Bilder zu rekonstruieren, die den realen Gesichtern, mit denen das Modell trainiert wurde, äußerst nahe kamen. Dazu begannen sie mit einem Bild des reinen Rauschens, optimierten das Bild iterativ und verwendeten die Konfidenzwerte der Modellausgabe, um die nächste Optimierung zu steuern.5