Reidentifizierungsrisiko für KI
Beschreibung
Selbst wenn personenbezogene Informationen (PI) und sensible persönliche Informationen (SPI) aus den Daten entfernt werden, kann es möglich sein, Personen aufgrund von Korrelationen zu anderen in den Daten vorhandenen Merkmalen zu identifizieren.
Warum ist die Reidentifizierung ein Anliegen für Gründungsmodelle?
Die Einbeziehung irrelevanter, aber hoch korrelierter Merkmale zu persönlichen Informationen für das Modelltraining kann das Risiko einer erneuten Identifizierung erhöhen, und aus solchen Daten generierte synthetische Daten können diese Korrelationen beibehalten.
Offenlegung der Identität
In einer finnischen Studie wurde erläutert, dass synthetische Datensätze einen starken Schutz gegen die Offenlegung von Identitäten bieten, solange sie nicht genau mit den Originaldaten übereinstimmen (Overfitting). Einzigartige Ausreißer stellen ein höheres Risiko dar, da erkennbare Datenpunkte verwendet werden könnten, um auf Eigenschaften der echten Daten zu schließen und mehr Informationen zu erhalten.
Re-Identifizierung
Eine 2019 in Nature Communications veröffentlichte Studie schätzt, dass 99.98 % der Amerikaner anhand von nur 15 demografischen Merkmalen wiedererkannt werden könnten. Selbst synthetische medizinische Bilder sind bedenklich.
Übergeordnetes Thema: AI-Risikoatlas
Anhand von Beispielen, über die in der Presse berichtet wurde, erläutern wir viele der Risiken der Stiftungsmodelle. Viele dieser Ereignisse, über die in der Presse berichtet wurde, sind entweder noch im Gange oder wurden bereits aufgeklärt, und ein Verweis darauf kann dem Leser helfen, die potenziellen Risiken zu verstehen und auf Abhilfemaßnahmen hinzuarbeiten. Die Hervorhebung dieser Beispiele dient nur der Veranschaulichung.