Dies ist eine der schwierigen Wahrheiten der Innovation: Mit dem technologischen Fortschritt steigen auch die Risiken bei der Nutzung dieser Technologien.
Zum Beispiel erhöhen Tools, die die Datenerfassung und -analyse verbessern, auch die Wahrscheinlichkeit, dass personenbezogene Daten und sensible Informationen dort auftauchen, wo sie nicht hingehören.
Dieses besondere Risiko, das Datenschutzrisiko, ist im Zeitalter der künstlichen Intelligenz (KI) besonders weit verbreitet, da sensible Informationen erfasst und zur Erstellung und Feinabstimmung von Systemen der KI und des maschinellen Lernens verwendet werden. Und während die politischen Entscheidungsträger sich beeilen, das Problem mit Datenschutzbestimmungen für den Einsatz von KI anzugehen, schaffen sie neue Herausforderungen für die Einhaltung von Vorschriften für Unternehmen, die KI-Technologien für die Entscheidungsfindung einsetzen.
Ungeachtet von Bedenken hinsichtlich des Datenschutzes und der Einhaltung von Vorschriften setzen Unternehmen weiterhin KI-Modelle ein, um die Produktivität zu steigern und Mehrwert zu erschließen. Lassen Sie uns einen genaueren Blick auf die KI-Datenschutzrisiken und -schutzmaßnahmen werfen, die sich heute auf Gesellschaft und Handel auswirken.
KI-Datenschutz ist die Praxis des Schutzes personenbezogener oder sensibler Informationen, die von KI gesammelt, verwendet, weitergegeben oder gespeichert werden.
KI-Datenschutz ist eng mit dem Datenschutz verbunden. Datenschutz, auch als Informationsschutz bekannt, ist das Prinzip, dass eine Person die Kontrolle über ihre persönlichen Daten haben sollte. Diese Kontrolle umfasst die Möglichkeit zu entscheiden, wie Unternehmen ihre Daten erfassen, speichern und verwenden. Das Konzept des Datenschutzes ist jedoch älter als die KI, und die Art und Weise, wie Menschen Datenschutz verstehen, hat sich mit dem Aufkommen der KI weiterentwickelt.
„Vor zehn Jahren dachten die meisten Menschen beim Thema Datenschutz an Online-Shopping. Sie dachten: „Ich weiß nicht, ob diese Unternehmen wissen sollten, was ich kaufe und wonach ich suche, denn manchmal ist es hilfreich“, erklärte Jennifer King, eine Mitarbeiterin des Instituts für menschenzentrierte künstliche Intelligenz der Stanford University, in einem Interview, das auf der Website des Instituts veröffentlicht wurde.1
„Aber jetzt haben wir gesehen, wie Unternehmen auf diese allgegenwärtige Datenerfassung umsteigen, die KI-Systeme trainiert“, sagte King, “was erhebliche Auswirkungen auf die Gesellschaft haben kann, insbesondere auf unsere Bürgerrechte.“
Bedenken hinsichtlich des Datenschutzes bei KI lassen sich oft auf Probleme bei der Erfassung, der Sicherheit, dem Modelldesign und der Governance von Daten zurückführen. Zu diesen KI-Datenschutzrisiken gehören:
Ein Grund, warum KI wohl ein größeres Risiko für den Datenschutz darstellt als frühere technologische Fortschritte, ist die schiere Menge an Informationen, die im Spiel sind. Als Trainingsdaten werden regelmäßig Terabytes oder Petabytes an Text-, Bild- oder Videodaten verwendet, und zwangsläufig sind einige dieser Daten sensibel: Gesundheitsinformationen, personenbezogene Daten aus sozialen Medien, persönliche Finanzdaten, biometrische Daten, die für die Gesichtserkennung verwendet werden, und vieles mehr. Da mehr sensible Daten als je zuvor gesammelt, gespeichert und übertragen werden, ist die Wahrscheinlichkeit größer, dass zumindest einige davon auf eine Weise offengelegt oder eingesetzt werden, die die Persönlichkeitsrechte verletzt.
Es kann zu Kontroversen kommen, wenn Daten für die KI-Entwicklung ohne die ausdrückliche Zustimmung oder das Wissen der Personen, von denen sie erhoben werden, beschafft werden. Bei Websites und Plattformen erwarten die Nutzer zunehmend mehr Autonomie über ihre eigenen Daten und mehr Transparenz bei der Datenerfassung. Diese Erwartungen wurden kürzlich deutlich, als die professionelle Networking-Website LinkedIn mit Gegenreaktionen konfrontiert wurde, nachdem einige Benutzer bemerkten, dass sie automatisch ihre Zustimmung dazu gegeben hatten, dass ihre Daten zum Training generativer KI-Modelle verwendet werden dürfen.2
Selbst wenn Daten mit Zustimmung der betroffenen Personen erhoben werden, drohen Datenschutzrisiken, wenn die Daten für Zwecke verwendet werden, die über die ursprünglich angegebenen hinausgehen. „Wir sehen, dass Daten wie ein Lebenslauf oder ein Foto, die wir für einen bestimmten Zweck freigegeben oder gepostet haben, für die Schulung von KI-Systemen zweckentfremdet werden, oft ohne unser Wissen oder unsere Zustimmung“, sagte King. In Kalifornien hat beispielsweise eine ehemalige Patientin einer chirurgischen Abteilung herausgefunden, dass Fotos im Zusammenhang mit ihrer medizinischen Behandlung in einem KI-Trainingsdatensatz verwendet wurden. Die Patientin gab an, dass sie eine Einverständniserklärung unterschrieben hatte, mit der sie ihrem Arzt erlaubte, die Fotos zu machen, aber nicht, dass diese in einen Datensatz aufgenommen werden.3
Datenschutzbedenken im Zusammenhang mit weit verbreiteter und unkontrollierter Überwachung – sei es durch Sicherheitskameras auf öffentlichen Straßen oder Tracking-Cookies auf PCs – kamen schon lange vor der Verbreitung von KI auf. KI kann diese Bedenken hinsichtlich des Datenschutzes jedoch noch verstärken, da KI-Modelle zur Analyse von Überwachungsdaten verwendet werden. Manchmal können die Ergebnisse solcher Analysen schädlich sein, insbesondere wenn sie Voreingenommenheit erkennen lassen. Im Bereich der Strafverfolgung wurden beispielsweise eine Reihe von unrechtmäßigen Verhaftungen von „People of Color“ mit KI-gestützten Entscheidungen in Verbindung gebracht.4
KI-Modelle enthalten eine Fülle sensibler Daten, die für Angreifer unwiderstehlich sein können. „Diese [Daten] sind letztendlich ein großes Ziel, das jemand zu treffen versuchen wird„, erklärte Jeff Crume, ein IBM Security Distinguish Engineer, in einem aktuellen IBM Technology-Video (der Link befindet sich außerhalb von ibm.com). Böswillige Akteure können eine solche Datenexfiltration (Datendiebstahl) aus KI-Anwendungen mithilfe verschiedener Strategien durchführen. Bei Prompt-Injection-Angriffen tarnen Hacker beispielsweise böswillige Eingaben als legitime Eingabeaufforderungen und manipulieren generative KI-Systeme so, dass sie sensible Daten preisgeben. Ein Hacker könnte beispielsweise mit dem richtigen Prompt einen virtuellen Assistenten mit LLM-Technologie dazu verleiten, private Dokumente weiterzuleiten.
Datenlecks sind die versehentliche Offenlegung sensibler Daten, und einige KI-Modelle haben sich als anfällig für solche Datenschutzverletzungen erwiesen. In einem Fall, der für Schlagzeilen sorgte, zeigte ChatGPT, das Large Language Model (LLM) von OpenAI, einigen Benutzern die Titel der Gesprächsverläufe anderer Benutzer.5 Auch für kleine, proprietäre KI-Modelle bestehen Risiken. Nehmen wir zum Beispiel ein Unternehmen aus dem Gesundheitswesen, das auf der Grundlage der Daten seiner Kunden eine firmeninterne, KI-gestützte Diagnose-App entwickelt. Diese App könnte unbeabsichtigt private Informationen von Kunden an andere Kunden weitergeben, die zufällig einen bestimmten Prompt verwenden. Selbst eine solche unbeabsichtigte Weitergabe von Daten kann zu schwerwiegenden Datenschutzverletzungen führen.
Die Bemühungen von Entscheidungsträgern, zu verhindern, dass technologische Fortschritte die Privatsphäre des Einzelnen beeinträchtigen, reichen mindestens bis in die 1970er Jahre zurück. Das schnelle Wachstum der kommerziellen Datenerfassung und der Einsatz von KI haben jedoch eine neue Dringlichkeit geschaffen, Datenschutzgesetze zu erlassen. Zu diesen Gesetzen gehören:
Die DSGVO legt mehrere Grundsätze fest, die für die Verarbeitung Verantwortliche und Auftragsverarbeiter beim Umgang mit personenbezogenen Daten einhalten müssen. Nach dem Grundsatz der Zweckbindung müssen Unternehmen für alle Daten, die sie erheben, einen bestimmten, rechtmäßigen Zweck verfolgen. Sie müssen den Nutzern diesen Zweck mitteilen und dürfen nur die für diesen Zweck erforderliche Mindestmenge an Daten erfassen.
Unternehmen müssen auch fair mit Daten umgehen. Sie müssen die Nutzer über die Verarbeitung personenbezogener Daten auf dem Laufenden halten und die Datenschutzbestimmungen einhalten. Nach dem Prinzip der Speicherbegrenzung sollte ein Unternehmen personenbezogene Daten nur so lange aufbewahren, bis der Zweck erfüllt ist. Daten sollten gelöscht werden, sobald sie nicht mehr benötigt werden.
Das KI-Gesetz der EU, das als weltweit erstes umfassendes Framework für KI gilt, verbietet einige KI-Anwendungsbereiche vollständig und legt für andere strenge Anforderungen an Governance, Risikomanagement und Transparenz fest.
Obwohl das EU-KI-Gesetz keine spezifischen, verbotenen Praktiken zum KI-Datenschutz enthält, setzt das Gesetz Beschränkungen für die Nutzung von Daten durch. Zu den verbotenen KI-Praktiken gehören:
KI-Systeme mit hohem Risiko müssen bestimmte Anforderungen erfüllen, wie z. B. die Einführung strenger Data-Governance-Praktiken, um sicherzustellen, dass Trainings-, Validierungs- und Testdaten bestimmte Qualitätskriterien erfüllen.
In den letzten Jahren sind in mehreren amerikanischen Gerichtsbarkeiten Gesetze zum Datenschutz in Kraft getreten. Beispiele hierfür sind der California Consumer Privacy Act und der Texas Data Privacy and Security Act. Im März 2024 erließ Utah den „Artificial Intelligence and Policy Act“, der als erstes großes Landesgesetz gilt, das speziell die Nutzung von KI regelt.
Auf Bundesebene hat die US-Regierung noch keine neuen landesweiten KI- und Datenschutzgesetze umgesetzt. Im Jahr 2022 veröffentlichte das Office of Science and Technology Policy (OSTP) des Weißen Hauses jedoch seinen „Blueprint for an AI Bill of Rights“. Das unverbindliche Framework beschreibt fünf Prinzipien, die als Leitfaden für die Entwicklung von KI dienen sollen, darunter ein Abschnitt zum Datenschutz, der KI-Fachleute dazu ermutigt, die Zustimmung der betroffenen Personen zur Datennutzung einzuholen.
China gehört zu den ersten Ländern, die KI-Vorschriften erlassen haben. Im Im Jahr 2023 erließ China seine vorläufigen Maßnahmen für die Verwaltung von Services generativer künstlicher Intelligenz. Gemäß dem Gesetz müssen bei der Bereitstellung und Nutzung generativer KI-Services „die legitimen Rechte und Interessen anderer respektiert werden“ und es darf „die physische und psychische Gesundheit anderer nicht gefährdet werden, und es dürfen nicht die Rechte anderer auf ihr Bild, ihren Ruf, ihre Ehre, ihre Privatsphäre und ihre persönlichen Daten verletzt werden“.6
Unternehmen können KI-Datenschutzkonzepte entwickeln, um Vorschriften einzuhalten und das Vertrauen ihrer Stakeholder zu gewinnen.7 Zu den Empfehlungen des OSTP gehören:
Datenschutzrisiken sollten während des gesamten Entwicklungszyklus eines KI-Systems bewertet und angegangen werden. Zu diesen Risiken kann auch eine mögliche Schädigung von Personen gehören, die das System nicht nutzen, deren personenbezogene Daten jedoch durch fortgeschrittene Datenanalyse abgeleitet werden könnten.
Unternehmen sollten die Erfassung von Schulungsdaten auf das beschränken, was rechtmäßig erfasst und „im Einklang mit den Erwartungen der Personen, deren Daten erfasst werden“ verwendet werden kann. Zusätzlich zu dieser Datenminimierung sollten Unternehmen auch Fristen für die Datenspeicherung festlegen, mit dem Ziel, Daten so schnell wie möglich zu löschen.
Unternehmen sollten der Öffentlichkeit Mechanismen für die „Zustimmung, den Zugang und die Kontrolle“ über ihre Daten zur Verfügung stellen. Die Zustimmung sollte erneut eingeholt werden, wenn sich der Anwendungsfall, der die Datenerfassung veranlasst hat, ändert.
Unternehmen, die KI einsetzen, sollten Best Practices für die Sicherheit beachten, um das Durchsickern von Daten und Metadaten zu vermeiden. Zu solchen Praktiken gehört die Verwendung von Kryptografie, Anonymisierung und Zugriffskontrollmechanismen.
Daten aus bestimmten Bereichen sollten einem besonderen Schutz unterliegen und nur in „eng definierten Kontexten“ verwendet werden. Zu diesen „sensiblen Bereichen“ gehören Gesundheit, Beschäftigung, Bildung, Strafrecht und persönliche Finanzen. Daten, die von oder über Kinder generiert werden, gelten ebenfalls als sensibel, auch wenn sie nicht unter einen der aufgeführten Bereiche fallen.
Unternehmen sollten auf Anfragen von Einzelpersonen reagieren, um zu erfahren, welche ihrer Daten in einem KI-System verwendet werden. Unternehmen sollten der Öffentlichkeit auch proaktiv allgemeine zusammenfassende Berichte darüber zur Verfügung stellen, wie die Daten von Personen verwendet, abgerufen und gespeichert werden. In Bezug auf Daten aus sensiblen Bereichen sollten Unternehmen auch Sicherheitslücken oder -verstöße melden, die zu Datenschutzverletzungen geführt haben.
Tools und Programme zur Data Governance können Unternehmen dabei helfen, die Empfehlungen des OSTP und andere Best Practices für den KI-Datenschutz zu befolgen. Unternehmen können Softwaretools bereitstellen, um:
Da sich die KI- und Datenschutzgesetze weiterentwickeln, können Unternehmen mit neuen Technologielösungen mit den regulatorischen Änderungen Schritt halten und auf Anfragen von Aufsichtsbehörden nach Audits vorbereitet sein. Innovative Lösungen automatisieren die Identifizierung von Änderungen der Vorschriften und deren Umsetzung in durchsetzbare Richtlinien.
(Alle Links befinden sich außerhalb von ibm.com.)
1 „Privacy in an AI Era: How Do We Protect Our Personal Information?“ Stanford University Institute of Human-Centered Artificial Intelligence. 18. März 2024.
2 „LinkedIn Is Quietly Training AI on Your Data—Here's How to Stop It.“ PCMag. 18. September 2024.
3 „Artist finds private medical record photos in popular AI training data set.“ Ars Technica. 21. September 2022.
4 „When Artificial Intelligence Gets It Wrong.“ Innocence Project. 19. September 2023.
5 „OpenAI CEO admits a bug allowed some ChatGPT users to see others’ conversation titles.“ CNBC. 17. April 2023.
6 „Interim Measures for the Administration of Generative Artificial Intelligence Services, Cyberspace Administration of China.“ 13. Juli 2023.
7 „Blueprint for an AI Privacy Bill of Rights.“ Office of Science and Technology Policy, White House Abgerufen am 19. September 2024.