Datenverzerrungen treten auf, wenn Verzerrungen in den Trainings- und Feinabstimmungs-Datensätzen von künstlichen Intelligenz-Modellen (KI) das Modellverhalten negativ beeinflussen.
KI-Modelle sind Programme, die anhand von Datensätzen trainiert wurden, um bestimmte Muster zu erkennen oder bestimmte Entscheidungen zu treffen. Sie wenden unterschiedliche Algorithmen auf relevante Dateneingaben an, um die Aufgaben oder den Output zu erreichen, für die sie programmiert wurden.
Das Trainieren eines KI-Modells auf Daten mit Verzerrung, wie z. B. historischer oder repräsentativer Verzerrung, könnte zu voreingenommenen oder verzerrten Outputs führen, die möglicherweise bestimmte Gruppen oder Einzelpersonen unfair darstellen oder anderweitig diskriminieren. Diese Auswirkungen untergraben das Vertrauen in KI und Unternehmen, die KI einsetzen. Sie können auch zu rechtlichen und behördlichen Strafen für Unternehmen führen.
Datenverzerrungen sind ein wichtiger Faktor für Branchen mit hohen Risiken – wie das Gesundheitswesen, das Personalwesen und das Finanzwesen –, die zunehmend KI zur Unterstützung der Entscheidungsfindung einsetzen. Unternehmen können Datenverzerrungen mindern, indem sie die verschiedenen Arten von Datenverzerrungen und deren Entstehung verstehen und diese Verzerrungen während des gesamten KI-Lebenszyklus identifizieren, reduzieren und verwalten.
Verzerrungen können zu unfairen, ungenauen und unzuverlässigen KI-Systemen führen, die schwerwiegende Folgen für Einzelpersonen, Unternehmen und die Gesellschaft haben. Zu den Risiken einer Datenverzerrung gehören:
Datenverzerrungen in KI-Systemen können bestehende gesellschaftliche Vorurteile aufrechterhalten und zu einer ungerechten Behandlung aufgrund von Merkmalen wie Geschlecht, Alter, Rasse oder ethnischer Zugehörigkeit führen.Marginalisierte Gruppen könnten in den Daten unterrepräsentiert oder ausgeschlossen sein, was dazu führt, dass Entscheidungen getroffen werden, die nicht auf die Bedürfnisse der tatsächlichen Bevölkerung eingehen.
Ein Einstellungsalgorithmus, der hauptsächlich auf Daten einer homogenen, männlichen Belegschaft trainiert wurde, könnte beispielsweise männliche Kandidaten bevorzugen und qualifizierte weibliche Bewerber benachteiligen, wodurch die Ungleichheit der Geschlechter am Arbeitsplatz fortbestehen würde.
KI-Modelle, die mit verzerrten Daten trainiert werden, können zu falschen Ergebnissen führen, was dazu führen kann, dass Unternehmen schlechte Entscheidungen treffen oder ineffektive Lösungen vorschlagen. Unternehmen, die beispielsweise voreingenommene prädiktive Analysen verwenden, könnten Markttrends falsch interpretieren, was zu schlechten Produkteinführungen oder einer Fehlallokation von Ressourcen führen könnte.
Datenverzerrungen können dazu führen, dass Unternehmen aufsichtsrechtlichen Prüfungen, Verstößen gegen gesetzliche Vorschriften und erheblichen Bußgeldern ausgesetzt sind. So können beispielsweise nach dem EU-KI-Gesetz bei Nichteinhaltung verbotener KI-Praktiken Geldbußen von bis zu 35.000.000 EUR oder 7 % des weltweiten Jahresumsatzes verhängt werden (je nachdem, welcher Betrag höher ist).
Unternehmen, die gegen lokale und regionale Gesetze verstoßen, müssen außerdem mit einem Reputationsverlust und einem Vertrauensverlust bei den Kunden rechnen. Nehmen wir an, ein Einzelhandelsunternehmen wird wegen Diskriminierung verurteilt, weil es ein KI-gestütztes Preismodell verwendet hat, das bestimmten demografischen Gruppen höhere Preise berechnet hat. Diese Situation könnte zu einer PR-Krise führen, die dem Markenimage und der Kundentreue schadet.
Datenverzerrungen können das Vertrauen in KI-Systeme untergraben. Schwere oder wiederholte Fälle von voreingenommenen oder ungenauen, KI-gestützten Entscheidungen könnten Einzelpersonen und Gemeinschaften dazu veranlassen, die Integrität des Unternehmens, das die KI einsetzt, in Frage zu stellen. Die Menschen könnten auch zunehmend skeptisch werden, was die Zuverlässigkeit und Fairness von KI im Allgemeinen betrifft, was zu einer breiteren Zurückhaltung gegenüber der Technologie führen könnte.
KI-Systeme, die verzerrte Ergebnisse als Eingabedaten für die Entscheidungsfindung verwenden, erzeugen eine Feedback-Schleife, die die Verzerrung im Laufe der Zeit weiter verstärken kann. Dieser Zyklus, in dem der Algorithmus kontinuierlich lernt und dieselben verzerrten Muster fortschreibt, führt zu zunehmend verfälschten Ergebnissen.
Zum Beispiel können historische Diskriminierungen wie Redlining – die Verweigerung von Finanzdienstleistungen aufgrund der Rasse einer Person – in den Trainingsdaten für ein KI-Modell, das mit der Entscheidung über Bankdarlehen beauftragt ist, berücksichtigt werden. Wenn ein KI-System Anträge anhand dieser Daten bearbeitet, könnte es Personen, die sozioökonomische Merkmale mit Opfern von Redlining in früheren Jahren teilen, ungerechtfertigterweise benachteiligen. Daten aus diesen neueren Kreditablehnungen könnten in zukünftige KI-Entscheidungen einfließen und so zu einem Kreislauf führen, in dem Mitglieder unterrepräsentierter Gruppen immer weniger Kreditmöglichkeiten erhalten.
Datenverzerrung, KI-Verzerrung und algorithmische Verzerrung können alle zu verzerrten Ergebnissen und potenziell schädlichen Folgen führen, aber es gibt feine Unterschiede zwischen diesen Begriffen.
KI-Verzerrung, auch Verzerrung beim maschinellen Lernen genannt, ist ein Oberbegriff für die verschiedenen Arten von Verzerrungen, die mit Systemen der künstlichen Intelligenz verbunden sind. Es bezieht sich auf das Auftreten von verzerrten Ergebnissen aufgrund menschlicher Verzerrungen, die die ursprünglichen Trainingsdaten oder den KI-Algorithmus verzerren.
Algorithmische Verzerrung ist eine Unterart der KI-Verzerrung, die auftritt, wenn systemische Fehler in Algorithmen für maschinelles Lernen zu unfairen oder diskriminierenden Ergebnissen führen. Algorithmische Verzerrungen werden nicht durch den Algorithmus selbst verursacht, sondern durch die Art und Weise, wie die Entwickler Trainingsdaten sammeln und codieren.
Datenverzerrungen fallen auch unter den Oberbegriff KI-Verzerrungen und können eine der Ursachen für algorithmische Verzerrungen sein. Datenverzerrung bezieht sich speziell auf die verzerrte oder nicht repräsentative Natur der Daten, die zum Trainieren eines KI-Modells verwendet werden.
Das Verständnis und die Berücksichtigung der verschiedenen Arten von Verzerrungen kann zur Entwicklung genauer und vertrauenswürdiger KI-Systeme beitragen. Zu den häufigsten Arten von Datenverzerrungen gehören:
Wenn Menschen Informationen verarbeiten und Urteile fällen, werden sie unweigerlich von ihren Erfahrungen und Vorlieben beeinflusst. Infolgedessen können Menschen diese Verzerrungen durch die Auswahl der Daten oder die Gewichtung der Daten in KI-Systeme integrieren. Kognitive Verzerrungen können zu systematischen Fehlern führen, wie z. B. der Bevorzugung von Datensätzen, die von Amerikanern erhoben wurden, anstatt Stichproben aus einer Reihe von Bevölkerungsgruppen auf der ganzen Welt zu ziehen.
Eine Automatisierungsverzerrung tritt auf, wenn sich Benutzer zu sehr auf automatisierte Technologien verlassen, was zu einer unkritischen Akzeptanz ihrer Ergebnisse führt, wodurch bestehende Datenverzerrungen aufrechterhalten und verstärkt werden können. Im Gesundheitswesen beispielsweise könnte sich ein Arzt stark auf ein KI-Diagnosetool verlassen, um Behandlungspläne für Patienten vorzuschlagen. Wenn der Arzt die Ergebnisse des Tools nicht mit seiner eigenen klinischen Erfahrung abgleicht, besteht die Gefahr, dass er einen Patienten falsch diagnostiziert, falls die Entscheidung des Tools auf verzerrten Daten beruht.
Bestätigungsfehler treten auf, wenn Daten selektiv einbezogen werden, um bereits bestehende Überzeugungen oder Hypothesen zu bestätigen. Ein Beispiel für einen Bestätigungsfehler ist die vorausschauende Polizeiarbeit, bei der die Strafverfolgungsbehörden ihre Datenerhebung auf Stadtviertel mit traditionell hohen Kriminalitätsraten konzentrieren. Dies führt zu einer übermäßigen Überwachung dieser Stadtviertel, da nur Daten einbezogen werden, die die bestehenden Annahmen über das Gebiet stützen.
Ausschlussverzerrungen treten auf, wenn wichtige Daten in Datensätzen nicht berücksichtigt werden. Bei Wirtschaftsprognosen führt der systematische Ausschluss von Daten aus einkommensschwachen Gebieten zu Datensätzen, die die Bevölkerung genau repräsentieren, was wiederum zu Wirtschaftsprognosen führt, die ein verzerrtes Bild zugunsten wohlhabenderer Gebiete vermitteln.
Historische Verzerrungen, auch als zeitliche Verzerrungen bekannt, treten auf, wenn Daten historische Ungleichheiten oder Verzerrungen widerspiegeln, die während der Datenerhebung bestanden, im Gegensatz zum aktuellen Kontext. Beispiele für Datenverzerrungen in dieser Kategorie sind KI-Einstellungssysteme, die auf historischen Beschäftigungsdaten basieren. In diesen Datensätzen könnten farbige Menschen in hochrangigen Positionen unterrepräsentiert sein, und das Modell könnte die Ungleichheit aufrechterhalten.
Implizite Verzerrungen treten auf, wenn Annahmen von Personen, die auf persönlichen Erfahrungen und nicht auf allgemeineren Daten basieren, in die Erstellung oder das Testen von ML einfließen. Ein KI-System, das beispielsweise darauf trainiert wurde, Bewerber zu bewerten, könnte Lebensläufe mit maskulin kodierter Sprache priorisieren, was die unbewusste Voreingenommenheit des Entwicklers widerspiegelt, obwohl das Geschlecht kein expliziter Faktor im Modell ist.
Messtechnische Verzerrungen können auftreten, wenn die Genauigkeit oder Qualität der Daten zwischen den Gruppen variiert oder wenn wichtige Studienvariablen falsch gemessen oder klassifiziert werden. Ein Beispiel: Bei einem Modell für die Zulassung zum College, bei dem hohe Notendurchschnitte als Hauptfaktor für die Zulassung herangezogen werden, wird nicht berücksichtigt, dass höhere Noten an bestimmten Schulen leichter zu erreichen sind als an anderen. Ein Schüler mit einem niedrigeren Notendurchschnitt, aber einem anspruchsvolleren Kursangebot an einer Schule könnte ein geeigneterer Kandidat sein als ein Schüler mit einem höheren Notendurchschnitt, aber einem weniger anspruchsvollen Kursangebot an einer anderen Schule. Da das Modell den Schwerpunkt auf Leistungsbewertungen legt, könnte es sein, dass es diese Möglichkeit in seinen Entscheidungsprozessen nicht berücksichtigt.
Eine verzerrte Berichterstellung liegt vor, wenn die Häufigkeit von Ereignissen oder Ergebnissen im Datensatz nicht repräsentativ für die tatsächliche Häufigkeit ist. Diese Verzerrung tritt häufig auf, wenn Menschen an der Datenauswahl beteiligt sind, da sie eher Belege dokumentieren, die ihnen wichtig oder einprägsam erscheinen.
Zum Beispiel wird ein Stimmungsanalyse-Modell darauf trainiert, vorherzusagen, ob Produkte auf einer großen E-Commerce-Website positiv oder negativ bewertet werden. Die meisten Bewertungen ähnlicher Produkte im Trainingsdatensatz spiegeln extreme Meinungen wider, da die Wahrscheinlichkeit, dass Personen eine Bewertung abgeben, geringer ist, wenn sie nicht stark darauf reagieren, was die Vorhersagen des Modells ungenauer macht.
Eine Auswahlverzerrung liegt vor, wenn der für das Training verwendete Datensatz nicht repräsentativ genug, nicht umfangreich genug oder nicht vollständig genug ist, um das System ausreichend zu trainieren. Zum Beispiel ist das Training eines autonomen Fahrzeugs mit Fahrtdaten bei Tag nicht repräsentativ für die gesamte Bandbreite an Fahrszenarien, denen das Fahrzeug in der realen Welt begegnen könnte.
Stichprobenverzerrung ist eine Art von Selektionsverzerrung, die auftritt, wenn Stichprobendaten auf eine Weise erhoben werden, bei der einige Informationen mit größerer Wahrscheinlichkeit einbezogen werden als andere, ohne dass eine ordnungsgemäße Randomisierung erfolgt. Wenn beispielsweise ein medizinisches KI-System, das zur Vorhersage des Risikos einer Herzerkrankung entwickelt wurde, ausschließlich mit Daten von männlichen Patienten mittleren Alters trainiert wurde, könnte es zu ungenauen Vorhersagen kommen. Dieses System würde insbesondere Frauen und Menschen anderer Altersgruppen betreffen.
Der Abbau von Vorurteilen innerhalb der KI beginnt mit der KI-Governance. KI-Governance bezieht sich auf die Richtlinien, die gewährleisten, dass KI-Tools und -Systeme sicher und ethisch sind und bleiben. Verantwortungsvolle KI-Praktiken, die Transparenz, Rechenschaftspflicht und ethische Überlegungen in den Vordergrund stellen, können Unternehmen bei der Bewältigung der Komplexität der Verzerrungsminderung unterstützen.
Um Datenverzerrungen zu minimieren, sollten Unternehmen robuste Strategien und Verfahren implementieren, die darauf abzielen, Verzerrungen während der gesamten Datenerfassung und -analyse zu identifizieren, zu reduzieren und zu verwalten, wie z. B.:
Eine breite Darstellung in Datenquellen trägt dazu bei, Verzerrungen zu reduzieren. Der Datenerfassungsprozess sollte ein breites Spektrum an demografischen Merkmalen, Kontexten und Bedingungen umfassen, die alle angemessen repräsentiert sind. Wenn beispielsweise die für Gesichtserkennungstools gesammelten Daten überwiegend Bilder von weißen Personen enthalten, kann es sein, dass das Modell schwarze Gesichter nicht genau erkennt oder unterscheidet.
Mit Hilfe von Verzerrungsprüfungen können Organisationen ihre Daten und Algorithmen regelmäßig auf potenzielle Verzerrungen überprüfen, Ergebnisse überprüfen und Datenquellen auf Anzeichen für eine ungerechte Behandlung verschiedener demografischer Gruppen untersuchen. Die kontinuierliche Leistungsüberwachung in verschiedenen demografischen Gruppen hilft dabei, Diskrepanzen bei den Ergebnissen zu erkennen und zu beheben, und trägt dazu bei, dass etwaige Verzerrungen rechtzeitig erkannt und beseitigt werden.
Die Dokumentation von Datenerhebungsmethoden und die Art und Weise, wie Algorithmen Entscheidungen treffen, erhöht die Transparenz, insbesondere in Bezug darauf, wie potenzielle Verzerrungen identifiziert und angegangen werden. Offene Datenrichtlinien können externe Überprüfungen und Kritik erleichtern und die Rechenschaftspflicht bei der Datenerfassung und -analyse fördern, was für die Stärkung des Vertrauens in KI-Systeme von entscheidender Bedeutung ist.
Der Einsatz von Algorithmen für Fairness und entsprechenden Frameworks kann dazu beitragen, Verzerrungen in Modellen für maschinelles Lernen zu erkennen und zu mindern. AI Fairness 360, ein von IBM entwickeltes Open-Source-Toolkit, bietet verschiedene Metriken zur Erkennung von Verzerrungen in Datensätzen und Modellen für maschinelles Lernen sowie Algorithmen zur Minderung von Verzerrungen und zur Förderung von Fairness. Die Anwendung statistischer Methoden zur Bewertung der Fairness von Vorhersagen für verschiedene demografische Gruppen kann die Objektivität weiter verbessern.
Die Förderung der Vielfalt in den Data-Science- und Analyseteams führt verschiedene Perspektiven ein und kann das Risiko von Bias verringern. Verschiedene Teams sind eher in der Lage, potenzielle Verzerrungen in Datensätzen und Algorithmen zu erkennen und zu beheben, da sie auf ein breiteres Spektrum an Erfahrungen und Standpunkten zurückgreifen können. Ein Team, das beispielsweise aus Mitgliedern unterschiedlicher ethnischer Herkunft, Geschlechter und sozioökonomischer Hintergründe besteht, kann besser Bereiche identifizieren, in denen die Daten bestimmte Personengruppen möglicherweise falsch darstellen oder übersehen.
Synthetische Daten sind künstlich generierte Daten, die durch Computersimulationen oder Algorithmen erzeugt wurden, um Datenpunkte zu ersetzen, die bei realen Ereignissen gesammelt wurden. Data Scientists finden synthetische Daten oft eine vorteilhafte Alternative, wenn Daten nicht ohne weiteres verfügbar sind und weil sie mehr Datenschutz bieten. Synthetische Daten verringern Verzerrungen, indem sie die gezielte Erstellung ausgewogener Datensätze ermöglichen, die unterrepräsentierte Gruppen und Szenarien einbeziehen, um gerechtere Modellergebnisse zu gewährleisten.
Verwalten Sie generative KI-Modelle ortsunabhängig und stellen Sie diese in der Cloud oder lokal mit IBM watsonx.governance bereit.
Erfahren Sie, wie KI-Governance dazu beitragen kann, das Vertrauen Ihrer Mitarbeiter in KI zu stärken, die Akzeptanz und Innovation zu beschleunigen und das Vertrauen Ihrer Kunden zu verbessern.
Bereiten Sie sich auf die EU-Verordnung über künstliche Intelligenz vor und etablieren Sie mithilfe von IBM® Consulting einen verantwortungsvollen KI-Governance-Ansatz.