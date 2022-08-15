Manchmal sind wir als Data Scientists so sehr darauf bedacht, ein perfektes Modell zu erstellen, dass wir unbeabsichtigt menschliche Verzerrungen in unsere Modelle einfließen lassen. Oft schleicht sich die Verzerrung durch Trainingsdaten ein und wird dann verstärkt und in das Modell eingebettet. Wenn ein solches Modell in einen Produktionszyklus gerät, kann dies schwerwiegende Auswirkungen haben, die durch Verzerrungen wie falsche Vorhersagen der Kreditwürdigkeit oder der Gesundheit verursacht werden. In verschiedenen Branchen zielen regulatorische Anforderungen für Modellfairness und vertrauenswürdige KI darauf ab, zu verhindern, dass voreingenommene Modelle in den Produktionszyklus gelangen.
Als verantwortungsbewusster Data Scientist sollten Sie beim Aufbau einer Modellpipeline zwei wichtige Aspekte berücksichtigen:
Es ist nicht einfach, Verzerrung und Unfairness zu erkennen und zu definieren. Um Data Scientists bei der Reflexion und Identifizierung möglicher ethischer Bedenken zu unterstützen, sollte der Standardprozess für Data Mining 3 zusätzliche Schritte umfassen: Daten-Risikobewertung, Modell-Risikobewertung und Produktionsüberwachung.
Mit diesem Schritt kann ein Data Scientist beurteilen, ob es Ungleichgewichte zwischen verschiedenen Personengruppen im Hinblick auf die Zielvariable gibt. Wir beobachten beispielsweise immer noch, dass Männer häufiger in Führungspositionen angenommen werden als Frauen. Aber wir alle wissen, dass es illegal ist, einen Job aufgrund des Geschlechts anzubieten. Um das Modell auszugleichen, könnte man argumentieren, dass das Geschlecht keine Rolle spielen sollte und daher entfernt werden könnte. Was könnte sich aber sonst noch ändern, wenn man das Geschlecht entfernt? Bevor Sie handeln, sollte dieser Schritt mit den richtigen Experten geprüft werden, um festzustellen, ob die aktuellen Prüfungen ausreichen, um mögliche Verzerrungen im Modell zu vermeiden.
Das Ziel des Datenausgleichs ist es, die Verteilung der in der Produktion verwendeten Daten nachzuahmen. So soll sichergestellt werden, dass die Trainingsdaten so nah wie möglich an den in Echtzeit in der Produktionsumgebung verwendeten Daten liegen. Also ist die erste Reaktion, die voreingenommene Variable wegzulassen, doch dieser Ansatz wird das Problem wahrscheinlich nicht lösen. Oft sind Variablen korreliert, und Verzerrungen können sich über eines der korrelierten Felder einschleichen und als Ersatzvariablen im Modell fungieren. Daher sollten alle Korrelationen überprüft werden, bevor die Verzerrung entfernt wird, um sicherzustellen, dass sie wirklich beseitigt wird.
Modellvorhersagen haben unmittelbare und schwerwiegende Auswirkungen – sie können sogar das Leben eines Menschen komplett verändern. Wenn ein Modell vorhersagt, dass Sie eine niedrige Kreditwürdigkeit haben, kann sich das auf Ihr gesamtes Leben auswirken, da Sie Schwierigkeiten haben, Kreditkarten und Kredite zu bekommen, eine Wohnung zu finden und angemessene Zinssätze zu erhalten. Und wenn Sie den Grund für die niedrige Punktzahl nicht erfahren, gibt es auch keine Möglichkeit zur Verbesserung.
Die Aufgabe eines Data Scientist ist es, sicherzustellen, dass ein Modell das fairste Ergebnis für alle liefert. Wenn die Daten voreingenommen sind, lernt das Modell aus dieser Verzerrung und trifft unfaire Vorhersagen. Blackbox-Modelle liefern zwar hervorragende Ergebnisse, sind aber kaum interpretierbar und erklärbar, sodass es unmöglich ist, mögliche Warnsignale zu erkennen, die die Fairness beeinträchtigen könnten. Daher ist ein tiefgehender Einblick in die Modellergebnisse notwendig. Data Scientists müssen den Kompromiss zwischen Interpretierbarkeit und Leistung bewerten und Modelle auswählen, die beide Anforderungen am besten erfüllen.
Sobald ein Modell von Data Scientists entwickelt wurde, wird es häufig an das MLOps-Team übergeben. Wenn die neuen Modelldaten in Produktion gehen, können sie eine neue Möglichkeit der Verzerrung mit sich bringen oder die Verzerrung verstärken, die zuvor ohne angemessene Überwachung übersehen wurde. Produktionsdaten können zu Abweichungen in der Leistung oder Konsistenz führen und Verzerrungen in das Modell und die Daten integrieren. Es ist sehr wichtig, Modelle zu überwachen, indem angemessene Warnmeldungen eingeführt werden, die auf eine Verschlechterung der Modellleistung hinweisen, und einen Mechanismus zur Entscheidung, wann ein Modell, das nicht mehr verwendet werden kann, mit einem Tool wie IBM Watson Studio ausgemustert werden muss. Auch hier sollte die Datenqualität verfolgt werden, indem die Produktionsdatenverteilung mit den zum Training des Modells verwendeten Daten verglichen wird.
Verantwortungsvolle Data Science bedeutet, über das Modell hinauszudenken, und zwar über Code und Leistung hinaus, und sie wird maßgeblich von den Daten beeinflusst, mit denen man arbeitet, und wie vertrauenswürdig diese sind. Letztlich ist die Abschwächung von Verzerrungen ein heikler, aber entscheidender Prozess, der dazu beiträgt, dass die Modelle den richtigen menschlichen Prozessen folgen. Das bedeutet nicht, dass man etwas Neues machen muss, aber es ist wichtig, das, was wir als Data Scientists bereits tun, neu zu überdenken und neu zu definieren, um sicherzustellen, dass es verantwortungsvoll gemacht wird.
