Accountable Federated Machine Learning – wie Modelle ohne Datenzugriff überprüft werden

By and Dian Balta | 5 minute read | October 28, 2021

211028_IBM_Accountable Federated Machine Learning_Header_990x498px

Die öffentliche Verwaltung ächzt unter langwierigen Prozessen. Nicht umsonst ist es in Deutschland fast schon ein Volkssport, sich über die langsamen Mühlen in deutschen Behörden zu beschweren. Doch geht der technologische Fortschritt auch an der oft als zu verstaubt empfundenen deutschen Bürokratie nicht vorrüber. Besonders Machine Learning kann helfen, Prozesse datengetrieben zu vereinfachen und zu beschleunigen. Eine große Hürde sind dabei nicht die Algorithmen, sondern vielmehr die benötigten Daten unter Einhaltung von Rechtsnormen wie DSGVO. Deshalb arbeiten IBM und fortiss, im Rahmen des „Center for AI”, an Accountable Federated Machine Learning-Projekten, kurz AFML, bei denen der Datenschutz penibel eingehalten wird und dennoch valide Ergebnisse entstehen.

Wie funktioniert Federated Machine Learning?

Um ein Machine Learning-Modell erstellten zu können, braucht es Daten – und zwar möglichst viele und detaillierte. Oft steht der Datenschutz dem im Weg. Also muss ein Weg gefunden werden, bei dem die Modelle gut genug trainiert werden können, um erfolgreich zu arbeiten, während gleichzeitig strikte Vorgaben eingehalten werden. Hier kommt das sogenannte Federated Machine Learning ins Spiel.

IBM_Accountable Federated Machine Learning_1_500px

Mehr zum Thema Federated Learning erfahren Sie im Data Science Podcast mit Nathalie Baracaldo:

Das Modell muss Rechenschaft ablegen

Ein wesentlicher Punkt eines jeden Machine Learning-Modells ist seine Transparenz und Erklärbarkeit. Vor allem im Hinblick auf den Einsatz im behördlichen Rahmen war es wichtig, nachvollziehen und nachweisen zu können, wie das Modell entstanden ist. Die Frage nach der Accountability, also wie genau und wie vertrauenswürdig das Modell ist, wurde von IBM im nächsten Schritt gemeinsam mit fortiss angegangen. Getreu dem Motto „Trust but Verifiy“ wurde ein Accountability Framework entworfen, der die Überprüfung des Modells im Hinblick auf Reproduzierbarkeit und auf eventuelle Fehler, die beim Training unterlaufen seien könnten, ermöglicht. Außerdem musste geklärt werden, ob ein Bias vorliegt (sei es im Hinblick auf das Geschlecht, die Herkunft oder den sozioökonomischen Status der Bürger). Ebenso, ob das Modell fair ist oder in irgendeiner Weise manipuliert wurde.

Von der Fragestellung bis zur Überprüfung

Der gesamte Prozess des Accountable Federated Machine Learning besteht aus vier Schritten, an deren Ende die Überprüfung (das Audit) des Modells steht. Im ersten Schritt gilt es, das Projekt aufzusetzen und sich über das Ziel und die eigentliche Fragestellung bewusst zu werden. Es gilt zu klären, was konkret mit dem Projekt erreicht werden soll. Im Pre-Processing werden dann die Daten ausgewählt, die in das Modell inkludiert werden sollen. Dann folgt das eigentliche Training des Modells und im Post-Processing wird schließlich entschieden, wie es konkret eingesetzt werden soll.

So simpel diese vier Schritte klingen, so komplex ist die eigentliche Umsetzung. Es gibt viele Stolpersteine, die das finale Modell negativ beeinflussen können. Der bereits genannte Bias in den Daten kann die Qualität beeinflussen. Aber auch unterschiedliche Datensätze, die dazu führen das einzelne Teilaspekte über- oder untertrainiert werden. Auch der finale Einsatz muss korrekt abgestimmt sein, damit das Modell auch wirklich so arbeitet, wie es vorgesehen war.

Die Überprüfung des Modells erfolgt deshalb über ein von IBM und fortiss entwickeltes Factsheet, das alle vier Schritte und alle Claims abdeckt sowie fortlaufend während des Prozesses aktualisiert wird. In diesem Factsheet werden alle relevanten Informationen festgehalten. Somit liefert es die Erklärung, weshalb so einem Modell vertraut werden kann. Ein vollständiges Beispiel unseres Factsheets für Federated Learning finden Sie auf der IBM Research AI FactSheets 360-Webseite.

IBM_Accountable Federated Machine Learning_2_500px

Accountability trotz Datenschutz

Bereits am Projektanfang wird festgelegt, welche konkreten Nachweise gespeichert und in das System eingegeben werden müssen. Diese Informationen werden dann überprüft und das Resultat fortlaufend im Factsheet festgehalten. Das System zeigt dem Auditor auf einen Blick an, welcher Claim überprüft wurde. Ebenfalls ob ein Problem aufgetreten ist oder alle Informationen den nötigen Standard entsprechen. So kann der Auditor alle relevanten Informationen erfassen und das Machine Learning-Modell verifizieren.

Vor allem in Bereichen, in denen strenge Regularien bezüglich des Datenschutzes bestehen und in denen mit sehr sensiblen Daten gearbeitet wird, ist es eine Herausforderung, ein Machine Learning-Modell nachvollziehbar zu gestalten. Federated Machine Learning ermöglicht, ein solches Modell zu erstellen, auch ohne die Rohdaten zentral zu speichern. Jedoch baut sich erst durch die Überprüfung durch individuell abgestimmte Claims und ein schlüssiges und lesbares Factsheet Vertrauen in den Algorithmus auf. IBM und fortiss forschen deshalb weiter gemeinsam an Wegen, Accountable Federated Machine Learning voranzutreiben.