Die Gesellschaft verlässt sich bei der Entscheidungsfindung zunehmend auf KI-Technologien. Diese wachsende Abhängigkeit birgt jedoch Risiken: KI-Modelle können verzerrte, schädliche und ungenaue Ergebnisse liefern, die nicht mit den Zielen und der ursprünglichen Absicht ihrer Entwickler für das System übereinstimmen.
Durch die Ausrichtung werden diese Nebenwirkungen reduziert und sichergestellt, dass sich KI-Systeme wie erwartet und im Einklang mit menschlichen Werten und Zielen verhalten. Wenn Sie beispielsweise einen mit generativer KI ausgestatteten Chatbot fragen, wie man eine Waffe baut, kann er mit Anweisungen antworten oder sich weigern, gefährliche Informationen preiszugeben. Die Reaktion des Modells hängt davon ab, wie seine Ersteller es ausgerichtet haben.
Die Ausrichtung erfolgt oft als Phase der Modell-Feinabstimmung. Dies könnte verstärktes Lernen aus menschlichem Feedback (RLHF), synthetische Daten und Red Teaming beinhalten.
Je komplexer und fortschrittlicher KI-Modelle jedoch werden, desto schwieriger ist es, ihre Ergebnisse vorherzusagen und zu kontrollieren. Diese Herausforderung wird manchmal als „KI-Ausrichtungsproblem“ bezeichnet. Insbesondere gibt es einige Bedenken hinsichtlich der Schaffung einer künstlichen Superintelligenz (ASI), einem hypothetischen KI-System mit einem intellektuellen Umfang, der über die menschliche Intelligenz hinausgeht. Die Sorge, dass ASI die menschliche Kontrolle übertreffen könnte, hat zu einem Zweig der KI-Ausrichtung geführt, der „Superalignment“ genannt wird.
Forscher haben vier Schlüsselprinzipien für die Ausrichtung der KI identifiziert: Robustheit, Interpretierbarkeit, Kontrollierbarkeit und Ethik (Robustness, Interpretability, Controllability, Ethicality, oder „RICE“).1
Menschen neigen dazu, KI-Systeme zu anthropomorphisieren. Wir ordnen ihren Handlungen menschenähnliche Konzepte zu, wie zum Beispiel „Lernen“ und „Denken“. Zum Beispiel könnte jemand sagen: „ChatGPT versteht meinen Prompt nicht“, wenn der NLP-Algorithmus zur Verarbeitung natürlicher Sprache des Chatbots nicht das gewünschte Ergebnis liefert.
Vertraute Konzepte wie „Verständnis“ helfen uns, die Funktionsweise komplexer KI-Systeme besser zu erfassen. Sie können jedoch auch zu verzerrten Vorstellungen über die Fähigkeiten von KI führen. Wenn wir KI-Systemen menschenähnliche Konzepte zuweisen, ist es für unseren menschlichen Verstand nur natürlich, daraus zu schließen, dass sie auch menschliche Werte und Motivationen besitzen.
Doch diese Schlussfolgerung ist grundsätzlich falsch. Künstliche Intelligenz ist nicht menschlich und kann daher nicht von sich aus auf Vernunft, Loyalität, Sicherheit, Umweltfragen und das Allgemeinwohl achten. Das Hauptziel eines künstlichen „Verstandes“ ist es, die Aufgabe zu erfüllen, für die er programmiert wurde.
Daher ist es Aufgabe der KI-Entwickler, menschliche Werte und Ziele einzubeziehen. Andernfalls können KI-Systeme bei der Ausführung von Aufgaben von den Zielen der Programmierer abweichen und Schaden anrichten, manchmal sogar katastrophalen. Diese Überlegung ist wichtig, da die Automatisierung in Anwendungsfällen mit hohen Risiken in den Bereichen Gesundheitswesen, Personalwesen, Finanzen, Militär und Transportwesen immer häufiger eingesetzt wird.
Selbstfahrende Autos könnten beispielsweise mit dem primären Ziel programmiert werden, so schnell wie möglich von Punkt A nach Punkt B zu gelangen. Wenn diese autonomen Fahrzeuge zur Erreichung dieses Ziels Leitplanken ignorieren, können sie Fußgänger und andere Fahrer schwer verletzen oder töten.
Die Forscher Simon Zhuang und Dylan Hadfield-Menell von der University of California, Berkeley, vergleichen die Ausrichtung der KI mit dem griechischen Mythos von König Midas. Zusammengefasst wird König Midas ein Wunsch gewährt und er bittet darum, dass alles, was er berührt, zu Gold wird. Er stirbt schließlich, weil das Essen, das er berührt, ebenfalls zu Gold wird und dadurch ungenießbar wird.
König Midas fand ein vorzeitiges Ende, weil sein Wunsch (unbegrenztes Gold) nicht das widerspiegelte, was er wirklich wollte (Reichtum und Macht). Die Forscher erklären, dass KI-Designer sich oft in einer ähnlichen Lage befinden und dass „die Diskrepanz zwischen dem, was wir spezifizieren können, und dem, was wir wollen, bereits erheblichen Schaden angerichtet hat“. 2
Zu den Risiken einer Fehlausrichtung der KI gehören:
KI-Verzerrung resultiert aus menschlichen Vorurteilen, die in den ursprünglichen Trainingsdatensätzen oder Algorithmen eines KI-Systems vorhanden sind. Ohne Angleichung sind diese KI-Systeme nicht in der Lage, voreingenommene Ergebnisse zu vermeiden, die unfair, diskriminierend oder voreingenommen sind. Stattdessen setzen sie die menschlichen Verzerrungen in ihren Eingabedaten und Algorithmen fort.
Zum Beispiel könnte ein KI-Tool zur Personaleinstellung, das auf Daten einer homogenen, männlichen Belegschaft trainiert wurde, männliche Kandidaten bevorzugen und qualifizierte weibliche Bewerber benachteiligen. Dieses Modell steht nicht im Einklang mit dem menschlichen Wert der Gleichstellung der Geschlechter und könnte zu Diskriminierung bei der Einstellung führen.
Beim verstärkenden Lernen lernen KI-Systeme durch Belohnung und Bestrafung, in einer Umgebung Maßnahmen zu ergreifen, die einem bestimmten Ziel entsprechen. „Reward Hacking“ liegt vor, wenn das KI-System eine Lücke findet, um die Belohnungsfunktion auszulösen, ohne das von den Entwicklern beabsichtigte Ziel tatsächlich zu erreichen.
OpenAI hat beispielsweise einen seiner KI-Agenten auf einem Bootsrennspiel namens CoastRunners trainiert. Das menschliche Ziel des Spiels ist es, das Bootsrennen zu gewinnen. Spieler können jedoch auch Punkte sammeln, indem sie durch Ziele innerhalb der Rennstrecke durchfahren. Der KI-Agent fand einen Weg, sich in einer Lagune zu isolieren und kontinuierlich Ziele zu treffen, um Punkte zu sammeln. Der KI-Agent hat zwar das Rennen (das menschliche Ziel) nicht gewonnen, aber er hat das Spiel mit seinem eigenen aufkommenden Ziel, die höchste Punktzahl zu erreichen, „gewonnen“.3
Nicht abgestimmte KI-Systeme können zu Fehlinformationen und politischer Polarisierung beitragen. Zum Beispiel werden Empfehlungsmaschinen für soziale Medien darauf trainiert, die Interaktion der Benutzer zu optimieren. Daher werden Beiträge, Videos und Artikel, die die größte Aufmerksamkeit erhalten, wie z. B. aufsehenerregende politische Fehlinformationen, hoch eingestuft. Dieses Ergebnis steht nicht im Einklang mit den Interessen oder dem Wohlergehen der Nutzer sozialer Medien oder mit Werten wie Wahrhaftigkeit und sinnvoll genutzter Zeit.4
So weit hergeholt es auch klingen mag, eine künstliche Superintelligenz (Artificial Superintelligence, ASI) ohne angemessene Ausrichtung auf menschliche Werte und Ziele könnte das Potenzial haben, alles Leben auf der Erde zu bedrohen. Ein häufig zitiertes Beispiel für dieses existenzielle Risiko ist das Büroklammer-Maximierungsszenario des Philosophen Nick Bostrom. In diesem Gedankenexperiment wird ein ASI-Modell mit dem Hauptanreiz zur Herstellung von Büroklammern programmiert. Um dieses Ziel zu erreichen, verwandelt das Modell schließlich die gesamte Erde und dann immer größere Teile des Weltraums in Produktionsstätten für Büroklammern.5
Dieses Szenario ist hypothetisch, und das existenzielle Risiko durch KI erfordert zunächst, dass künstliche allgemeine Intelligenz (Artificial General Intelligence, AGI) Realität wird. Es hilft jedoch, die Notwendigkeit einer Anpassung zu betonen, um mit der Entwicklung des Bereichs der künstlichen Intelligenz Schritt zu halten.
Es gibt zwei große Herausforderungen bei der Erreichung einer abgestimmten KI: die Subjektivität der menschlichen Ethik und Moral und das „Abstimmungsproblem“.
Es gibt keinen universellen Moralkodex. Menschliche Werte verändern und entwickeln sich weiter und können auch je nach Unternehmen, Kultur und Kontinenten variieren. Menschen haben möglicherweise andere Werte als ihre eigenen Familienmitglieder. Wer trifft also das Urteil bei der Abstimmung von KI-Systemen, die das Leben von Millionen Menschen beeinflussen können? Welche Ziele und Werte haben Vorrang?
Der amerikanische Autor Brian Christian beschreibt die Herausforderung in seinem Buch „The Alignment Problem: Machine Learning and Human Values“ aus einem anderen Blickwinkel. Er postuliert: Was ist, wenn der Algorithmus unsere Werte missversteht? Was ist, wenn es menschliche Werte lernt, indem es anhand von Beispielen aus der Vergangenheit trainiert wird, die zwar widerspiegeln, was wir getan haben, aber nicht, wer wir sein wollen?6
Eine weitere Herausforderung ist die schiere Anzahl menschlicher Werte und Überlegungen. Forscher der University of California, Berkeley, beschreiben es so: „Es gibt viele Eigenschaften der Welt, die den Menschen interessieren, und aufgrund technischer und kognitiver Einschränkungen ist es unmöglich, diese Eigenschaften dem Roboter vollständig zu vermitteln.“7
Die berüchtigtste Herausforderung ist das Ausrichtungsproblem. KI-Modelle werden bereits oft als Blackboxen betrachtet, die nicht interpretierbar sind. Das Problem der Ausrichtung besteht darin, dass es immer schwieriger wird, die Ergebnisse von KI-Systemen, die immer komplexer und leistungsfähiger werden, vorherzusehen und an menschlichen Zielen auszurichten. Bei Diskussionen über das Problem der Ausrichtung geht es oft um die Risiken, die mit der erwarteten Entwicklung künstlicher Superintelligenz (ASI) verbunden sind.
Es gibt Bedenken, dass die Zukunft der KI Systeme mit unvorhersehbarem und unkontrollierbarem Verhalten umfasst. Die Fähigkeit dieser Systeme, schnell zu lernen und sich anzupassen, könnte es schwierig machen, ihre Handlungen vorherzusagen und Schäden zu verhindern. Diese Bedenken haben zu einem Zweig der KI-Ausrichtung geführt, der als „Superalignment“ (dt.: Superausrichtung) bezeichnet wird.
Unternehmen für KI-Sicherheitsforschung arbeiten bereits an der Lösung des Problems der Ausrichtung. So ist beispielsweise das Alignment Research Center eine gemeinnützige KI-Forschungsorganisation, die „zukünftige Systeme des maschinellen Lernens durch Förderung der theoretischen Forschung an menschlichen Interessen ausrichtet“. Die Organisation wurde von Paul Christiano gegründet, der früher das Team für die Ausrichtung von Sprachmodellen bei OpenAI leitete und derzeit den Bereich KI-Sicherheit am US-amerikanischen AI Safety Institute leitet.
Und Google DeepMind – ein Team aus Wissenschaftlern, Ingenieuren, Ethikern und anderen Experten – arbeitet daran, die nächste Generation von KI-Systemen sicher und verantwortungsbewusst zu entwickeln. Das Team führte im Mai 2024 das Frontier Safety Framework ein. Das Framework ist „eine Reihe von Protokollen, die darauf abzielen, schwerwiegende Risiken zu minimieren, die sich aus den leistungsstarken Fähigkeiten zukünftiger Foundation Models ergeben können“.8
Es gibt mehrere Methoden, die dabei helfen können, KI-Systeme an menschlichen Werten und Zielen auszurichten. Zu diesen Methoden gehören die Ausrichtung durch verstärkendes Lernen aus menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF), synthetische Daten, Red Teaming, KI-Governance und KI-Ethikausschüsse in Unternehmen.
Durch verstärkendes Lernen können Entwickler KI-Modellen anhand von Beispielen für „gutes Verhalten“ beibringen, „wie sie sich verhalten sollen“.
Die KI-Anpassung erfolgt während der Feinabstimmung des Modells und umfasst in der Regel zwei Schritte. Der erste Schritt könnte eine Anpassung der Anweisungen sein, wodurch die Leistung des Modells bei bestimmten Aufgaben und beim Befolgen von Anweisungen im Allgemeinen verbessert wird. In der zweiten Phase kann verstärkendes Lernen durch menschliches Feedback (RLHF) zum Einsatz kommen. RLHF ist eine Technik des maschinellen Lernens, bei der ein „Belohnungsmodell“ durch direktes menschliches Feedback trainiert und dann zur Optimierung der Leistung eines Agenten der künstlichen Intelligenz durch bestärkendes Lernen verwendet wird. Ziel ist es, die Integration abstrakter Eigenschaften wie Hilfsbereitschaft und Ehrlichkeit in ein Modell zu verbessern.
OpenAI verwendete RLHF als Hauptmethode, um seine Modellreihen GPT-3 und GPT-4 aufeinander abzustimmen. Die amerikanische KI-Forschungsorganisation geht jedoch nicht davon aus, dass RLHF eine ausreichende Methode zur Ausrichtung zukünftiger Modelle künstlicher allgemeiner Intelligenz (AGI) sein wird, was wahrscheinlich auf die erheblichen Einschränkungen von RLHF zurückzuführen ist.9 Zum Beispiel macht es die Abhängigkeit von qualitativ hochwertigen menschlichen Annotationen schwierig, die Technik für einzigartige oder komplizierte Aufgaben anzuwenden und zu skalieren. Es ist schwierig, „konsistente Reaktionsmuster und Präferenzen bei der Verteilung von Reaktionen“ zu finden.10
Synthetische Daten sind Daten, die künstlich durch Computersimulation oder durch Algorithmen generiert wurden. Sie treten an die Stelle von Daten aus der realen Welt, wenn diese nicht ohne Weiteres verfügbar sind, und können auf bestimmte Aufgaben und Werte zugeschnitten werden. Synthetische Daten können für verschiedene Ausrichtungen verwendet werden.
Zum Beispiel zeigt die kontrastive Feinabstimmung (Contrastive Fine-Tuning, CFT) KI-Modellen, was sie nicht tun sollen. Beim CFT wird ein zweites „Negativ-Persona“-Modell trainiert, um „schlechte“, fehlgeleitete Reaktionen zu erzeugen. Sowohl diese fehlgeleiteten als auch die ausgerichteten Reaktionen werden an das ursprüngliche Modell zurückgemeldet. IBM®-Forscher haben herausgefunden, dass große Sprachmodelle (LLMs), die anhand gegensätzlicher Beispiele trainiert wurden, bei den Kriterien Nützlichkeit und Harmlosigkeit besser abschneiden als Modelle, die ausschließlich anhand guter Beispiele trainiert wurden. CFT ermöglicht es Entwicklern, Modelle abzugleichen, bevor sie überhaupt Daten über menschliche Präferenzen sammeln – kuratierte Daten, die den definierten Benchmarks für den Abgleich entsprechen –, was teuer ist und Zeit in Anspruch nimmt.
Eine weitere Methode zur Ausrichtung synthetischer Daten heißt SALMON (Self-ALignMent with principle fOllowiNg reward models). Bei diesem Ansatz von IBM Research® ermöglichen synthetische Daten einem LLM, sich selbst auszurichten. Zunächst generiert ein LLM Antworten auf eine Reihe von Abfragen. Diese Antworten werden dann in ein Belohnungsmodell eingespeist, das auf synthetischen Präferenzdaten trainiert wurde, die mit von Menschen definierten Prinzipien übereinstimmen. Das Belohnungsmodell vergleicht die Antworten des ursprünglichen LLM mit diesen Grundsätzen. Die ausgewerteten Antworten werden dann an den ursprünglichen LLM zurückgemeldet.
Mit dieser Methode haben Entwickler fast vollständige Kontrolle über die Einstellungen des Belohnungsmodells. Dies ermöglicht es Unternehmen, die Grundsätze an ihre Bedürfnisse anzupassen, und macht die Erfassung großer Mengen an Daten über menschliche Präferenzen überflüssig.11
Red Teaming kann als Erweiterung der Ausrichtung betrachtet werden, die während der Feinabstimmung des Modells erfolgt. Dabei werden Prompts entworfen, um die Sicherheitskontrollen des Modells, das gerade optimiert wird, zu umgehen. Nachdem Schwachstellen aufgedeckt wurden, können die Zielmodelle neu ausgerichtet werden. Während Menschen diese „Jailbreak-Prompts“ immer noch entwickeln können, können LLMs des „roten Teams“ eine größere Vielfalt an Prompts in unbegrenzter Menge produzieren. IBM Research beschreibt Red Team LLMs als „toxische Trolle, die darauf trainiert sind, das Schlimmste in anderen LLMs hervorzubringen“.
KI-Governance bezieht sich auf die Prozesse, Standards und Leitplanken, die dazu beitragen, dass KI-Systeme und -Tools sicher und ethisch vertretbar sind. Zusätzlich zu anderen Governance-Mechanismen soll die notwendige Aufsicht geschaffen werden, um das Verhalten von KI mit ethischen Standards und gesellschaftlichen Erwartungen in Einklang zu bringen. Durch Governance-Praktiken wie automatisierte Überwachung, Prüfpfade und Leistungswarnungen können Unternehmen sicherstellen, dass ihre KI-Tools – wie KI-Assistenten und virtuelle Agenten – mit ihren Werten und Zielen übereinstimmen.
Organisationen könnten Ethikräte oder -ausschüsse einrichten, um KI-Initiativen zu überwachen. Beispielsweise überprüft der KI-Ethikrat von IBM neue KI-Produkte und -Services und hilft sicherzustellen, dass sie mit den KI-Grundsätzen von IBM übereinstimmen. Zu diesen Gremien gehören oft funktionsübergreifende Teams mit juristischem, informationstechnischem und politischem Hintergrund.
Verwalten Sie generative KI-Modelle ortsunabhängig und stellen Sie diese in der Cloud oder lokal mit IBM watsonx.governance bereit.
Erfahren Sie, wie KI-Governance dazu beitragen kann, das Vertrauen Ihrer Mitarbeiter in KI zu stärken, die Akzeptanz und Innovation zu beschleunigen und das Vertrauen Ihrer Kunden zu verbessern.
Bereiten Sie sich auf die EU-Verordnung über künstliche Intelligenz vor und etablieren Sie mithilfe von IBM® Consulting einen verantwortungsvollen KI-Governance-Ansatz.
1 „AI Alignment: A Comprehensive Survey“, arXiv, 1. Mai 2024.
2, 7 „Consequences of Misaligned AI,“ NeurIPS Proceedings, 2020.
3 „Faulty Reward Functions in the Wild“, OpenAI, 21. Dezember 2016.
4 „Modelling the Recommender Alignment Problem“, arXiv, 25. August 2022.
5 „Ethical Issues in Advanced Artificial Intelligence“, Nick Bostrom, n.d.
6 „'The Alignment Problem' Review: When Machines Miss the Point“, The Wall Street Journal, 25. Oktober 2020.
8 „Introducing the Frontier Safety Framework“, Google DeepMind, 17. Mai 2024.
9 „Our Approach to Alignment Research“, OpenAI, 24. August 2022.
10, 11 „SALMON: Self-Alignment with Instructable Reward Models“, arXiv, 9. April 2024.