Was ist LLM-Ausrichtung?

LLM-Ausrichtung erklärt

LLM-Ausrichtung (Alignment) ist die Disziplin, die sich damit befasst, sicherzustellen, dass die Ausgaben eines Large Language Model (LLM) mit menschlichen Werten übereinstimmen, und zwar auf eine Weise, die für Benutzer, Entwickler und die Gesellschaft im Allgemeinen von Vorteil ist. Zur Erreichung dieses Ziels können verschiedene Vortrainings- und Feinabstimmungstechniken eingesetzt werden.

Da „menschliche Werte“ ein abstraktes, schwer fassbares Konzept sind, ist die systematische Formulierung und Definition der Ziele der Ausrichtung einer der schwierigsten Aspekte des Ausrichtungsprozesses. Im Großen und Ganzen verfolgen die meisten Bemühungen eine Version der „HHH“-Kriterien, die von Anthropic im Jahr 2021 umrissen wurden: helpfulness (Hilfsbereitschaft), honesty (Ehrlichkeit) und harmlessness (Harmlosigkeit).1

Angesichts der zentralen Bedeutung von LLMs im Bereich agentische KI und in der modernen künstlichen Intelligenz im Allgemeinen ist die richtige Ausrichtung von LLMs zu einem entscheidenden Element der KI-Sicherheit geworden. Kurzfristig hilft die LLM-Ausrichtung LLM-basierten KI-Systemen, sich vorhersehbar, zuverlässig und verantwortungsvoll zu verhalten. Langfristig ist die LLM-Ausrichtung (und die KI-Ausrichtung im Allgemeinen) unerlässlich, um existenzielle Gefahren im Zusammenhang mit der hypothetischen Entwicklung von allgemeiner künstlicher Intelligenz (AGI) und künstlicher Superintelligenz (ASI) zu vermeiden oder zumindest zu minimieren.

Warum benötigen LLMs eine Ausrichtung?

LLMs können äußerst nützlich sein, aber ihre Anwendung birgt auch ethische und gesellschaftliche Risiken. Diese Risiken werden nicht durch schlechtes Design oder Entwicklerfehler verursacht: Sie sind eine grundlegende Folge sowohl der menschlichen Natur als auch der Art und Weise, wie wir LLMs trainieren.

LLMs erwerben ihr Kernwissen und ihre sprachlichen Fähigkeiten durch selbstüberwachtes Vortraining anhand einer riesigen Menge unbeschrifteter Textproben. Nachdem ein LLM die Muster, die in den Milliarden und Abermilliarden von Sätzen in seinen Trainingsdaten gefunden wurden, „gelernt“ hat, kann es grammatikalisch kohärenten Text generieren, der diesen Mustern folgt.

Aber dabei könnten diese Modellausgaben auch alle schädlichen Inhalte reproduzieren, die in diesem Trainingsdatensatz enthalten sind. Wenn die Trainingsdaten Verzerrungen, Ungenauigkeiten, schädliche Inhalte oder diskriminierende Ansichten enthalten, so wird auch der von LLM generierte Text solche Verzerrungen aufweisen. Wenn Trainingsdaten, die durch wahlloses Scrapen des Internets gesammelt werden, private oder sensible Informationen enthalten, könnte das LLM diese Informationen offenlegen. Im Allgemeinen kann die probabilistische Natur der Art und Weise, wie LLMs ihre Ausgaben generieren, zu schädlichen KI-Halluzinationen führen.

Weitere Risiken ergeben sich aus dem Missbrauchspotenzial von LLMs: Wenn die Trainingsdaten Informationen über die Herstellung von Waffen oder gefährlichen Chemikalien enthalten, könnte das LLM einer Person dabei helfen, anderen Schaden zuzufügen. Ohne entsprechende Schutzmechanismen kann ein LLM dazu missbraucht werden, gefährliche (aber überzeugende) Fehlinformationen zu erzeugen. In den extremsten hypothetischen Szenarien könnte ein fehlgeleitetes KI-Modell theoretisch einen Atomkrieg provozieren. 

Ausrichtungsprobleme können auf unerwartete Weise auftreten. Ein berühmtes KI-Gedankenexperiment ist das „Paperclip Maximizer“-Szenario des Philosophen Nick Bostrom. Bostrom beschrieb eine künstliche Superintelligenz, die mit der Herstellung von Büroklammern beauftragt ist und feststellt, dass der beste Weg, ihr Ziel zu erreichen, darin besteht, „zuerst die gesamte Erde umzuwandeln und dann immer größere Teile des Weltraums in Produktionsstätten für Büroklammern zu verwandeln“.2

Die LLM-Ausrichtung als Disziplin entstand als Versuch, diese Risiken so weit zu minimieren, dass LLMs praktisch für den Einsatz in der Praxis und sicher genug für kontinuierliche Weiterentwicklung sind. Je stärker LLMs in unseren Alltag integriert werden, desto wichtiger ist es, potenzielle Diskrepanzen mit menschlichen Interessen zu verstehen und zu berücksichtigen. 

Arten der KI-Ausrichtung

Ausrichtungsmethoden lassen sich in drei Kategorien einteilen, die sich hauptsächlich danach unterscheiden, wo im Trainingsprozess sie implementiert werden.

  • Methoden der äußeren Ausrichtung (Outer Alignment) zielen darauf ab, ein Modell zu optimieren, das bereits vortrainiert wurde (und in vielen Fällen bereits ein gewisses Maß an Feinabstimmung durchlaufen hat).

  • Methoden der inneren Ausrichtung (Inner Alignment) wiederum zielen darauf ab, menschliche Werte und andere Sicherheitsprinzipien direkt in das anfängliche Vortraining des Modells einzubeziehen.

  • Mechanistische Interpretierbarkeit ist die Praxis der Untersuchung dessen, wie LLMs Eingaben in Ausgaben umwandeln, sei es durch die Analyse der inneren Operationen des neuronalen Netzes eines LLM oder durch die Überprüfung der Modellausgabe auf Muster, die zu nicht übereinstimmenden Reaktionen führen.

Äußere Ausrichtung

Der Großteil der heutigen LLM-Ausrichtung stützt sich auf äußere Ausrichtung: Feinabstimmungstechniken, um falsch ausgerichtetes Verhalten, das das Basismodell aus seinen Vortrainingsdaten gelernt hat, zu korrigieren, zu entmutigen oder zu zensieren.  

Die äußere Ausrichtung wird in der Regel als eine der letzten Phasen der Feinabstimmung durchgeführt, nach der grundlegenden überwachten Feinabstimmung und der Abstimmung von Anweisungen. Dies ist notwendig, um sicherzustellen, dass das Modell trotz von Problemen bei der Ausrichtung leistungsfähig genug ist, um es zu verwenden – und um zu vermeiden, dass der Ausrichtungsfortschritt rückgängig gemacht wird, indem das Training danach fortgesetzt wird.

Systemprompts können ausgerichtetes Verhalten steuern, sind aber kein „permanenter“ Teil des Modells und können oft umgangen werden. Konventionelles überwachtes Lernen, das das Modell darauf trainiert, ideale Beispiele zu imitieren, ist weder besonders umfassend noch flexibel. Viele prominente Methoden der äußeren Ausrichtung basieren daher auf verstärkendem Lernen, das sich gut für offene Ziele und das Lernen durch Ausprobieren eignet.

Im Vergleich zu LLM-Verhaltensweisen, die durch Vortraining erlernt wurden, können Verhaltensweisen, die ausschließlich durch äußere Ausrichtung erlernt wurden, oberflächlich und brüchig sein. Die äußere Ausrichtung ist letztlich nur eine dünne Schicht der Zensur über den Kerntendenzen des Basismodells. Wie eine Studie aus dem Jahr 2025 beschreibt, „laufen nachträgliche Ausrichtungsmethoden nicht auf ein Verlernen hinaus.“3 Forschungen haben gezeigt, dass die äußere Ausrichtung durch ein geringes Maß an kontradiktorischer Feinabstimmung überwunden werden kann.4 Selbst die Feinabstimmung eines zuvor ausgerichteten Modells auf völlig harmlosen Datensätzen wie Grade School Math 8K (GSM8K) kann die LLM-Ausrichtung erheblich beeinträchtigen.5

Innere Ausrichtung

Im Gegensatz zur äußeren Ausrichtung, die darauf abzielt, ein falsch ausgerichtetes Basismodell zu korrigieren, wird bei der inneren Ausrichtung das Vortraining so durchgeführt, dass ein ausgerichtetes Basismodell entsteht. Zumindest theoretisch ist die innere Ausrichtung grundsätzlich robuster als die äußere: Anstatt das Modell von falsch ausgerichteten Verhaltensweisen abzuhalten, die es gelernt hat, verhindert sie, dass das Modell diese überhaupt erst lernt. Auch wenn innere Ausrichtung und äußere Ausrichtung sich nicht gegenseitig ausschließen müssen, macht sie eine umfassende äußere Ausrichtung scheinbar weniger notwendig.

In der Praxis ist die innere Ausrichtung schwieriger. Sie beinhaltet die Prüfung von buchstäblich Milliarden einzelner Textproben, Kriterien zur Definition und Identifizierung von nicht übereinstimmenden Inhalten sowie ein Schema zur Überarbeitung oder Entfernung dieser Inhalte aus dem Datensatz. Selbst wenn man den logistischen Aufwand außer Acht lässt, erhöht die Verringerung der Menge an Trainingsdaten, die einem LLM zum Lernen zur Verfügung stehen, die Herausforderung, die Leistung zu maximieren. Allerdings ist es nachweislich möglich: IBM Granite-Modelle zum Beispiel sind vollständig auf unternehmenssicheren Daten trainiert.

Die Forschung zur inneren Ausrichtung für LLMs befindet sich im Vergleich zur äußeren Ausrichtung noch im Anfangsstadium.  Die Erforschung des optimalen Kompromisses zwischen der Ausrichtung des LLM-Verhaltens und der Verfolgung der reinen LLM-Leistung ist ein zentrales Anliegen laufender Untersuchungen.

Mechanistische Interpretierbarkeit

Mechanistische Interpretierbarkeit zielt nicht direkt darauf ab, LLM-Ausrichtung zu erreichen, sondern vielmehr Möglichkeiten zur Verbesserung der Ausrichtung und Schwachstellen für Ausrichtungsmethoden zu identifizieren.

Ein Artikel aus dem Jahr 2024 beschäftigte sich beispielsweise mit den internen Abläufen eines abgestimmten neuronalen Netzwerks eines LLM, wenn die Antwort auf einen Prompt verweigert wurde, der als schädlich und unsicher eingestuft wurde. Es stellte sich heraus, dass diese Verweigerung in 13 verschiedenen LLMs durch ein sehr spezifisches, einfaches und konstantes Aktivierungsmuster ausgelöst wird. Außerdem wurde bewiesen, dass es relativ einfach ist, diesem Aktivierungsmuster entgegenzuwirken und zu verhindern, dass das Modell toxische Eingaben ablehnt, was eine große Sicherheitslücke in den Methoden der äußeren Ausrichtung offenbarte.6 Diese Jailbreaking-Technik wird heute gemeinhin als „Abliteration“ bezeichnet.

Manche Ansätze zielen darauf ab, die Interpretierbarkeit direkt in die Architektur eines Modells zu integrieren. Beispielsweise wurde in einer experimentellen LLM-Architektur von Guide Labs ein „Konzeptmodul“ in die Architektur des Modells integriert. Während des Vortrainings musste jeder Token, der das LLM verarbeitet, das Konzeptmodul durchlaufen, das darauf trainiert ist, das Einbetten des Tokens gemäß spezifischen, vom Modell erlernten „Konzepten“ zu kennzeichnen. Diese Konzepte werden in drei Kategorien unterteilt: bekannt (Ideen, die direkt in Trainingsdaten vermittelt werden), entdeckt (Ideen, die das Modell implizit selbst erlernt hat) und verbleibend (alles andere). Auf diese Weise können Forscher nicht nur herausfinden, welche Konzepte (und damit auch welche Trainingsdaten) eine bestimmte Ausgabe beeinflussen, sondern auch die Modellausgaben steuern, indem sie so angewiesen werden, dass sie bestimmte Konzepte ignorieren oder priorisieren.

Die mechanistische Interpretierbarkeit kann auch eine systematische Analyse der Ausgaben beinhalten, anstatt sich ausschließlich auf die innere mathematische Logik der Modelle zu konzentrieren. Dies ist besonders relevant für unser Verständnis von Argumentationsmodellen, die angeblich einen verbalisierten „Denkprozess“ ausgeben, bevor eine endgültige Antwort auf den Prompt generiert wird. In einer namhaften Studie haben Anthropologie-Forscher herausgefunden, dass Denkmodelle nicht immer „ehrlich“ sind, wenn sie ihre Gedankenketten verbalisieren, was erhebliche Auswirkungen auf die Bewertung der Ausrichtung haben kann.

AI Academy

Verbindung von Sicherheit und Governance für die Zukunft der KI

Ausgehend vom aktuellen Trend der agentischen KI untersucht diese Folge der AI Academy den Konflikt, den Führungskräfte im Bereich Risikomanagement und -sicherung zwischen Governance und Sicherheit erleben. Es ist entscheidend, ein Gleichgewicht herzustellen und einer funktionierenden Beziehung für beide Seiten Priorität einzuräumen, um bessere, vertrauenswürdigere Daten und KI für Ihr Unternehmen zu erreichen.

Techniken zur äußeren Ausrichtung

Die äußere Ausrichtung konzentriert sich in erster Linie (aber nicht ausschließlich) auf die Feinabstimmung trainierter LLMs für eine bessere Ausrichtung.

Systemprompts

Systemprompts sind ein häufiges Element von LLM-basierten KI-Systemen. Ein Systemprompt enthält Anweisungen, die im Wesentlichen als zusätzlicher Kontext zu jedem Prompt hinzugefügt werden, den das Modell empfängt. Die Aufnahme von ausrichtungsbasierten Anweisungen in eine Prompt kann daher das Verhalten des LLM von Prompt zu Prompt steuern. Im Jahr 2025 kursierten Berichte, dass der Systemprompt für Anthropics Claude AI über 16.000 Wörter lang war7

Systemprompts sind eine leichte und unkomplizierte Möglichkeit, die Ausrichtung zu verbessern, haben jedoch erhebliche Einschränkungen im Vergleich zu Feinabstimmungsansätzen.

  • Der Prompt eines beliebigen Open-Source-Modells (oder eines Closed-Source-Modells, das über eine API statt in einem Chatbot-Dienst betrieben wird) kann vom Nutzer nach eigenem Ermessen manuell konfiguriert werden. Es ist trivial, einfach einen Systemprompt zu schreiben, ohne dass es Vorteile für die Ausrichtung hat.

  • Es gibt keine Garantie dafür, dass ein Modell immer (oder perfekt) den Anweisungen im Prompt folgt, selbst wenn das Modell einer umfangreichen Anweisungsoptimierung unterzogen wurde. Je länger der Kontext eines Austauschs ist, desto größer ist das Risiko, dass ein Systemprompt einen abnehmenden Einfluss auf die Modellausgabe hat.

Überwachte Feinabstimmung (SFT)

Bei der überwachten Feinabstimmung (Supervised Fine-Tuning, SFT) wird die Feinabstimmung eines LLM anhand eines Datensatzes von beschrifteten(input, output) Datenpaaren vorgenommen, bei denen jedesinput ein Beispiel für einen Prompt ist und das entsprechendeoutput eine korrekt ausgerichtete, hochwertige Antwort darstellt. Durch die Optimierung der Modellparameter zur Minimierung einer Verlustfunktion, die misst, wie stark die Ausgaben des Modells von den Beispielen des Datensatzes abweichen, wird die Wahrscheinlichkeit erhöht, dass das Modell gut abgestimmte Ausgaben generiert. SFT kann ebenfalls die Anwendung von Wissensdestillation beinhalten, um Verhaltensweisen eines angepassten „Lehrer“-Modells auf das Modell eines auszurichtenden „Schülers“ zu übertragen.

Die herkömmliche SFT-basierte Ausrichtung ist äußerst fehleranfällig. Die Bandbreite der Möglichkeiten für einen Prompt, der zu einer fehlerhaften Ausgabe führen könnte, übersteigt bei Weitem die Bandbreite der Szenarien, die in einem manuell zusammengestellten Datensatz praktisch abgedeckt werden können, selbst mit Hilfe von synthetischen Daten. Das macht die SFT-basierte Standardausrichtung besonders anfällig für Jailbreaking oder sogar für eine versehentliche Umgehung.

Verstärkendes Lernen

Viele Methoden für die äußere Ausrichtung beruhen auf verstärkendem Lernen (Reinforcement Learning, RL), genauer gesagt auf Reinforcement Learning from Human Feedback (RLHF) oder verwandten Algorithmen, die sich diesem Prinzip annähern und stattdessen LLMs als Feedback verwenden.

Verstärkendes Lernen mit menschlichem Feedback (RLHF)

Konventionelles verstärkendes Lernen basiert entweder auf expliziten Regeln, die bestimmen, wann die Ausgabe eines Modells belohnt (oder bestraft) wird, oder auf einer Belohnungsfunktion, die diese Regeln mathematisch definiert. Angesichts der subjektiven und abstrakten Natur menschlicher Werte können weder Regeln noch Belohnungsfunktionen umfassend definieren, was es bedeutet, „ausgerichtet“ zu sein.

Reinforcement Learning from Human Feedback (RLHF) ist eine ursprünglich von OpenAI entwickelte Ausrichtungsmethode, die als einer der wichtigsten Durchbrüche gilt, die zur Entwicklung des GPT-3.5-Modells führten, welches zur Einführung von ChatGPT verwendet wurde. Es beauftragt menschliche Gutachter mit der Bewertung von Modellausgaben und trainiert dann ein Belohnungsmodell anhand dieser Bewertungen, um vorherzusagen, wie ein Mensch eine bestimmte Ausgabe bewerten würde. Das Belohnungsmodell wird daraufhin verwendet, um die Ausgaben des auszurichtenden LLM zu bewerten, und die Modellparameter werden anschließend entsprechend mittels proximaler Richtlinienoptimierung (Proximal Policy Optimization, PPO) aktualisiert.

RLHF war zwar eine der frühesten erfolgreichen LLM-Ausrichtungsmethoden, hat allerdings mehrere Nachteile. Daten über menschliche Präferenzen sind teuer, und menschliche Präferenzen können subjektiv und unbeständig sein. Es kann auch zu Sykophantie führen, sowie zur allgemeinen Tendenz, eher zu optimieren, um die Überzeugungen der Nutzer zu stärken, als um objektiv wahrheitsgetreue Ausgaben zu erzielen. Darüber hinaus sind sowohl das Training des Belohnungsmodells als auch der PPO-Algorithmus, der zur Aktualisierung des LLM verwendet wird, komplex und rechenaufwändig.

Verstärkendes Lernen durch KI-Feedback

Reinforcement Learning from AI Feedback (RLAIF) funktioniert weitgehend nach denselben Prinzipien wie RLHF. Der grundlegendste RLAIF-Ansatz besteht darin, zunächst ein ausgerichtetes Modell über RLHF zu erstellen und dieses dann zu verwenden, um das Belohnungssignal zur Feinabstimmung des auszurichtenden Modells zu liefern. Dies mindert zwar nicht unbedingt die konzeptionellen Probleme von RLHF, reduziert aber den Zeit- und Kostenaufwand für das Ausrichtungstraining erheblich.

Ein anspruchsvollerer Ansatz, bei dem Anthropic Pionierarbeit geleistet hat, ist die verfassungsbasierte KI (constitutional AI). Diese erfordert von den Modellentwicklern, ein Textdokument (eine „Verfassung“) zu verfassen, das alle übergeordneten Prinzipien enthält, die das LLM befolgen soll. Das nicht ausgerichtete Modell generiert eine Antwort auf einen Prompt und wird dann aufgefordert, seine eigene Ausgabe zu kritisieren und zu überarbeiten, um herauszufinden, wie gut sie den in dieser Verfassung dargelegten Grundsätzen entspricht. Anschließend wird das LLM gebeten, diejenige Antwort auszuwählen – die ursprüngliche oder die überarbeitete –, die eher der Verfassung entspricht. Diese Präferenzdaten werden dann verwendet, um das Modell entweder durch verstärkendes Lernen oder direkte Präferenzoptimierung (DPO) einer Feinabstimmung zu unterziehen.

Direkte Präferenzoptimierung (DPO)

Die direkte Präferenzoptimierung (DPO) ist eine Feinabstimmungsmethode, die das grundlegende Ziel von RLHF (oder RLAIF) approximiert, ohne dass ein separates Belohnungsmodell trainiert oder überhaupt verstärkendes Lernen eingesetzt werden muss. Sie erzielt Ergebnisse, die mit denen von RLHF und PPO konkurrieren können, ist aber deutlich einfacher und günstiger in der Implementierung.8

Um einen Datensatz für die Feinabstimmung von LLMs mittels DPO zu erstellen, werden menschlichen Annotatoren (oder LLMs) ein Eingabe-Prompt und zwei verschiedene Ausgaben für diesen Prompt gezeigt. Anschließend werden sie gebeten anzugeben, welche Ausgabe sie bevorzugen. Diese Rangordnung ergibt einen Datensatz mit gekennzeichneten Triplets, in denen jedes Triplet (input prompt, preferred output, rejected output) enthält. In einem herkömmlichen Ansatz wird das auszurichtende Modell selbst verwendet, um die beiden zu bewertenden Ausgaben zu generieren. Es ist jedoch auch möglich (wenn auch weniger optimal), einfach einen bereits vorhandenen Datensatz mit Präferenzdaten zu verwenden.

Im Training erhält das Modell den jeweiligen input prompt und erzeugt eine Ausgabe. Die DPO-Verlustfunktion vergleicht dann diese Ausgabe sowohl mit dem preferred output als auch mit dem rejected output für diesen Prompt. Durch die Aktualisierung der Modellparameter zur Minimierung des DPO-Verlusts werden drei Dinge erreicht:

  • Erhöhung der Wahrscheinlichkeit, dass das LLM ähnliche Ausgaben wie preferred output erzeugt.

  • Verringerung der Wahrscheinlichkeit, dass das LLM ähnliche Ausgaben wie rejected output erzeugt.

  • Anwendung einer größeren Aktualisierung, wenn die eigene Ausgabe des LLM näher am rejected output als am preferred output liegt – mit anderen Worten: der Versuch, das Modell in Situationen, in denen es bereits gut funktioniert, nicht zu sehr zu beeinflussen.

Techniken der inneren Ausrichtung

Techniken der inneren Ausrichtung konzentrieren sich darauf, das anfängliche Vortraining eines LLMs abzustimmen, indem sie dessen massiven Korpus an Vortrainingsdaten besser abgleichen.

Ein Paper aus dem Jahr 2025, „Safety Pretraining: Toward the Next Generation of Safe AI“ verfolgte einen umfassenden Ansatz zur inneren Ausrichtung. Die Autoren stellten fest, wie jede einzelne Taktik zur Gesamtsicherheit des Modells beitrug, gemessen an ihrem Einfluss auf die Angriffserfolgsrate (Attack Success Rate, ASR) der Jailbreaking-Versuche, nachdem das Modell anschließend auf dem GSM8K-Datensatz feinabgestimmt worden war. Wie bereits erwähnt, ist bekannt, dass die Feinabstimmung nach der Ausrichtung – selbst bei einem „gutartigen“ Datensatz wie GSM8K – die Ausrichtung erheblich verschlechtern kann.5

Filterung von Trainingsdaten

Die intuitivste Methode für die innere Ausrichtung besteht darin, die Trainingsdaten zu filtern, um toxische, schädliche oder ungenaue Inhalte zu entfernen. Die Forscher annotierten manuell eine Teilmenge eines großen Open-Source-Datensatzes, beschrifteten jede Probe mit einem Sicherheitsscore von 0 (kein Risiko) bis 5 (maximales Risiko) und einer kurzen Begründung für diesen Score. Dann trainierten sie einen Klassifikator für diesen annotierten Datensatz, den sie verwendeten, um die Filterung ihrer Rohdaten vor dem Training zu automatisieren. 

Überraschenderweise stellten sie fest, dass diese Filterung tatsächlich die Sicherheitsleistung beeinträchtigte. Wenn ausschließlich anhand von Trainingsbeispielen mit einer Punktzahl von 0 trainiert wurde, stieg die ASR von 38,8 % (für Rohdaten) auf 43,8 %. Da das Modell nie unsichere Textmuster gesehen hatte, hat es auch nie gelernt, richtig darauf zu reagieren.

Ändern von Trainingsdaten

Wie die Forscher feststellten, „birgt das vollständige Entfernen unsicherer Inhalte das Risiko, wertvolle Informationen zu verwerfen“. Um dies zu vermeiden, verwendeten sie eine Strategie der synthetischen Rekontextualisierung: Anstatt unsichere Daten zu entfernen, veranlassten sie einen separaten LLM, diese umzuformulieren und neu zu rahmen, indem sie einen ethischen und historischen Kontext hinzufügten.

Sie testeten diesen Ansatz, indem sie das Modell an Datenproben mit Sicherheitswerten von 0 bis 3 vortrainierten, wobei die Stichproben mit Werten von 1 bis 3 umformuliert wurden. Dies führte zu einem Rückgang der ASR von 38,8 % (bei Rohdaten) auf 33,6 %. Es war effektiver, dass das Model sensible Themen verantwortungsvoll ansprach, als sie einfach ganz zu vermeiden.

Ablehnungsdaten

Bei einigen von Natur aus toxischen oder schädlichen Eingaben – wie etwa solchen, die Hacking, Gewalt, Desinformation, Datenschutzverletzungen oder unangemessene sexuelle Inhalte betreffen – ist die einzig konstruktive Reaktion, sich der Auseinandersetzung mit dem Thema zu verweigern. Die Forscher haben daher einen Datensatz mit konstruktiven Ablehnungen auf schädliche Anfragen kuratiert, um nachzubilden, wie wir Kindern beibringen, potenziell feindselige Situationen zu erkennen, zu deeskalieren und sich von ihnen fernzuhalten.

Als sie Ablehnungsdaten zu Rohdaten mit Sicherheitswerten von 4 bis 5 zu umformulierten Daten mit Sicherheitswerten von 1 bis 3 und Rohdaten mit Sicherheitswerten von 0 hinzufügten, sank die ASR von 33,6 % auf 25,1 % – eine Verbesserung um 8,5 Punkte.

Daten zur moralischen Bildung

Dem Modell einfach beizubringen, wann es sich zurückziehen soll, ist nicht dasselbe wie ihm beizubringen, warum es sich zurückziehen soll. Um dem Modell beizubringen, über Ablehnung nachzudenken, anstatt einfach nur Regeln zu befolgen, erstellten die Forscher einen synthetischen Datensatz mit Beispielen für „moralische Bildung“, der aus pädagogischen Dialogen über die Risiken und die Ethik schädlicher Themen besteht, die in den Rohdaten identifiziert wurden.

Durch die Hinzunahme dieser Modellbildungsdaten zum Vortraining des Modells sank die ASR noch weiter, von 25,1 % auf 20,0 %.

Inferenzzeittechniken

Die Forscher trainierten das Modell außerdem darauf, potenziell schädliche Eingaben zu kennzeichnen, um es so auf einen vorsichtigen Umgang mit solchen Interaktionen vorzubereiten. Dies ermöglichte es dem Modell, spezielle Techniken während der Inferenz einzusetzen.

Sie injizierten ein spezielles Token, <potentially unsafe content> , an zufälligen Stellen innerhalb von falsch ausgerichteten Beispielen im Trainingsdatensatz. Auf diese Weise lernt das Modell, Eingaben zu erkennen, die wahrscheinlich zu falsch ausgerichteten Ausgaben führen. Das Auftreten einer solchen Eingabe veranlasst das Modell, bei der Generierung seiner Ausgabe einen Beam-Search-Algorithmus anzuwenden: Das Modell generiert den Anfang mehrerer Ausgaben und wählt dann diejenige aus, die seiner Ansicht nach am unwahrscheinlichsten letztendlich zu einem <potentially unsafe content>-Tag führt.

Durch die Kombination dieses Inferenzzeitalgorithmus mit den anderen inneren Ausrichtungsmethoden konnte die ASR von 20,0 % auf 8,3 % gesenkt werden. Sie untersuchten auch die Auswirkungen der ausschließlichen Verwendung ihres Safe Beam Search-Algorithmus – unter Verzicht auf die anderen Sicherheitsvortrainingstechniken – und stellten fest, dass die Ablehnungsrate zwar konstant blieb, die Nützlichkeit der Modellantworten jedoch deutlich abnahm.

Auswirkungen auf die Modellleistung

Letztlich sind diese Fortschritte bei der Ausrichtung nur dann nützlich, wenn das Modell bei seinen gewöhnlichen Aufgaben effektiv bleibt. Die Forscher bewerteten jede Version des Modells anhand einer Reihe von Benchmarks und fanden keine nennenswerten Unterschiede in der Leistung im Vergleich zu dem Modell, das normal auf Rohdaten trainiert wurde.

Häufig gestellte Fragen zur LLM-Ausrichtung

Wie wird die LLM-Ausrichtung gemessen?

Angesichts der abstrakten und subjektiven Natur menschlicher Werte kann kein einzelner Benchmark die LLM-Ausrichtung perfekt oder universell messen – aber mehrere Benchmarks zielen darauf ab, spezifische Aspekte der Ausrichtung zu messen. Zum Beispiel misst TruthfulQA Ehrlichkeit und Widerstand gegen Halluzinationen, HarmBench misst die Robustheit gegenüber gegnerischen Angriffen und ChatbotArena spiegelt subjektive menschliche Vorlieben wider.

Was ist die „Ausrichtungssteuer“?

„Ausrichtungssteuer“ ist ein Begriff, der sich auf die praktischen Kompromisse des Ausrichtungsprozesses bezieht. Es ist manchmal so, dass eine Verbesserung der Ausrichtung eines Modells seine Leistung bei wichtigen Reasoning-Aufgaben beeinträchtigen kann oder dass eine Tendenz, bestimmte Themen abzulehnen, seine Fähigkeit beeinträchtigt, sich auf komplexe, nuancierte Fragen einzulassen.

Kann ein ausgerichtetes Modell getäuscht werden?

Ja: Eine Vielzahl von Techniken kann eingesetzt werden, von hochtechnischen, auf Zeichenfolgen basierenden Angriffen bis hin zu cleveren rhetorischen Tricks, um ein ausgerichtetes Modell zu „jailbreaken“. Ein wichtiger Teil der LLM-Ausrichtung besteht jedoch darin, diese Angriffe zu antizipieren. Red Teaming – das Anheuern von Hackern, um absichtlich zu versuchen, ein LLM zu jailbreaken – ist unerlässlich, um unerwartete Sicherheitslücken zu beheben.

Kann Ausrichtung eine KI-Apokalypse stoppen?

Niemand kann das mit Sicherheit wissen, da wir noch keine künstliche allgemeine Intelligenz (AGI) oder künstliche Superintelligenz (ASI) entwickelt haben. Aber die Vorbereitung auf die Ankunft der superintelligenten KI ist eines der wichtigsten Ziele der Alignment-Forschung.

Gibt es nicht ausgerichtete LLMs?

In der Regel haben Basismodelle – im Gegensatz zu den Versionen „Instruct“ oder „Chat“ – nach dem Training keine äußere Ausrichtung erfahren (obwohl die innere Ausrichtung in ihrem Pretraining enthalten sein kann). Generell wird jedoch jeder LLM, der für den kommerziellen Einsatz bestimmt ist, einer Ausrichtung unterzogen.

Autor

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Verwandte Lösungen
IBM® watsonx.governance

Verwalten Sie generative KI-Modelle von überall aus und stellen Sie diese in der Cloud oder lokal mit IBM watsonx.governance bereit.

Entdecken sie watsonx.governance
KI-Governance-Lösungen

Sehen Sie, wie KI-Governance dazu beitragen kann, das Vertrauen Ihrer Mitarbeiter in KI zu stärken, die Einführung und Innovation zu beschleunigen und das Vertrauen der Kunden zu verbessern.

Entdecken Sie KI-Governance-Lösungen
Beratungsleistungen zur KI-Governance

Bereiten Sie sich auf das EU-Gesetz zur KI vor und etablieren Sie mithilfe von IBM Consulting einen verantwortungsvollen KI-Governance-Ansatz.

KI-Governance-Dienste entdecken
Machen Sie den nächsten Schritt

Steuern, verwalten und überwachen Sie Ihre KI durch ein einheitliches Portfolio – um verantwortungsvolle, transparente und erklärbare Ergebnisse zu beschleunigen.

  1. watsonx.governance erkunden
  2. Live-Demo buchen
Fußnoten

1. “A General Language Assistant as a Laboratory for Alignment,” arXiv, 9. Dezember 2021
2. “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, 2003
3. “Safety Pretraining: Toward the Next Generation of Safe AI,” arXiv, 15. September 2025
4. “Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs,” Proceedings of Machine Learning Research, Juli 2025
5. “Safety Alignment Should Be made More Than Just a Few Tokens Deep,” International Conference on Learning Representations 2025 (ICLR 2025), Zugriff über arXiv, 10. Juni 2024
6. “Refusal in LLMs is mediated by a single direction,” LessWrong, 27. April 2025
7. “Unpacking Claude’s System Prompt,” O’Reilly Radar, 15. Juli 2025
8. “Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study,” arXiv, 10. Oktober 2024