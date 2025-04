Synthetische Daten sind Daten, die künstlich durch Computersimulation oder durch Algorithmen generiert wurden. Sie treten an die Stelle von Daten aus der realen Welt, wenn diese nicht ohne Weiteres verfügbar sind, und können auf bestimmte Aufgaben und Werte zugeschnitten werden. Synthetische Daten können für verschiedene Ausrichtungen verwendet werden.

Zum Beispiel zeigt die kontrastive Feinabstimmung (Contrastive Fine-Tuning, CFT) KI-Modellen, was sie nicht tun sollen. Beim CFT wird ein zweites „Negativ-Persona“-Modell trainiert, um „schlechte“, fehlgeleitete Reaktionen zu erzeugen. Sowohl diese fehlgeleiteten als auch die ausgerichteten Reaktionen werden an das ursprüngliche Modell zurückgemeldet. IBM®-Forscher haben herausgefunden, dass große Sprachmodelle (LLMs), die anhand gegensätzlicher Beispiele trainiert wurden, bei den Kriterien Nützlichkeit und Harmlosigkeit besser abschneiden als Modelle, die ausschließlich anhand guter Beispiele trainiert wurden. CFT ermöglicht es Entwicklern, Modelle abzugleichen, bevor sie überhaupt Daten über menschliche Präferenzen sammeln – kuratierte Daten, die den definierten Benchmarks für den Abgleich entsprechen –, was teuer ist und Zeit in Anspruch nimmt.

Eine weitere Methode zur Ausrichtung synthetischer Daten heißt SALMON (Self-ALignMent with principle fOllowiNg reward models). Bei diesem Ansatz von IBM Research® ermöglichen synthetische Daten einem LLM, sich selbst auszurichten. Zunächst generiert ein LLM Antworten auf eine Reihe von Abfragen. Diese Antworten werden dann in ein Belohnungsmodell eingespeist, das auf synthetischen Präferenzdaten trainiert wurde, die mit von Menschen definierten Prinzipien übereinstimmen. Das Belohnungsmodell vergleicht die Antworten des ursprünglichen LLM mit diesen Grundsätzen. Die ausgewerteten Antworten werden dann an den ursprünglichen LLM zurückgemeldet.

Mit dieser Methode haben Entwickler fast vollständige Kontrolle über die Einstellungen des Belohnungsmodells. Dies ermöglicht es Unternehmen, die Grundsätze an ihre Bedürfnisse anzupassen, und macht die Erfassung großer Mengen an Daten über menschliche Präferenzen überflüssig.11