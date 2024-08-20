Technologiegiganten setzen stark auf synthetische Daten. NVIDIA hat kürzlich Nemotron-4 340B angekündigt, eine Familie offener Modelle, die dazu entwickelt wurden, synthetische Daten zum Training großer Sprachmodelle (LLMs) in verschiedenen Branchen zu erzeugen. Dieser Schritt adressiert eine entscheidende Herausforderung in der KI-Entwicklung: die prohibitiv hohen Kosten und die Schwierigkeit, auf robuste Datensätze zuzugreifen.

„Hochwertige Trainingsdaten spielen eine kritische Rolle für die Leistung, Genauigkeit und Qualität der Antworten eines individuellen LLM“, schrieb NVIDIA auf seinem Blog. Die Nemotron-4 340B-Familie umfasst Basis-, Instruktions- und Belohnungsmodelle, die eine Pipeline zur Generierung und Verfeinerung synthetischer Daten bilden und so potenziell die Entwicklung leistungsfähiger, domänenspezifischer LLMs beschleunigen.

IBM-Forscher Akash Srivastava erklärt, dass im Kontext großer Sprachmodelle synthetische Daten oft von einem KI-Modell generiert werden, um ein anderes zu trainieren oder anzupassen. „Forscher und Entwickler in der Branche nutzen diese Modelle, um Daten für bestimmte Zielaufgaben zu generieren“, bemerkt Srivastava.

Forscher des MIT-IBM Watson AI Lab und IBM Forschung haben kürzlich einen neuen Ansatz zur Verbesserung von LLMs mit synthetischen Daten eingeführt . Die Methode, genannt LAB (Large-scale Alignment for ChatBot), zielt darauf ab, die Abhängigkeit von menschlichen Annotationen und proprietären KI-Modellen wie GPT-4 zu verringern.

LAB verwendet einen taxonomiegesteuerten Prozess zur Generierung synthetischer Daten und ein mehrstufiges Framework. Die Forscher berichten: „Mit LAB trainierte Modelle können im Vergleich zu Modellen, die mit traditionellen, von Menschen annotierten oder mit GPT-4 generierten synthetischen Daten trainiert wurden, bei mehreren Benchmarks Leistung erzielen.“

Um die Wirksamkeit von LAB zu demonstrieren, entwickelte das Team zwei Modelle, LABRADORITE-13B und MERLINITE-7B, die Berichten zufolge andere fein abgestimmte Versionen derselben Basismodelle in mehreren wichtigen Metriken übertrafen. Die Forscher nutzten das Open-Source-Mixtral-Modell, um synthetische Trainingsdaten zu generieren, was potenziell einen kostengünstigeren Ansatz zur Verbesserung von LLMs bietet.

Die Qualität synthetischer Daten ist entscheidend für ihre Wirksamkeit. Raul Salles de Padua, Director of Engineering, AI und Quantum bei Multiverse Computing, erklärt: „Die Genauigkeit der synthetischen Daten wird berechnet, indem sie mit realen Daten durch statistische und analytische Tests verglichen werden.“ Dazu gehört auch eine Bewertung, wie gut die synthetischen Daten wichtige statistische Eigenschaften wie Mittelwerte, Varianzen und Korrelationen zwischen Variablen bewahren.“

Trotz ihres Versprechens sind synthetische Daten nicht ohne Herausforderungen. De Padua weist darauf hin: „Die Herausforderung bei synthetischen Daten besteht darin, Daten zu erzeugen, die sowohl nützlich als auch datenschutzkonform sind. Ohne die Einrichtung dieser Schutzmaßnahmen könnten synthetische Daten persönliche Details offenlegen und potenziell zu Identitätsdiebstahl, Diskriminierung oder anderen Datenschutzverletzungen führen.“

Aktuelle Forschung hat potenzielle Fallstricke aufgedeckt, wenn man sich zu stark auf synthetische Daten verlässt. Eine kürzlich in Nature veröffentlichte Studie enthüllte ein Phänomen namens „Modellkollaps“. Wenn KI-Modelle wiederholt mit KI-generiertem Text trainiert werden, können ihre Ausgaben zunehmend unsinnig werden, was Bedenken hinsichtlich der langfristigen Machbarkeit der Verwendung synthetischer Daten aufkommen lässt, insbesondere da KI-generierte Inhalte online immer mehr an Bedeutung gewinnen.

Auch ethische Erwägungen spielen eine große Rolle. De Padua warnt vor dem „Risiko, dass die synthetischen Daten die Vielfalt der realen Bevölkerung nicht korrekt wiedergeben, was zu potenziellen Verzerrungen in Modellen führt, die bei verschiedenen demografischen Gruppen nicht gerecht abschneiden“.