Untersuchung synthetischer Daten: Das Versprechen, die Risiken und Realitäten

Hackerin schaut beim Arbeiten in einem Startup-Unternehmen auf den Computer.

Während künstliche Intelligenz weltweit Branchen neu gestaltet, stehen Entwickler vor einer unerwarteten Herausforderung: einem Mangel an hochwertigen, realen Daten, um ihre immer ausgefeilteren Modelle zu schulen. Nun zeichnet sich eine mögliche Lösung aus einer unerwarteten Quelle ab – Daten, die in der Realität überhaupt nicht existieren.

Synthetische Daten, künstlich generierte Informationen zur Nachahmung realer Szenarien, gewinnen in der KI-Entwicklung schnell an Bedeutung. Es verspricht, Datenengpässe zu überwinden, Datenschutzbedenken zu adressieren und Kosten zu senken. Mit der Weiterentwicklung des Fachgebiets treten jedoch Fragen zu seinen Grenzen und den Auswirkungen der realen Welt in den Vordergrund.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Der Aufstieg synthetischer Daten

Technologiegiganten setzen stark auf synthetische Daten. NVIDIA hat kürzlich Nemotron-4 340B angekündigt, eine Familie offener Modelle, die dazu entwickelt wurden, synthetische Daten zum Training großer Sprachmodelle (LLMs) in verschiedenen Branchen zu erzeugen. Dieser Schritt adressiert eine entscheidende Herausforderung in der KI-Entwicklung: die prohibitiv hohen Kosten und die Schwierigkeit, auf robuste Datensätze zuzugreifen.

„Hochwertige Trainingsdaten spielen eine kritische Rolle für die Leistung, Genauigkeit und Qualität der Antworten eines individuellen LLM“, schrieb NVIDIA auf seinem Blog. Die Nemotron-4 340B-Familie umfasst Basis-, Instruktions- und Belohnungsmodelle, die eine Pipeline zur Generierung und Verfeinerung synthetischer Daten bilden und so potenziell die Entwicklung leistungsfähiger, domänenspezifischer LLMs beschleunigen.

IBM-Forscher Akash Srivastava erklärt, dass im Kontext großer Sprachmodelle synthetische Daten oft von einem KI-Modell generiert werden, um ein anderes zu trainieren oder anzupassen. „Forscher und Entwickler in der Branche nutzen diese Modelle, um Daten für bestimmte Zielaufgaben zu generieren“, bemerkt Srivastava.

Forscher des MIT-IBM Watson AI Lab und IBM Forschung haben kürzlich einen neuen Ansatz zur Verbesserung von LLMs mit synthetischen Daten eingeführt . Die Methode, genannt LAB (Large-scale Alignment for ChatBot), zielt darauf ab, die Abhängigkeit von menschlichen Annotationen und proprietären KI-Modellen wie GPT-4 zu verringern.

LAB verwendet einen taxonomiegesteuerten Prozess zur Generierung synthetischer Daten und ein mehrstufiges Framework. Die Forscher berichten: „Mit LAB trainierte Modelle können im Vergleich zu Modellen, die mit traditionellen, von Menschen annotierten oder mit GPT-4 generierten synthetischen Daten trainiert wurden, bei mehreren Benchmarks Leistung erzielen.“

Um die Wirksamkeit von LAB zu demonstrieren, entwickelte das Team zwei Modelle, LABRADORITE-13B und MERLINITE-7B, die Berichten zufolge andere fein abgestimmte Versionen derselben Basismodelle in mehreren wichtigen Metriken übertrafen. Die Forscher nutzten das Open-Source-Mixtral-Modell, um synthetische Trainingsdaten zu generieren, was potenziell einen kostengünstigeren Ansatz zur Verbesserung von LLMs bietet.

Die Qualität synthetischer Daten ist entscheidend für ihre Wirksamkeit. Raul Salles de Padua, Director of Engineering, AI und Quantum bei Multiverse Computing, erklärt: „Die Genauigkeit der synthetischen Daten wird berechnet, indem sie mit realen Daten durch statistische und analytische Tests verglichen werden.“ Dazu gehört auch eine Bewertung, wie gut die synthetischen Daten wichtige statistische Eigenschaften wie Mittelwerte, Varianzen und Korrelationen zwischen Variablen bewahren.“

Trotz ihres Versprechens sind synthetische Daten nicht ohne Herausforderungen. De Padua weist darauf hin: „Die Herausforderung bei synthetischen Daten besteht darin, Daten zu erzeugen, die sowohl nützlich als auch datenschutzkonform sind. Ohne die Einrichtung dieser Schutzmaßnahmen könnten synthetische Daten persönliche Details offenlegen und potenziell zu Identitätsdiebstahl, Diskriminierung oder anderen Datenschutzverletzungen führen.“

Aktuelle Forschung hat potenzielle Fallstricke aufgedeckt, wenn man sich zu stark auf synthetische Daten verlässt. Eine kürzlich in Nature veröffentlichte Studie enthüllte ein Phänomen namens „Modellkollaps“. Wenn KI-Modelle wiederholt mit KI-generiertem Text trainiert werden, können ihre Ausgaben zunehmend unsinnig werden, was Bedenken hinsichtlich der langfristigen Machbarkeit der Verwendung synthetischer Daten aufkommen lässt, insbesondere da KI-generierte Inhalte online immer mehr an Bedeutung gewinnen.

Auch ethische Erwägungen spielen eine große Rolle. De Padua warnt vor dem „Risiko, dass die synthetischen Daten die Vielfalt der realen Bevölkerung nicht korrekt wiedergeben, was zu potenziellen Verzerrungen in Modellen führt, die bei verschiedenen demografischen Gruppen nicht gerecht abschneiden“.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Die Zukunft des KI-Trainings

In kritischen Anwendungen wie Gesundheitswesen und autonome Fahrzeuge können synthetische Daten eine entscheidende Rolle spielen. De Padua merkt an: „Im Gesundheitswesen können synthetische Daten reale Datensätze ergänzen und so ein breiteres Spektrum an Szenarien für das Training von Modellen bieten, was zu besseren diagnostischen und vorhersehbaren Funktionen führt.“ Für autonome Fahrzeuge fügt er hinzu: „Durch die Verwendung synthetischer Daten zur Erweiterung können die Modelle einer breiteren Palette von Bedingungen und Grenzfällen ausgesetzt werden, die im Datensatz möglicherweise nicht vorhanden sind.“

Mit Blick auf die Zukunft glaubt de Padua, dass synthetische Daten im KI-Training die realen Daten wahrscheinlich eher ergänzen als ersetzen werden. „Die Genauigkeit und Repräsentativität synthetischer Daten sind entscheidend. „Technologische Fortschritte bei Datengenerierungsalgorithmen werden eine wichtige Rolle bei der Erhöhung der Zuverlässigkeit synthetischer Daten spielen“, erklärt er.

Da KI zunehmend in unseren Alltag integriert wird – von Gesundheitsdiagnostik bis hin zu selbstfahrenden Autos – wird das Gleichgewicht zwischen synthetischen und realen Daten im KI-Training entscheidend sein. Die Herausforderung für KI-Entwickler wird künftig darin bestehen, die Vorteile synthetischer Daten zu nutzen und gleichzeitig deren Risiken zu mindern.

„Wir befinden uns an einem entscheidend kritischen Punkt in der KI-Entwicklung“, sagt Srivastava. „Das richtige Verhältnis zwischen synthetischen und realen Daten wird die Zukunft der KI bestimmen – ihre Funktionen, Grenzen und letztendlich ihre Auswirkungen auf die Gesellschaft.“

Autor

Sascha Brodsky

Staff Writer

IBM

Weitere Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen