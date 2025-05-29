Anfang 2019 ereignete sich in der Welt der künstlichen Intelligenz ein subtiler, aber dennoch bedeutender Wandel. OpenAI, ein wichtiger Akteur in diesem Bereich, begann, sich von seiner früheren Betonung der offenen Forschung zu entfernen. Im Laufe der Zeit wurde der Zugriff auf die Datensätze eingeschränkt, Details zu den Trainingsmethoden wurden immer schwieriger zu finden und die interne Arbeit wurde immer undurchsichtiger. Was damals wie eine routinemäßige Kursänderung aussah, sollte sich später als Wendepunkt für KI erweisen und die Art und Weise, wie Forschung weltweit geteilt, entwickelt und diskutiert wird, grundlegend verändern.
„Es gibt keinen Einblick mehr in ihre Datensätze“, betont Karen Hao, langjährige Beobachterin dieses Bereichs und ehemalige Senior Editor for Artificial Intelligence bei MIT Technology Review, in einem Interview mit IBM Think.
Haos neues Buch, Empire of AI, beschreibt die Entwicklung der generativen KI aus der Insiderperspektive und beleuchtet dabei nicht nur die wirtschaftlichen und politischen Motive hinter dem Aufstieg von Unternehmen wie OpenAI, sondern auch die stillen technischen Entscheidungen, die die Wissenschaft selbst neu definiert haben. „Selbst OpenAI weiß nicht immer, was in ihren Trainingssets enthalten ist. Die Daten sind einfach zu groß, um sie manuell zu prüfen."
Dieses Eingeständnis mag für einen flüchtigen Beobachter trivial klingen. Doch für Forscher untergräbt die Unfähigkeit, die zur Entwicklung eines Modells verwendeten Daten zuverlässig zu charakterisieren oder zu replizieren, die Grundlagen der Disziplin selbst. Seit Jahrzehnten beruht maschinelles Lernen auf einem einfachen wissenschaftlichen Prinzip: der Reproduzierbarkeit. Ein Modell sollte sich gleich verhalten, wenn es unter gleichen Bedingungen trainiert wird. Doch angesichts der heutigen riesigen, ungefilterten Datensätze sind diese Bedingungen oft nicht erkennbar.
In den meisten empirischen Wissenschaften ist Reproduzierbarkeit ein Lackmustest für Genauigkeit. Ein Chemieexperiment, das sich nicht reproduzieren lässt, ist verdächtig. Eine medizinische Studie mit nicht nachvollziehbaren Eingaben wird wahrscheinlich keine Peer-Review bestehen. In der künstlichen Intelligenz beruhte die Reproduzierbarkeit traditionell darauf, dass Forscher nicht nur ihre Modellarchitekturen und Trainingsparameter, sondern auch die exakten Datensätze veröffentlichten, die zum Trainieren dieser Modelle verwendet wurden. Diese Datensätze, seien es Sammlungen von Bildern, Audioaufnahmen oder Textdokumenten, bilden die Grundlage dessen, was die Modelle wissen und wie sie auf neue Eingaben generalisieren.
Anfang der 2010er Jahre war dieses Modell der Offenheit die Norm. Sowohl akademische Labore als auch Unternehmensforscher stellten ihre Trainingskorpora zur Verfügung, beschrieben ihre Vorverarbeitungsschritte und führten Benchmarks anhand gängiger Standards durch. Aber bis 2020 hatte sich die Landschaft verändert. Als Unternehmen wie OpenAI begannen, aggressiver um kommerzielle Vorteile zu konkurrieren, geriet die Praxis des Austauschs von Datensätzen in Verruf.
Bei diesem Wandel ging es nicht nur um geistiges Eigentum. Wie Hao betont, machte es die schiere Größe moderner Trainingsdatensätze, die oft Hunderte von Milliarden aus dem Internet gesammelte Token umfassen, praktisch unmöglich, sie vollständig zu dokumentieren. Unternehmen begannen, sich auf automatisierte Scraping- und Filtertools zu verlassen, um ihre Datensätze zusammenzustellen. Allerdings waren diese Tools nicht in der Lage, subtile Probleme zu erkennen, und sie führten zu einer neuen Unsicherheit im Trainingsprozess.
Ein aufschlussreicher Fall stammt von Forschern der Stanford University, die den weit verbreiteten Bilddatensatz LAION-5B geprüft haben. Obwohl der Datensatz öffentlich zugänglich war, enthielt er Tausende von Fällen, in denen es sich entweder um verifiziertes oder um mutmaßliches Material über sexuellen Kindesmissbrauch handelte. Diese Entdeckung erfolgte Jahre, nachdem die Daten bereits frei im Umlauf waren und zur Herstellung kommerzieller Bildgeneratoren verwendet wurden. Die Begebenheit war ein Weckruf. Wenn schon in einem offenen Datensatz so viel Schaden stecken kann, was könnte dann in den privaten Datensätzen lauern?
„Wir können nicht einmal mehr eine Trennung zwischen Test- und Trainingsdaten garantieren“, erklärt Hao und bezieht sich dabei auf eine grundlegende methodische Vorgehensweise im maschinellen Lernen.
In einem typischen KI-Setup wird der Datensatz in zwei Teile unterteilt: Ein Teil wird zum Training des Modells verwendet, der andere zum Testen seiner Leistung. Dies hilft dabei, die Genauigkeit des Modells anhand von Daten zu messen, die es zuvor noch nicht gesehen hat. Wenn ein Datensatz jedoch so groß und undurchsichtig ist, dass sein Inhalt praktisch unbekannt ist, besteht die Gefahr, dass der doppelte Inhalt in beiden Datensätzen erscheint, was die Auswertung verfälscht und die Leistungsmetriken aufbläht.
Das Ergebnis ist ein Bereich, der sich zunehmend auf Glauben statt auf Überprüfung stützt. „Er ist eher alchemistisch als wissenschaftlich geworden“, betont Hao. „Wir füttern das Modell mit mehr Rechenleistung und mehr Daten und hoffen, dass dabei etwas herauskommt.“
Nicht alle haben sich auf Skalierung gestürzt. Wie Hao beschreibt, entstand eine weitere, subtile Bewegung durch Forscher, die einen anderen Weg beschritten. Statt immer größere Datenbanken zu nutzen, konzentrierten sie sich auf kleine, handverlesene Datensätze. Es ging nicht darum, wie viele Daten sie hatten, sondern darum, wie diese Daten die Nuancen der Sprache, die Bandbreite menschlicher Erfahrung und die Gebote der Fairness erfassten.
Während die Branche auf mehr drängte, fragte sie sich auch, was dabei übersehen wurde. DeepSpeech von Mozilla war beispielsweise ein Spracherkennungsprojekt, das auf Audioaufnahmen basierte, die von Nutzern mit ihrer vollständigen Zustimmung zur Verfügung gestellt wurden. Jeder Clip wurde manuell geprüft und getaggt, wobei großer Wert auf die Optimierung des Datensatzes gelegt wurde, um Klarheit und Vielfalt in Bezug auf Stimmen, Akzente und sprachliche Muster zu gewährleisten.
Ebenso wurde das BLOOM-Sprachmodell, das von einem globalen Forschungskonsortium unter der Leitung von Hugging Face entwickelt wurde, anhand öffentlicher Datensätze trainiert, die unter Berücksichtigung sprachlicher, geografischer und thematischer Vielfalt erhoben wurden. Jede Quelle wurde dokumentiert. Es wurden Community-Audits durchgeführt. Im Gegensatz zu undurchsichtigen Foundation Models hat BLOOM seine Trainingsmethodik verständlich gestaltet.
Doch solche Bemühungen sind zunehmend in den Hintergrund gerückt. Die vorherrschende Branchenlogik bevorzugt jetzt Skalierung, erklärt Hao. Größere Modelle, die auf größeren Datensätzen trainiert wurden, neigen dazu, emergente Eigenschaften wie komplexes Denken oder Codegenerierung zu zeigen, auch ohne aufgabenspezifische Optimierung. Das ermutigt Teams dazu, auf ein sorgfältiges Datendesign zu verzichten und stattdessen alles zu sammeln, was sie finden können.
Die bei OpenAI verfolgte Strategie, Skalierbarkeit in den Vordergrund zu stellen, war nicht bloß eine technische Schlussfolgerung. Es handelte sich um das Ergebnis eines in sich schlüssigen, wenn auch unorthodoxen Glaubenssystems, das von der Führungsriege geteilt wurde, betont Hao. Laut ihr ist Ilya Sutskever, der Chefwissenschaftler bei OpenAI, ein absoluter Verfechter des Deep Learning. Er glaubte, dass ein ausreichend großes neuronales Netz, wenn es genügend Daten erhält, schließlich menschliche Intelligenz entwickeln würde. Sam Altman, CEO von OpenAI, ging das Thema künstliche Intelligenz hingegen wie ein Unternehmer an und sah in der exponentiellen Skalierung den schnellsten Weg zur Marktführerschaft. Greg Brockman, Präsident von OpenAI, war der technische Kopf, der sich auf diese Skalierung konzentrierte.
Die Architektur, die diese Lehre ermöglichte, war der Transformer, eine Art neuronales Netz, das erstmals 2017 eingeführt wurde. Transformer eignen sich hervorragend zur Modellierung von Datensequenzen, wie zum Beispiel Text, da sie Beziehungen zwischen Wörtern über große Entfernungen innerhalb eines Satzes hinweg verfolgen können. Entscheidend ist, dass sie effizient skaliert werden können. Das Hinzufügen weiterer Ebenen und Parameter verbessert die Leistung.
Das Forschungsteam von OpenAI erkannte, dass es mit ausreichend Rechenleistung und einem ausreichend großen Datensatz Transformatoren trainieren und so auf handgefertigte Funktionen, symbolisches Denken oder modulares Design verzichten könnte. Ihrer Ansicht nach würde Intelligenz aus den Daten entstehen.
Um Modelle wie GPT-4 zu trainieren, brauchte OpenAI nicht nur Ideen, sondern auch Infrastruktur. Sprachmodelle dieser Größe erfordern Cluster von Zehntausenden von Grafikverarbeitungseinheiten. Ursprünglich für die Darstellung dreidimensionaler Bilder entwickelt, erwiesen sich GPUs als außerordentlich nützlich für die Matrixmultiplikationen, die das Herzstück von Neural Networks bilden. Um sie jedoch zu einem einheitlichen System zu verbinden, war eine maßgeschneiderte Software- und Hardware-Orchestrierung erforderlich.
Die Ingenieure von OpenAI entwickelten Techniken, um Modelle in Splitter zu unterteilen, die auf mehrere Chips verteilt und parallel trainiert werden können. Sie entwickelten Checkpointing-Protokolle, um Teildurchläufe des Trainings zu sichern und so das Risiko eines Totalausfalls zu verringern. Sie entwickelten maßgeschneiderte Kommunikationsprotokolle, um Aktualisierungen maschinenübergreifend zu synchronisieren. Das waren keine glamourösen Fortschritte, aber sie waren unerlässlich.
„Niemand hatte zuvor mit 10.000 Chips trainiert“, so Hao. „Sie mussten es in Echtzeit herausfinden.“
Diese Fortschritte ermöglichten es, Modelle schneller und effizienter als die Konkurrenz zu skalieren. Sie trugen aber auch zu einer neuen Art von Geheimhaltung bei. OpenAI hat die Veröffentlichung vieler Details zu seinen bahnbrechenden Entdeckungen eingestellt. Zu viele Informationen offenzulegen, argumentierte das Unternehmen, würde einen Wettbewerbsvorteil preisgeben.
Bis 2024 hatten die meisten großen Technologieunternehmen aufgeholt. IBM, Google, Meta, Amazon, Anthropic und neuere Anbieter wie Mistral haben alle Large Language Models unter Verwendung ähnlicher Transformer-Architekturen und Trainingsmethoden entwickelt. Viele nutzten Reinforcement Learning mit menschlichem Feedback, eine Methode, bei der Menschen die Qualität der Ausgabe eines Modells bewerten, wodurch das Modell optimiert werden kann, um besser den menschlichen Präferenzen zu entsprechen.
Für Außenstehende wurden die Unterschiede zwischen diesen Systemen immer schwerer zu erkennen. Anwendungsentwickler begannen damit, Schnittstellen zu entwickeln, die mit jedem beliebigen Modell im Hintergrund kompatibel waren, sodass sie bei Bedarf den Anbieter wechseln konnten. Preisgestaltung, Latenz und Betriebszeit wurden wichtiger als marginale Unterschiede in der Intelligenz.
„Alle versuchen jetzt, modellunabhängig zu sein“, so Hao. „OpenAI hat kein Monopol mehr auf gute Modelle.“
Da Größe kein Unterscheidungsmerkmal mehr ist, begannen die Unternehmen, in ein anderes Paradigma zu investieren: Agency. In der künstlichen Intelligenz bezieht sich Agency auf die Fähigkeit eines Systems, Initiative zu ergreifen, über einen längeren Zeitraum hinweg zu bestehen und auf seine Ziele hinzuarbeiten. Anstatt auf einen Prompt zu reagieren, plant ein Agent Aktionen, überwacht Ergebnisse und passt sein Verhalten an.
Dafür waren neue Funktionen erforderlich. Die Modelle mussten den Speicher über mehrere Sitzungen hinweg aufrechterhalten, sich in Tools von Drittanbietern integrieren und Entscheidungen ohne ausdrückliche Prompt treffen. Das Ziel war es, von einem passiven Chatbot zu einem aktiven Kollaborateur zu wechseln.
OpenAI ließ sich schon lange von dem Film „Her“ inspirieren, in dem sich ein Nutzer in eine KI-Assistentin verliebt, die sich nahtlos an seine Bedürfnisse anpasst. Die Schaffung eines solchen Systems erforderte nicht nur die Entwicklung von Intelligenz, sondern auch von Präsenz. Hao merkte an, dass die internen Teams von OpenAI diesen Traum in den Bereichen Produktentwicklung und Forschung verfolgt haben.
Ohne dem Modell Gedächtnis, Ausdauer und Autonomie zu verleihen, kann man einen solchen Assistenten nicht entwickeln“, erklärt sie.
Um Agenten jedoch wirklich effektiv zu machen, benötigte OpenAI mehr als nur Algorithmen. Es benötigte neue Arten von Daten und neue Möglichkeiten, diese zu erheben. Das Internet, einst eine unerschöpfliche Quelle für Trainingsdaten, ist mittlerweile mit synthetischen Inhalten gesättigt. Viele der jetzt online verfügbaren Dokumente wurden selbst von früheren Modellen erstellt.
So entsteht eine Feedbackschleife, in der Online-Schulungen zunehmend an Wert verlieren. Um diesen Kreislauf zu durchbrechen, setzen Unternehmen verstärkt auf eine persönlichere Datenerfassung. Hao berichtete, dass OpenAI an der Entwicklung benutzerdefinierter Geräte arbeitet, die das Nutzerverhalten in Echtzeit erfassen können, von mobilen Interaktionen über Sprachkonversationen bis hin zum Umgebungskontext.
„Es gibt zu viele KI-generierte Inhalte im Internet“, betont Hao. „Wenn Sie hochwertige Daten wünschen, müssen Sie diese direkt von den Menschen einholen.“
Die wachsende Flut von KI-generierten Inhalten wirft laut Hao schwierige Fragen in Bezug auf Einwilligung, Überwachung und Kontrolle auf. Können Menschen wirklich entscheiden, dass ihre Daten nicht erfasst werden? Und welches Mitspracherecht werden sie bei Modellen haben, die anhand ihrer Worte, Bilder oder ihres Verhaltens trainiert wurden?
Für Hao liegt die Antwort nicht im Technologieoptimismus oder in Untergangsprophezeiungen, sondern in der Transparenz. Sie teilt nicht die vorherrschenden ideologischen Ansichten in der KI – weder die der sogenannten „Boomer“, die glauben, dass künstliche Intelligenz die Menschheit retten wird, noch die der „Doomer“, die befürchten, dass sie uns zerstören wird.
„Ich gehöre zum Lager, das Rechenschaft fordert“, betont sie. „Diese Systeme spiegeln institutionelle Macht wider. Wir müssen wissen, wie sie hergestellt werden und wer davon profitiert.“
Unternehmen müssen erklären, wie ihre Modelle getestet werden, welche Daten sie verwenden und wie sie die Ergebnisse interpretieren, so Hao. Sie sollten Fehler dokumentieren und ihre Erkenntnisse teilen, damit andere sie genauer untersuchen können.
Ohne diese Art von Offenheit, warnt Hao, läuft KI Gefahr, zu einer proprietären Blackbox zu werden – mächtig, aber unkontrollierbar.
