Wer am 20. Januar 2025 die Schlagzeilen las, hätte meinen können, der Himmel falle ihm auf den Kopf. Das liegt daran, dass das in China ansässige Unternehmen DeepSeek sein R1 Large Language Model (LLM) veröffentlichte, das kurz nach seiner Veröffentlichung schnell zu einem der am häufigsten heruntergeladenen und aktivsten Modelle wurde.
Was die Aufregung auslöste, war die Tatsache, dass das in Hangzhou, China, ansässige KI-Forschungslabor, das Modelle unter seinem Namen herausbringt, ein Modell zu weitaus geringeren Kosten – 5,6 Mio. USD – und mit weit weniger Ressourcen und Zugang zu NVIDIA-Chips als die führenden US-Modelle gebaut hat.
Wie erwartet, äußerten viele Menschen offen ihre Besorgnis darüber, dass einige der hochfinanzierten US-amerikanischen KI-Firmen ins Hintertreffen geraten könnten. Da DeepSeek weniger NVIDIA-Chips verwendete als diese anderen Firmen, sank der Aktienkurs des Unternehmens. Das war jedoch eher eine spontane Reaktion auf die Nachricht als etwas, das dem Unternehmen wirklich Sorgen bereitete und die Zukunft des Chipherstellers gefährdete.
Technologie- und Wirtschaftsreporter betrachteten diese Nachricht als Schock für das System. Für andere KI-Experten und mich war die einzige Überraschung bei der Ankündigung von DeepSeek R1 jedoch, wie überrascht alle zu sein schienen.
Obwohl das Modell neu war, ist DeepSeek alles andere als ein neuer Anbieter auf dem Markt. Das Unternehmen hat in der Vergangenheit viele wertvolle Open-Source-Modelle für den chinesischen Markt produziert, insbesondere das im Dezember veröffentlichte Modell V3. Es hat sogar ein begleitendes technisches Dokument veröffentlicht, das allen, die sich mit dem Aufbau dieser Labore befassen möchten, eine Bildung bietet. Das V3-Modell war eher eine Überraschung, aber das blieb offenbar unter dem Radar.
Das R1-Modell von DeepSeek ist natürlich ein weiteres Beispiel für ein generatives KI-Tool, das die Grundlage für die agentische KI-Zukunft werden kann, in der KI-Tools nicht nur auf die Anfragen ihrer Nutzer reagieren, sondern auch eigenständig Dienstleistungen bereitstellen.
IBM arbeitet mit all diesen Modellen zusammen und nutzt sie, aber wir sind auch große Befürworter und Entwickler der Open-Source-Bewegung. Dass ein Open-Source-Modell wie R1 das verdiente Lob erhält, ist großartig für die Branche.
Es ist verständlich, dass es für die großen Akteure etwas erschütternd war, zu sehen, wie DeepSeek ein Modell produziert, das ihren Modellen ebenbürtig oder besser ist als sie, aber für einen Bruchteil der Kosten bekannterer Modelle gebaut wurde. Genau dafür ist die Open-Source-Community jedoch konzipiert.
Die Ankündigung von DeepSeek R1 verdeutlicht das Aufeinandertreffen zweier Welten: Die Finanzmärkte prognostizierten Turbulenzen, während KI-Experten von dem technologischen Durchbruch begeistert waren und davon, wie er die Entwicklung effizienterer und leistungsfähigerer neuerer Modelle ermöglichen könnte.
R1 hat lediglich das bestätigt, was viele schon wussten und was der Rest der Welt nun nachholt. DeepSeek baut ganz offensichtlich auf den Leistungen all jener auf, die zum Open-Source-Umfeld beitragen, darunter IBM, Meta und viele mehr. Open-Source-Modelle werden weiterhin Innovation vorantreiben. Obwohl R1 zunächst ein Schock für das System war, werden alle von seiner Existenz profitieren. Vor allem, wenn man bedenkt, dass DeepSeek gerade eine Open-Source-Woche angekündigt hat, in der jeden Tag ein Open-Source-Repositorium veröffentlicht.
DeepSeek R1 verwendet den Mixture-of-Experts-(MoE-)Ansatz für maschinelles Lernen, bei dem ein KI-Modell in separate Subnetzwerke (oder „Experten“) unterteilt wird, die jeweils auf eine Eingabe spezialisiert sind, um gemeinsam eine Aufgabe auszuführen.
Bei der Anwendung des MoE-Ansatzes müssen also nicht alle Parameter des Modells gleichzeitig aktiviert werden. Beispielsweise gibt es im v3- oder R1-Modell von DeepSeek etwa 671 Milliarden Parameter, aber nur 37 Milliarden Parameter sind jeweils aktiv. Der sehr kleine Teil des gesamten Modells, der wirklich die Frage beantwortet, macht es also sehr viel effizienter.
In der Vergangenheit hatten Forscher beim Training mit MoE-Modellen Schwierigkeiten. DeepSeek entwickelte einige neuartige Techniken, um diese Probleme zu beheben und gleichzeitig die Workload beizubehalten, was ihre Mischung von Experten moderat und effizient machte.
Zum Beispiel verwendeten die V3- und R1-Modelle Reinforcement Learning anstelle von beschrifteten Daten. Diese Technik denkt verschiedene Lösungswege durch, um schließlich zur Antwort zu gelangen. Auf jedem zurückgelegten Weg wird die Route fortlaufend neu bewertet. So kann sie schneller feststellen, ob sie sich auf dem falschen Weg befindet. Dann kann sie schnell zurückgehen und eine potenziell vorteilhaftere Route ermitteln.
Diese „Gedankenkette“ hilft ihm, seinen Weg zum endgültigen Ziel zu finden, was korrekt ist, und die Belohnung dafür zu erhalten. Diese Reinforcement-Learning-Methodik half ihnen dabei, das Modell so zu trainieren, dass es auf dem gleichen oder einem höheren Niveau wie OpenAI und andere Modelle abschneidet.
Manchmal führen Einschränkungen zu Innovationen. DeepSeek kann nur begrenzte NVIDIA-Chips erwerben, da die US-Exportkontrollen für Chipverkäufe nach China gelten. Die Muttergesellschaft verfügte offensichtlich über eine beträchtliche Anzahl von NVIDIA-Chips – 2.000 H800-Chips von NVIDIA – aber sie musste dennoch agil sein, wenn es darum ging, diese bereitzustellen. Es hat auf Hardwareebene unglaubliche Arbeit geleistet, um einige Optimierungen voranzutreiben.
Jeder in der Open-Source-Community nutzt NVIDIAs Cuda-Plattform, die eine gute Auswahl an Bibliotheken bereitstellt, mit denen man alle verschiedenen GPUs miteinander verbinden kann, damit sie effizienter kommunizieren, ihre Workload verteilen und so weiter. DeepSeek ging aber noch einen Schritt weiter, unterhalb der Bibliothek, und optimierte auch die Hardware weiter.
Die Realität ist, dass das Tempo, mit dem offene Modelle sich verbessert haben und weiterhin verbessern werden, phänomenal ist.
KI funktioniert nicht ohne Chips. Die ersten Nachrichten, dass in Zukunft möglicherweise weniger Chips benötigt werden, um hervorragende Modelle herzustellen, führten bei einigen Branchenbeobachtern zu dem logischen Trugschluss, dass die Nachfrage nach Chips schwinden würde. Laut Jevons Paradox ist das Gegenteil der Fall: Eine höhere Effizienz führt oft zu einem höheren Verbrauch. Vom Kraftstoff- und Energieverbrauch über die Zeit bis hin zur Steigerung der Effizienz von Klimaanlagen, die dazu führt, dass die Menschen größere Häuser bauen - es gibt nie zu viel des Guten.
Nehmen Sie zum Beispiel das weltweite Whiskey-Geschäft. In den letzten Jahren hat der Aufstieg unabhängiger und kleiner Brennereien die Nachfrage nach Getreide nur noch verstärkt. Das ist in jeder Branche genauso, denn Wirtschaft verbessert die Chancen für kleine Unternehmen. Auch wenn jedes Unternehmen weniger Chips verwendet, hat DeepSeek gezeigt, dass viel mehr Akteure auf den Markt gehen und Open-Source-Techniken nutzen können, um beeindruckende Modelle für weniger Geld zu erstellen.
Das ist für mich die wichtigste Erkenntnis. Das bedeutet, dass nicht nur die Elite, die Zugang zu unglaublichen Rechenkapazitäten hat, in der Lage sein wird, die nächste Serie von Modellen zu bauen. Vielleicht gibt es alternative Wege, auf denen auch kleinere Labore in den Bau weiterer Modelle investieren können. Das ist eine großartige Sache für alle, die sich für KI-Agenten und die agentenbasierte Zukunft, die wir alle erwarten, begeistern können.
Der Wettbewerb zwischen allen wichtigen Akteuren wird abflauen, so dass es am besten ist, kurzfristig nicht an Gewinner und Verlierer zu denken. Jeden Tag arbeiten Unternehmen, Forscher und KI-Wissenschaftler an Innovationen, um bessere Modelle zu entwickeln, die auf wissenschaftlicheren Überlegungen basieren.
Deshalb sind wir so begeistert von den jüngsten Updates unserer Granite-Familie von LLMs, die die Leistung von R-1 bei Benchmarks wie ArenaHard und AlpacaEva übertroffen haben. Unsere Reasoning-Modelle vereinen das Beste aus beiden Welten: hohe Leistung mit Sicherheitseigenschaften, wobei die Benutzer je nach Situation entscheiden können, ob sie die Reasoning-Funktionen nutzen möchten oder nicht. Je mehr wir unser Wissen teilen und die Möglichkeiten der Umsetzung als Open Source zur Verfügung stellen, desto besser für alle, vor allem aber für die Verbraucher.
Auch wenn OpenAI und andere durch den Aufstieg kleinerer, aber schlagkräftiger Konkurrenten anfangs etwas unter Druck geraten könnten, ist dies ein großer Gewinn für die Community und steht im Einklang mit IBMs Perspektive für die Zukunft der KI. Das ist ein großer Erfolg für die Open-Source-Community und zeigt, dass kleinere Modelle einige andere übertrumpfen können. Das bedeutet natürlich keinesfalls, dass die größeren Player keine Rolle mehr spielen; wenn sie klug sind, werden sie das, was DeepSeek ihnen beigebracht hat, nutzen, um fortzufahren, größere Modelle zu geringeren Kosten zu entwickeln.
Aber letztlich ist Wettbewerb sowohl für Unternehmen als auch für Verbraucher großartig. Jeder gewinnt, wenn wir diese seismischen Ereignisse wie DeepSeek R1 haben.
