DeepSeek-R1, das KI-Modell des chinesischen Startups DeepSeek, stieg wenige Stunden nach dem Start der KI-Open-Source-Plattform Hugging Face an die Spitze der Charts der meistgeladenen und aktivsten Modelle auf der KI-Open-Source-Plattform Hugging Face. Es löste auch Schockwellen an den Finanzmärkten aus, da es Investoren dazu veranlasste, die Bewertungen von Chipherstellern wie NVIDIA und die kolossalen Investitionen, die amerikanische KI-Giganten tätigen, um ihre KI-Geschäfte zu skalieren, neu zu überdenken.
Warum die ganze Aufregung? Ein sogenanntes „Reasoning-Modell“, DeepSeek-R1, ist ein digitaler Assistent, der bei bestimmten KI-Benchmarks für Mathematik- und Codierungsaufgaben genauso gut abschneidet wie OpenAIs o1, mit weitaus weniger Chips trainiert wurde und nach Angaben des Unternehmens etwa 96 % günstiger in der Anwendung ist.
„DeepSeek gestaltet die KI-Landschaft definitiv neu und fordert die Giganten mit Open-Source-Ambitionen und hochmodernen Innovationen heraus“, sagt Kaoutar El Maghraoui, Principal Research Scientist und Manager bei IBM AI Hardware.
Unterdessen hat ByteDance, der chinesische Tech-Riese, dem TikTok gehört, kürzlich seinen eigenen Logikalgorithmus UI-TARS angekündigt, der nach eigenen Angaben bei bestimmten Benchmarks OpenAIs GPT-4o, Anthropics Claude und Googles Gemini übertrifft. Der Agent von ByteDance kann grafische Oberflächen lesen, Schlussfolgerungen ziehen und eigenständig Schritt für Schritt handeln.
Von Start-ups bis hin zu etablierten Giganten scheinen chinesische KI-Unternehmen die Lücke zu ihren amerikanischen Konkurrenten zu schließen, vor allem dank ihrer Bereitschaft,Open Source zu erstellen oder den zugrunde liegenden Softwarecode mit anderen Unternehmen und Softwareentwicklern zu teilen. „DeepSeek ist es gelungen, einige ziemlich leistungsstarke Modelle in der Community zu verbreiten“, sagt Abraham Daniels, Senior Technical Product Manager für das Granite-Modell von IBM. DeepSeek-R1 wird auf Hugging Face unter einer MIT-Lizenz angeboten, die uneingeschränkte kommerzielle Nutzung erlaubt. „DeepSeek könnte die Demokratisierung der KI wirklich beschleunigen“, sagt er.
Letzten Sommer stellte das chinesische Unternehmen Kuaishou ein Video-Generierungstool vor, das wie OpenAIs Sora, aber von Anfang an der Öffentlichkeit zugänglich war. Sora wurde letzten Februar vorgestellt, aber erst im Dezember vollständig veröffentlicht, und selbst dann konnten nur Personen mit einem ChatGPT Pro-Abonnement auf alle Funktionen zugreifen. Die Entwickler von Hugging Face haben sich auch neue Open-Source-Modelle von den chinesischen Tech-Giganten Tencent und Alibaba geschnappt. Während Meta seine Llama-Modelle als Open Source veröffentlicht hat, verfolgen sowohl OpenAI als auch Google einen überwiegend geschlossenen Ansatz bei der Modellentwicklung.
Neben dem Vorteil von Open Source verwendeten die Ingenieure von DeepSeek auch nur einen Bruchteil der hochspezialisierten NVIDIA-Chips, die von ihren amerikanischen Konkurrenten zum Trainieren ihrer Systeme verwendet wurden. Die Ingenieure von DeepSeek gaben beispielsweise an, dass sie für das Schulen ihres DeepSeek-V3-Modells nur 2.000 GPUs (Grafikprozessoren) oder Chips benötigten, wie aus einer Forschungsarbeit hervorgeht, die sie zusammen mit der Veröffentlichung des Modells herausgaben.
„Was wirklich beeindruckend ist, ist die Fähigkeit der DeepSeek-Modelle, logische Schlüsse zu ziehen“, sagt Kush Varshney, ein IBM Fellow. Denkmodelle Verify oder überprüfen sich im Wesentlichen selbst, sie stellen eine Art von „Metakognition“ dar, oder „Denken über das Denken“, sagt Varshney. „Wir beginnen nun, diesen Modellen Weisheit zu verleihen, und das ist ein gewaltiger Schritt.“
Argumentationsmodelle wurden im September letzten Jahres zum heißen Gesprächsthema, als OpenAI eine Vorschau seines o1-Argumentationsmodells vorstellte. Im Gegensatz zu früheren KI-Modellen, die eine Antwort lieferten, ohne die Argumentation zu erklären, löst es komplexe Probleme, indem es sie in Schritte zerlegt. Argumentationsmodelle können ein paar Sekunden oder Minuten länger brauchen, um zu antworten, weil sie ihre Analyse Schritt für Schritt oder in einer Gedankenkette reflektieren.
DeepSeek-R1 kombiniert logisches Denken mit bestärkendem Lernen, bei dem ein autonomer Agent lernt, eine Aufgabe durch Versuch und Irrtum und ohne Anweisungen eines menschlichen Benutzers auszuführen. Bestärkendes Lernen unterscheidet sich von gebräuchlicheren Formen des Lernens, wie z. B. dem überwachten Lernen, das manuell gelabelte Daten verwendet, um Vorhersagen oder Klassifizierungen zu erstellen, und dem unüberwachten Lernen, das darauf abzielt, versteckte Muster aus nicht gelabelten Daten aufzudecken und zu lernen.
DeepSeek-R1 hinterfragt die Annahme, dass Modelle ihre Denkfähigkeit verbessern, indem sie auf beschrifteten Beispielen korrekten oder falschen Verhaltens trainiert werden oder Informationen aus verborgenen Mustern extrahieren, sagt Yihua Zhang, ein Doktorand an der Michigan State University, der Dutzende von Arbeiten zum maschinellen Lernen verfasst hat. „Die Schlüsselhypothese ist einfach und doch gewagt“, sagt Zhang. „Können wir das Modell einfach für seine Richtigkeit belohnen und es selbst herausfinden lassen, wie es am besten denkt?“
Zhang sagt, was er und andere am groß angelegten Training von großen Sprachmodellen wie dem von DeepSeek besonders bemerkenswert fanden, ist, dass „das Modell anfängt, einen echten Aha-Moment zu zeigen, in dem es einen Schritt zurücktritt, Fehler erkennt und sich selbst korrigiert.“
Ein Teil der Aufregung um DeepSeek rührt von seinem niedrigen Preis her. DeepSeek-V3, das am Weihnachtstag veröffentlicht wurde, kostete laut dem vom Unternehmen veröffentlichten technischen Bericht 5,5 Millionen US-Dollar zum Trainieren und ist für Entwickler, die es ausprobieren möchten, viel günstiger. „Es ist wirklich beeindruckend, was sie angesichts der Kosten des Modells geleistet haben und wie lange sie für dessen Training gebraucht haben“, sagt Chris Hay, Distinguished Engineer bei IBM.
Dieser niedrige Preis ist jedoch möglicherweise nicht die ganze Wahrheit, sagt Kate Soule, Director of Technical Product Management für Granite bei IBM Research. Die Kosten von 5,5 Millionen US-Dollar „stellen nur einen Bruchteil des benötigten Rechenaufwands dar“, sagt sie. Dies beinhaltet keine Kostendetails, die Unternehmen selbst bei Open-Source-Modellen geheim halten, wie „die Rechenkosten für bestärkendes Lernen, Datenablationen und Hyperparametersuchen“, sagt Soule.
Was jedoch nicht zur Debatte steht, ist, dass DeepSeek durch eine Mixture of Experts (MoE)-Architektur eine höhere Kosteneffizienz erzielt hat, die deutlich weniger ressourcenintensiv zu trainieren ist. Die MoE-Architektur unterteilt ein KI-Modell in separate Teilnetzwerke (oder „Experten“), von denen jedes auf eine Teilmenge der Eingangsdaten spezialisiert ist. Das Modell aktiviert nur die spezifischen Experten, die für eine bestimmte Aufgabe benötigt werden, anstatt das gesamte neuronale Netz zu aktivieren. Folglich reduziert die MoE-Architektur die Rechenkosten während des Vortrainings erheblich und erzielt eine schnellere Leistung während der Inferenzzeit. Mehrere Unternehmen weltweit, darunter das wegweisende französische KI-Unternehmen Mistral und IBM, haben die MoE-Architektur im vergangenen Jahr populär gemacht und durch die Kombination von MoE und Open Source eine höhere Effizienz erreicht.
Im Fall von IBMs Serie von Open-Source-Granite-Modellen (entwickelt mit einer MoE-Architektur) können Unternehmen eine Frontier-Modellleistung zu einem Bruchteil der Kosten erreichen, weil sie ein großes vortrainiertes Modell für ihre spezifischen Anwendungen oder Anwendungsfälle anpassen und so effektiverweise kleinere, zwecktaugliche Modelle schaffen können. Durch die Integration enormer Leistungsfähigkeit in kleinere Bauformen können diese Modelle auf Smartphones und anderen mobilen Geräten eingesetzt werden, die am Rande der Infrastruktur arbeiten, wie beispielsweise Bordcomputer in Fahrzeugen oder intelligente Sensoren in Fabrikhallen.
Dieser Prozess, ein größeres Modell in weniger ressourcenintensive kleinere Modelle zu zerlegen, hat ebenfalls zum Erfolg von DeepSeek beigetragen. Neben dem großen R1-Modell hat das chinesische Startup auch eine Reihe kleinerer, zweckmäßiger Modelle auf den Markt gebracht. Interessanterweise haben sie gezeigt, dass größere Modelle, die in kleinere Modelle destilliert wurden, bei der Argumentation besser abschneiden als das Reinforcement Learning von kleinen Modellen von Anfang an.
Wie werden sich diese neuen chinesischen Modelle auf die globale Geschäftswelt auswirken, wenn sie ihre älteren Konkurrenten bei bestimmten Benchmarks überholen oder gar mit ihnen konkurrieren? „Es geht nicht nur um die reine Leistung bei Benchmarks“, sagt El Maghraoui. „Es geht darum, ob eine durchgängige Integration dieser Modelle auf sichere und ethische Weise gelingt.“ Daher sei es laut El Maghraoui noch zu früh, um zu sagen, ob DeepSeek-R1 und andere „die menschliche Interaktion, die Technologie und die Anwendungen verändern werden“.
Letztlich „wird die Akzeptanz durch Entwickler die Beliebtheit der Modelle von DeepSeek bestimmen“, sagt Daniels. Darüber hinaus werde es „sehr interessant sein zu sehen, welche Anwendungsfälle sie für die Modelle aufdecken“, sagt er.
Und nach Varshney von IBM sind geopolitische Unterschiede in diesem globalen KI-Rennen möglicherweise auch weniger wichtig, als man annehmen würde. „Sobald ein Modell Open Source ist, spielt es in vielerlei Hinsicht keine Rolle mehr, woher es stammt“, sagt er.
