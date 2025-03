Nein. DeepSeek hat Berichten zufolge etwa 5,576 Millionen US-Dollar für das finale Vortraining für DeepSeek-V3 ausgegeben. Diese Zahl wurde jedoch völlig aus dem Zusammenhang gerissen.

DeepSeek hat nicht bekannt gegeben, wie viel es für Daten und Rechenleistung ausgegeben hat, um DeepSeek-R1 zu entwickeln. Die weithin berichtete Zahl von „6 Millionen US-Dollar“ bezieht sich speziell auf DeepSeek-V3.

Außerdem ist es irreführend, nur die Kosten für den letzten Testlauf vor dem Training anzugeben. Kate Soule, Director of Technical Product Management für Granite bei IBM, drückte es in einer Folge des Mixture of Experts Podcast so aus: „Das ist so, als würde man sagen, wenn ich einen Marathon laufen will, dann laufe ich nur die 26,2 Meilen.“ Die Realität ist, dass Sie monatelang für dieses eine Rennen trainieren und Hunderte oder Tausende von Kilometern laufen werden.“

Selbst im DeepSeek-V3-Bericht wird klargestellt, dass 5,576 Millionen US-Dollar nur eine Schätzung der Kosten für den endgültigen Trainingslauf sind, die sich aus den durchschnittlichen Mietpreisen für NVIDIA H800 GPUs ergeben. Alle vorherigen Forschungs-, Experiment- und Datenkosten sind ausgeschlossen. Nicht berücksichtigt werden auch die eigentliche Trainingsinfrastruktur – einem Bericht von SemiAnalysis zufolge hat DeepSeek seit 2023 über 500 Millionen US-Dollar in GPUs investiert – sowie die Gehälter der Mitarbeiter, Einrichtungen und andere typische Geschäftsausgaben.

Um es klar zu sagen: 5,576 Millionen US-Dollar für einen Probelauf vor dem Training für ein Modell dieser Größe und Leistungsfähigkeit auszugeben, ist immer noch beeindruckend. Zum Vergleich: Im selben SemiAnalysis-Bericht wird davon ausgegangen, dass die Vorab-Schulung von Anthropics Claude 3.5 Sonnet – einem weiteren Anwärter auf das stärkste LLM der Welt (Stand Anfang 2025) – mehrere zehn Millionen US-Dollar gekostet hat. Dank der gleichen Designeffizienz kann DeepSeek-V3 auch zu deutlich niedrigeren Kosten (und Latenzzeiten) als die Konkurrenz betrieben werden.

Aber die Vorstellung, dass wir einen drastischen Paradigmenwechsel erreicht haben oder dass westliche KI-Entwickler grundlos Milliarden von Dollar ausgegeben haben und neue Grenzmodelle jetzt für niedrige siebenstellige Gesamtkosten entwickelt werden können, ist falsch.