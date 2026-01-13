Fast ein Jahr nachdem das kostengünstige, leistungsstarke R1-Modell von DeepSeek sowohl das Silicon Valley als auch die Wall Street erschütterte, steht das chinesische KI-Labor kurz davor, die KI-Branchen erneut zu erschüttern. Diesmal hat DeepSeek ein neues Framework veröffentlicht , welches das Training großer Sprachmodelle (LLMs) wesentlich effizienter, stabiler und skalierbarer machen könnte. Vor allem senkt dies die Kosten für das Vortraining, wodurch die Leistungsfähigkeit von LLMs auch für kleinere Unternehmen und einzelne Entwickler zugänglich wird.

„Mit dieser Innovation stellt DeepSeek die Frage: Wie kann ich während des Vortrainings mehr für mein Geld bekommen?“, erklärte Chris Hay, Distinguished Engineer bei IBM, in einem Interview mit IBM Think. „Das Modelltraining ist der kostspielige Teil.“

Die Forscher von DeepSeek haben diese neue Architektur, die als Manifold-Constrained Hyper-Connections (mHC) bezeichnet wird, an Modellen mit drei Milliarden, neun Milliarden und 27 Milliarden Parametern getestet. Sie stellten fest, dass die Modelle ohne erhebliche zusätzliche Rechenlast oder Instabilitäten skaliert werden konnten, die normalerweise mit der Skalierung einhergehen.