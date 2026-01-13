Fast ein Jahr nachdem das kostengünstige, leistungsstarke R1-Modell von DeepSeek sowohl das Silicon Valley als auch die Wall Street erschütterte, steht das chinesische KI-Labor kurz davor, die KI-Branchen erneut zu erschüttern. Diesmal hat DeepSeek ein neues Framework veröffentlicht , welches das Training großer Sprachmodelle (LLMs) wesentlich effizienter, stabiler und skalierbarer machen könnte. Vor allem senkt dies die Kosten für das Vortraining, wodurch die Leistungsfähigkeit von LLMs auch für kleinere Unternehmen und einzelne Entwickler zugänglich wird.
„Mit dieser Innovation stellt DeepSeek die Frage: Wie kann ich während des Vortrainings mehr für mein Geld bekommen?“, erklärte Chris Hay, Distinguished Engineer bei IBM, in einem Interview mit IBM Think. „Das Modelltraining ist der kostspielige Teil.“
Die Forscher von DeepSeek haben diese neue Architektur, die als Manifold-Constrained Hyper-Connections (mHC) bezeichnet wird, an Modellen mit drei Milliarden, neun Milliarden und 27 Milliarden Parametern getestet. Sie stellten fest, dass die Modelle ohne erhebliche zusätzliche Rechenlast oder Instabilitäten skaliert werden konnten, die normalerweise mit der Skalierung einhergehen.
In der Regel setzen KI-Forschungslabors auf „Brute Force“, um die KI zu verbessern, erklärte Kaoutar El Maghraoui, Principal Research Scientist bei IBM, in der neuesten Folge des Podcasts „Mixture of Experts“. Das bedeutet „mehr Daten, mehr Rechenleistung, mehr Parameter“, sagte sie. Dieser Ansatz ist jedoch „zunehmend ineffizient und nur noch für wenige große Unternehmen erschwinglich“.
El Maghraoui betonte, dass die mHC-Architektur von DeepSeek das Modell-Vortraining revolutionieren könnte. „Es geht darum, KI intelligenter zu skalieren, anstatt sie einfach nur größer zu machen“, sagte sie. „Es handelt sich um eine intelligentere Methode zur Entwicklung dieser Modelle, die auch für die Hardware besser geeignet ist.“ mHC lässt sich laut El Maghraoui auch problemlos in die kundenspezifische Hardware eines Unternehmens integrieren, was es zu einer potenziell attraktiven Option für Unternehmen macht, die nach einer kosteneffizienten KI-Lösung suchen. Als Beispiel verwies sie auf IBMs spezialisierte Hardware-Beschleuniger, die darauf ausgelegt sind, KI-, Machine-Learning- und Deep-Learning-Workloads für Unternehmenskunden lokal zu beschleunigen.
In einem LinkedIn-Beitrag schlug Pierre-Carl Langlais, Mitbegründer des französischen KI-Startups Pleias, vor, dass die wahre Bedeutung des Artikels über den Nachweis der Skalierbarkeit von mHC hinausgeht. Der „eigentliche Vorteil“ ist die Fähigkeit von DeepSeek, jede Dimension der Trainingsumgebung neu zu gestalten, schrieb er. „Das macht [DeepSeek] zu einem wegweisenden Labor.“
Für Hay ist die Tatsache, dass DeepSeek seine neuen Arbeiten weiterhin als Open Source zur Verfügung stellt, bemerkenswert, da dies KI einem breiteren Publikum zugänglich macht. „Ich schätze es sehr, dass sie Innovationen entwickeln, diese der Welt zugänglich machen, Menschen die Möglichkeit geben, [diese] auszuprobieren, und dann das gesamte Fachgebiet mitziehen“, sagte er.
Während KI-Verantwortliche in kleineren Unternehmen sich mit den Komplexitäten der Implementierung kosteneffizienter KI-Lösungen auseinandersetzen, erleichtern Innovationen wie das mHC-Framework von DeepSeek ihnen den Zugang zu leistungsstarken Basismodellen, die bisher nur Unternehmen mit deutlich größeren Budgets zur Verfügung standen. Durch die erhebliche Senkung der Kosten für das Vortraining von LLMs und die Verbesserung der Zugänglichkeit von KI sind die Innovationen von DeepSeek dazu geeignet, die KI-Landschaft für kleinere und mittelständische Unternehmen zu revolutionieren.
