DeepSeek: Den Hype verstehen

13. Februar 2025

Autoren

Dave Bergmann

Senior Writer, AI Models

IBM

Die Veröffentlichung von DeepSeek-R1 im Januar 2025 löste eine Flut von Artikeln über DeepSeek aus – was, etwas verwirrend, der Name eines Unternehmens und der von ihm hergestellten Modelle und des Chatbots ist, der auf diesen Modellen läuft. Angesichts des Umfangs der Berichterstattung und der Aufregung um die wirtschaftlichen Auswirkungen einer seismischen Verschiebung in der KI-Landschaft kann es schwierig sein, Fakten von Spekulationen und Spekulationen von Fiktion zu trennen.

Nachfolgend finden Sie einen übersichtlichen Leitfaden, der Ihnen bei der Suche nach anderen Artikeln über DeepSeek hilft, Signale von Rauschen zu trennen und Hype und Übertreibungen zu umgehen. Wir beginnen mit einem kurzen Überblick über die Unternehmensgeschichte, erläutern die Unterschiede zwischen den einzelnen neuen DeepSeek-Modellen und gehen auf die interessantesten Innovationen ein (ohne dabei zu sehr ins Technische zu gehen).

Hier ist eine kurze Zusammenfassung der Themen:

  • Was ist DeepSeek?

  • Was genau ist DeepSeek-R1? Wir werden den Feinabstimmungsprozess („R1“) und das Large Language Model (LLM) – DeepSeek-V3 – erklären, das sie damit verfeinert haben.

  • Was ist DeepSeek-V3? Wir sehen uns an, wie es sich von anderen LLMs unterscheidet.

  • Was kostet DeepSeek-R1? Wir werden einige wichtige Missverständnisse ausräumen.

  • Was ist DeepSeek-R1-Distill? Trotz ihrer Namen unterscheiden sich die R1-Distill-Modelle grundlegend von R1.

  • Warum ist das wichtig für Sie? Wir werden aufzeigen, wie irreführend Schlagzeilen sein können.

  • Was kommt als Nächstes?
3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Was ist DeepSeek?

DeepSeek ist ein KI-Forschungslabor mit Sitz in Hangzhou, China. Es ist auch der Name der Open Weight generativen KI-Modelle, die sie entwickelt. Ende Januar 2025 sorgte ihr DeepSeek-R1 LLM für Schlagzeilen in den Mainstream-Technologie- und Finanznachrichten, da seine Leistung mit der der Top-proprietären Modelle von OpenAI, Anthropic und Google konkurrieren konnte, und das zu einem deutlich niedrigeren Preis.

Die Ursprünge von DeepSeek (dem Unternehmen) liegen in denen von High-Flyer, einem chinesischen Hedgefonds, der 2016 von drei Informatikern mit Schwerpunkt auf algorithmischen Handelsstrategien gegründet wurde. Im Jahr 2019 nutzte das Unternehmen die Erlöse aus seinen Handelsgeschäften, um eine KI-gestützte Tochtergesellschaft, High-Flyer AI, zu gründen, und investierte 28 Millionen US-Dollar in die Infrastruktur für Schulungen im Bereich Deep Learning. Diese Investition wurde 2021 verfünffacht.

Bis 2023 war die KI-Forschung von High-Flyer so weit fortgeschritten, dass die Gründung einer separaten Einheit gerechtfertigt war, die sich ausschließlich auf KI konzentriert – genauer gesagt auf die Entwicklung künstlicher allgemeiner Intelligenz (AGI). Das daraus entstandene Forschungslabor wurde DeepSeek genannt, wobei High-Flyer als Hauptinvestor fungierte. Beginnend mit DeepSeek-Coder im November 2023 hat DeepSeek eine Reihe von viel beachteten Open-Weight-Modellen entwickelt, die sich hauptsächlich auf die Rechen- und Codierungsleistung konzentrieren.

Im Dezember 2024 veröffentlichte das Team DeepSeek-V3, das LLM, auf dem DeepSeek-R1 basiert. Die bahnbrechenden Leistungen von DeepSeek-V3 und DeepSeek-R1 haben das Labor zu einem unerwarteten Vorreiter in der Entwicklung generativer KI gemacht.

Was ist DeepSeek-R1?

DeepSeek-R1 ist ein Reasoning-Modell, das durch Feinabstimmung eines LLM (DeepSeek-V3) erstellt wurde, um einen umfangreichen schrittweisen Chain-of-Thought-Prozess (CoT) zu generieren, bevor die endgültige „Ausgabe“ für den Benutzer festgelegt wird. Andere Reasoning-Modelle sind OpenAI's o1 (basierend auf GPT-4o) und o3, Google's Gemini Flash 2.0 Thinking (basierend auf Gemini Flash) und Alibaba's open QwQ („Qwen with Questions“), basierend auf seinem Qwen2.5-Modell.

Die Intuition hinter den Reasoning-Modellen stammt aus frühen Forschungsarbeiten, die zeigen, dass die Modellausgaben durch die einfache Hinzufügung des Satzes „Schritt für Schritt denken“ erheblich verbessert werden.i Nachfolgende Untersuchungen von Google DeepMind ergaben, dass eine Erhöhung der Testzeit-Rechenleistung (die Menge der Ressourcen, die zur Erzeugung einer Ausgabe verwendet werden) die Modellleistung ebenso verbessern könnte wie eine Erhöhung der Trainingszeit-Rechenleistung (die Ressourcen, die zum Trainieren eines Modells verwendet werden).

Obwohl Reasoning-Modelle langsamer und teurer sind – Sie müssen immer noch alle Token generieren (und bezahlen), die zum „Nachdenken“ über die endgültige Antwort verwendet werden, und diese Token verringern Ihr verfügbares Kontextfenster – haben sie seit der Veröffentlichung von o1 durch OpenAI Maßstäbe für modernste Leistung gesetzt. Vor allem der Schwerpunkt auf Trainingsmodellen zur Priorisierung von Planung und Voraussicht hat sie für bestimmte Aufgaben mit komplexen mathematischen und logischen Problemen qualifiziert, die für LLMs bisher nicht zugänglich waren.

Weitere Informationen zu Reasoning-Modellen finden Sie in dieser ausgezeichneten visuellen Anleitung von Maarten Grootendorst.
 

Warum ist DeepSeek-R1 wichtig?

Die Leistung von DeepSeek-R1 kann sich bei mathematischen, Code- und Argumentationsaufgaben mit der von führenden Modellen messen, darunter OpenAI's o1 und Anthropic's Claude 3.5 Sonnet. Unabhängig davon, welches Modell das „beste“ ist – was subjektiv und situationsspezifisch ist – ist es für ein offenes Modell eine bemerkenswerte Leistung. Aber die wichtigsten Aspekte von R1 sind die Trainingstechniken, die es in die Open-Source-Community eingeführt hat.

Normalerweise läuft der Prozess, bei dem ein Standard-LLM von untrainiert zu bereit für Endbenutzer wird, wie folgt ab:

  1. Vortraining: Das Modell lernt sprachliche Muster durch selbstüberwachtes Lernen.

  2. Supervised Fine-Tuning (SFT): Das Modell lernt anhand von gekennzeichneten Beispielen, wie diese linguistischen Muster anzuwenden sind.

  3. Reinforcement Learning (RL): Das Modell wird zu spezifischeren, abstrakteren Überlegungen geführt. Bei standardmäßigen chatbasierten Modellen umfasst dieser Schritt in der Regel verstärkendes Lernen aus menschlichem Feedback (RLHF), um die Antworten hilfreicher und neutraler zu gestalten. Bei Reasoning-Modellen wird RL eingesetzt, um einen tieferen, längeren „Denkprozess“ anzuregen.

Bei proprietären Argumentationsmodellen wie o1 sind die spezifischen Details dieses letzten Schritts in der Regel ein streng gehütetes Geschäftsgeheimnis. DeepSeek hat jedoch ein technisches Dokument veröffentlicht, in dem der Prozess detailliert beschrieben wird.
 

So funktioniert DeepSeek-R1

Bei ihrem ersten Versuch, DeepSeek-V3 in ein Reasoning-Modell zu transformieren, übersprang DeepSeek SFT und ging direkt vom Vortraining zu einem einfachen verstärkenden Lernschema über:

  • Modellanfrage: Stellen Sie dem Modell eine Frage. Prompt es, um seinen Denkprozess zwischen<think> „“ und</think> „“ auszugeben und seine endgültige Antwort zwischen<answer> „“ und „“</answer> auszugeben.

  • Belohnungen für Genauigkeit: Belohnen Sie das Modell für die Qualität seiner Antwort (z. B. wie gut der generierte Code funktioniert).

  • Belohnungen für Formatierung: Belohnen Sie das Modell für die korrekte Verwendung des Formats „<think>” und „answer>” in den Antworten.

Das daraus resultierende Modell (das sie als „DeepSeek-R1-Zero“ veröffentlichten) lernte, komplexe Gedankenketten zu generieren und Argumentationsstrategien anzuwenden, die bei mathematischen und logischen Aufgaben beeindruckende Leistungen erbrachten. Der Prozess war unkompliziert und es wurden keine kostspieligen gekennzeichneten Daten für SFT benötigt. Leider, so erklärt das technische Dokument, „stößt DeepSeek-R1-Zero auf Herausforderungen wie endlose Wiederholungen, schlechte Lesbarkeit und Sprachvermischung.“

Um den Nachfolger von R1-Zero, DeepSeek-R1, zu trainieren, änderte DeepSeek den Prozess:

  1. Zunächst wurde eine konventionelle SFT durchgeführt, um einen „Kaltstart“ zu vermeiden.

  2. Verwendet wurde verstärktes Lernen im R1-Zero-Stil mit einem zusätzlichen Belohnungsbegriff, um Sprachvermischung zu vermeiden.

  3. Das daraus resultierende RL-abgestimmte Modell (und das DeepSeek-V3-Basismodell) wurde verwendet, um 800.000 weitere SFT-Beispiele zu generieren.

  4. Weitere SFT hinzugefügt

  5. Weiteres verstärktes Lernen im R1-Zero-Stil hinzugefügt

  6. Verwendet konventionelles verstärktes Lernen aus menschlichem Feedback (RLHF)

Aber dieser Feinabstimmungsprozess ist nur die einen Teil. Den anderen Teil bildet das Basismodell für R1: DeepSeek-V3.

Was ist DeepSeek-V3?

DeepSeek-V3, die Grundlage von DeepSeek-R1, ist ein rein textbasiertes Mixture-of-Experts-Sprachmodell mit 671 Milliarden (671B) Parametern. Insbesondere für Mathematik-, Reasoning- und Codierungsaufgaben ist es wohl das leistungsfähigste Open-Source-LLM, das im Februar 2025 verfügbar war. Wichtiger noch: Es ist wesentlich schneller und kostengünstiger als andere führende LLMs.

671 Milliarden Parameter bedeuten, dass es sich um ein riesiges  Modell handelt. Zum Vergleich: Als Meta im Juli 2024 Llama 3.1 405B veröffentlichte – das 40 % kleiner ist als DeepSeek-V3 – wurde es in der offiziellen Ankündigung als „das weltweit größte und leistungsfähigste öffentlich verfügbare Foundation Model“ beschrieben.ii Das ursprüngliche ChatGPT-Modell, GPT-3.5, hatte 175 Milliarden Parameter. Erwähnenswert ist, dass die meisten großen Entwickler, darunter OpenAI, Anthropic und Google, die Parameterzahl ihrer proprietären Modelle nicht offenlegen.

Eine größere Anzahl von Parametern erhöht in der Regel die „Kapazität“ eines Modells für Wissen und Komplexität. Mehr Parameter bedeuten mehr Möglichkeiten, das Modell anzupassen. Das bedeutet, dass es besser an die Feinheiten von Trainingsdaten angepasst werden kann. Aber die Erhöhung der Parameterzahl eines Modells erhöht auch die Rechenanforderungen, wodurch es langsamer und teurer wird.

Warum also ist DeepSeek-V3 (und damit auch DeepSeek-R1) schnell und günstig? Die Antwort liegt vor allem in der Mixture-of-Experts-Architektur und wie DeepSeek sie modifiziert hat.
 

Was ist ein Mixture-of-Experts-Modell (MoE)?

Eine Mixture-of-Experts-Architektur unterteilt die Ebenen eines neuronalen Netzwerks in separate Teilnetzwerke (oder Experten-Netzwerke) und fügt ein Gating-Netzwerk hinzu, das Token an ausgewählte „Experten“ weiterleitet. Während des Trainings spezialisiert sich jeder „Experte“ schließlich auf einen bestimmten Typ von Token – zum Beispiel könnte sich ein Experte auf Interpunktion spezialisieren, während ein anderer sich mit Präpositionen befasst – und das Gating-Netzwerk lernt, jedes Token an den/die am besten geeigneten Experten weiterzuleiten.

Anstatt jeden Modellparameter für jedes Token zu aktivieren, aktiviert ein MoE-Modell nur die „Experten“, die für dieses Token am besten geeignet sind. DeepSeek-V3 hat insgesamt 671 Milliarden Paramter, aber eine aktive Parameteranzahl von nur 37 Milliarden. Mit anderen Worten: Es werden nur 37 Milliarden seiner 671 Milliarden Parameter für jedes Token verwendet, das gelesen oder ausgegeben wird.

Bei richtiger Anwendung gleicht dieser MoE-Ansatz die Kapazität der Gesamtzahl der Parameter mit der Effizienz der aktiven Parameter aus. Vereinfacht ausgedrückt erklärt dies, wie DeepSeek-V3 sowohl die Funktionen eines umfangreichen Modells als auch die Geschwindigkeit eines kleineren Modells bietet.

MoEs erregten viel Aufmerksamkeit, als Mistral AI Ende 2023 Mixtral 8x7B veröffentlichte, und GPT-4 soll Gerüchten zufolge ein MoE sein. Während einige Modellanbieter – insbesondere IBM Granite, Databricks, Mistral und DeepSeek – seitdem weiter an MoE-Modellen arbeiten, konzentrieren sich viele weiterhin auf traditionelle „dichte“ Modelle.

Wenn sie so toll sind, warum sind dann nicht mehr MoEs vorhanden? Dafür gibt es zwei einfache Gründe:

  • Aufgrund ihrer Komplexität sind MoEs schwieriger zu trainieren und zu optimieren.

  • Die MoE-Architektur reduziert zwar die Rechenkosten, nicht aber die Speicherkosten: Auch wenn nicht alle Parameter gleichzeitig aktiviert werden, müssen Sie dennoch alle diese Parameter im Speicher ablegen, für den Fall, dass sie für ein bestimmtes Token aktiviert werden. Daher benötigen MoEs genauso viel RAM wie dichte Modelle derselben Größe, was nach wie vor ein großes Problem darstellt.

Was ist das Besondere an MoE von DeepSeek?

DeepSeek-V3 verfügt über eine Reihe technischer Modifikationen der grundlegenden MoE-Architektur, die die Stabilität erhöhen und gleichzeitig den Speicherbedarf und die Rechenanforderungen weiter reduzieren. Einige dieser Änderungen wurden bereits im Mai 2024 in seinem Vorgänger, DeepSeek-V2, eingeführt. Hier sind 3 bemerkenswerte Innovationen:

Multi-Head Latent Attention (MLA)

Der Aufmerksamkeitsmechanismus, der LLMs antreibt, beinhaltet eine große Anzahl von Matrixmultiplikationen (in Diagrammen oft mit „matmul“ abgekürzt), um zu berechnen, wie jedes Token mit den anderen zusammenhängt. Alle diese Zwischenberechnungen müssen im Speicher abgelegt werden, während die Dinge von der Eingabe zur endgültigen Ausgabe übergehen.

Multi-Head Latent Attention (MLA), erstmals in DeepSeek-V2 eingeführt, „zerlegt“ jede Matrix in zwei kleinere Matrizen. Dadurch verdoppelt sich die Anzahl der Multiplikationen, aber die Größe all der Daten, die Sie im Speicher ablegen müssen, wird erheblich reduziert. Mit anderen Worten: Es senkt die Speicherkosten (während es die Rechenkosten erhöht) – was für MoEs großartig ist, da sie bereits niedrige Rechenkosten (aber hohe Speicherkosten) haben.

Training in FP8 (Gleitkommawert 8-Bit)

Kurz gesagt: Die spezifischen Werte jedes Parameters in DeepSeek-V3 werden mit weniger Dezimalstellen als üblich dargestellt. Dies verringert die Genauigkeit, erhöht jedoch die Geschwindigkeit und reduziert den Speicherverbrauch weiter. Normalerweise werden Modelle mit einer höheren Präzision – oft 16-Bit oder 32-Bit – trainiert und dann anschließend auf FP8 quantisiert.

Multi-Token-Vorhersage (MTP)

Die Multi-Token-Vorhersage ist das, wonach sie klingt: Anstatt nur einen Token auf einmal vorherzusagen, sagt das Modell auch einige der nächsten Token voraus – was einfacher gesagt als getan ist.

 

Wurde DeepSeek-R1 für nur 5,5 Millionen US-Dollar entwickelt?

Nein. DeepSeek hat Berichten zufolge etwa 5,576 Millionen US-Dollar für das finale Vortraining für DeepSeek-V3 ausgegeben. Diese Zahl wurde jedoch völlig aus dem Zusammenhang gerissen.

DeepSeek hat nicht bekannt gegeben, wie viel es für Daten und Rechenleistung ausgegeben hat, um DeepSeek-R1 zu entwickeln. Die weithin berichtete Zahl von „6 Millionen US-Dollar“ bezieht sich speziell auf DeepSeek-V3.

Außerdem ist es irreführend, nur die Kosten für den letzten Testlauf vor dem Training anzugeben. Kate Soule, Director of Technical Product Management für Granite bei IBM, drückte es in einer Folge des Mixture of Experts Podcast so aus: „Das ist so, als würde man sagen, wenn ich einen Marathon laufen will, dann laufe ich nur die 26,2 Meilen.“ Die Realität ist, dass Sie monatelang für dieses eine Rennen trainieren und Hunderte oder Tausende von Kilometern laufen werden.“

Selbst im DeepSeek-V3-Bericht wird klargestellt, dass 5,576 Millionen US-Dollar nur eine Schätzung der Kosten für den endgültigen Trainingslauf sind, die sich aus den durchschnittlichen Mietpreisen für NVIDIA H800 GPUs ergeben. Alle vorherigen Forschungs-, Experiment- und Datenkosten sind ausgeschlossen. Nicht berücksichtigt werden auch die eigentliche Trainingsinfrastruktur – einem Bericht von SemiAnalysis zufolge hat DeepSeek seit 2023 über 500 Millionen US-Dollar in GPUs investiert – sowie die Gehälter der Mitarbeiter, Einrichtungen und andere typische Geschäftsausgaben.

Um es klar zu sagen: 5,576 Millionen US-Dollar für einen Probelauf vor dem Training für ein Modell dieser Größe und Leistungsfähigkeit auszugeben, ist immer noch beeindruckend. Zum Vergleich: Im selben SemiAnalysis-Bericht wird davon ausgegangen, dass die Vorab-Schulung von Anthropics Claude 3.5 Sonnet – einem weiteren Anwärter auf das stärkste LLM der Welt (Stand Anfang 2025) – mehrere zehn Millionen US-Dollar gekostet hat. Dank der gleichen Designeffizienz kann DeepSeek-V3 auch zu deutlich niedrigeren Kosten (und Latenzzeiten) als die Konkurrenz betrieben werden.

Aber die Vorstellung, dass wir einen drastischen Paradigmenwechsel erreicht haben oder dass westliche KI-Entwickler grundlos Milliarden von Dollar ausgegeben haben und neue Grenzmodelle jetzt für niedrige siebenstellige Gesamtkosten entwickelt werden können, ist falsch.

 

DeepSeek-R1-Distill-Modelle

DeepSeek-R1 ist beeindruckend, aber letztlich handelt es sich um eine Version von DeepSeek-V3, einem riesigen Modell. Trotz seiner Effizienz ist es für viele Anwendungsfälle immer noch zu groß und RAM-intensiv.

Anstatt kleinere Versionen von DeepSeek-V3 zu entwickeln und diese Modelle dann zu optimieren, wählte DeepSeek einen direkteren und reproduzierbareren Ansatz: Mithilfe von Wissensdestillation wurden kleinere Open-Source-Modelle aus den Modellfamilien Qwen und Llama so verändert, dass sie sich wie DeepSeek-R1 verhielten. Sie nannten diese Modelle „DeepSeek-R1-Distill“.

Wissensdestillation ist im Wesentlichen eine abstrakte Form der Modellkompression. Anstatt ein Modell direkt anhand von Trainingsdaten zu trainieren, wird bei der Wissensdestillation ein „Schülermodell“ darauf trainiert, die Art und Weise nachzuahmen, wie ein größeres „Lehrermodell“ diese Trainingsdaten verarbeitet. Die Parameter des Schülermodells werden so angepasst, dass nicht nur die gleichen Endergebnisse wie beim Lehrermodell erzielt werden, sondern auch der gleiche Denkprozess – die Zwischenberechnungen, Vorhersagen oder Gedankenschritte – wie beim Lehrer.

Die „DeepSeek-R1-Distill“-Modelle sind trotz ihrer Namen nicht wirklich DeepSeek-R1. Es handelt sich um Versionen der Llama- und Qwen-Modelle, die so optimiert wurden, dass sie sich wie DeepSeek-R1 verhalten. Die R1-Destills sind zwar beeindruckend groß, aber sie können nicht mit dem „echten“ DeepSeek-R1 mithalten.

Wenn also eine bestimmte Plattform behauptet, „R1“ bereitzustellen oder zu verwenden, sollte man sich vergewissern, von welchem „R1“ die Rede ist.

 

Irreführende Berichterstattung über DeepSeek

Aufgrund des beispiellosen öffentlichen Interesses und der ungewohnten technischen Details hat der Hype um DeepSeek und seine Modelle zeitweise zu einer erheblichen Fehldarstellung einiger grundlegender Fakten geführt.  

Anfang Februar gab es beispielsweise zahlreiche Berichte darüber, dass ein Team der UC Berkeley DeepSeek-R1 für nur 30 US-Dollar „neu erstellt“ oder „repliziert“ haben soll.iii iv v Das ist eine äußerst interessante Schlagzeile mit unglaublichen Auswirkungen, wenn sie wahr ist – aber sie ist in mehrfacher Hinsicht grundlegend falsch:

  • Das Berkeley-Team hat die Feinabstimmungstechnik von R1 nicht neu entwickelt. Sie replizierten die Feinabstimmungstechnik von R1-Zero, die nur auf RL basiert, gemäß den Richtlinien im technischen Dokument von DeepSeek.

  • Das Berkeley-Team hat DeepSeek-V3, das 671B-Parametermodell, das als Rückgrat von DeepSeek-R1 (und DeepSeek-R1-Zero) dient, nicht verfeinert. Stattdessen haben sie kleine Open-Source-Qwen2.5-Modelle optimiert (und mit den Varianten 1.5B, 3B und 7B Erfolg gehabt). Natürlich ist es viel billiger, ein Parametermodell mit 1,5 Milliarden Parametern zu optimieren als ein Modell mit 671 Milliarden Parametern, da das erstere buchstäblich hunderte Male kleiner ist.

  • Sie testeten die Leistung ihrer von der R1-Zero inspirierten Miniaturmodelle nur anhand einer einzigen mathematikspezifischen Aufgabe. Wie der Ingenieur Jiaya Pan klarstellte, berührte ihr Experiment weder den Code noch die allgemeine Argumentation.

Kurz gesagt, das Team der UC Berkeley hat DeepSeek-R1 nicht für 30 US-Dollar neu erstellt. Sie zeigten einfach, dass DeepSeeks experimenteller, rein auf bestärkendem Lernen basierender Ansatz zur Feinabstimmung, R1-Zero, verwendet werden kann, um kleinen Modellen beizubringen, komplizierte mathematische Probleme zu lösen. Ihre Arbeit ist interessant, beeindruckend und wichtig. Aber ohne ein ziemlich detailliertes Verständnis der Modellangebote von DeepSeek – wofür viele vielbeschäftigte Leser (und Autoren) keine Zeit haben – kann man leicht auf falsche Gedanken kommen.

 

Was könnte als Nächstes kommen?

Da Entwickler und Analysten mehr Zeit mit diesen Modellen verbringen, wird sich der Hype wahrscheinlich etwas legen. Ähnlich wie ein IQ-Test allein kein adäquates Mittel ist, um Mitarbeiter einzustellen, reichen auch reine Benchmark-Ergebnisse nicht aus, um zu bestimmen, ob ein Modell das „beste“ für Ihren spezifischen Anwendungsfall ist. Modelle haben wie Menschen Stärken und Schwächen, die man nicht sofort erkennt.

Es wird eine Weile dauern, bis die langfristige Wirksamkeit und Praktikabilität dieser neuen DeepSeek-Modelle in einem formellen Rahmen bestimmt werden kann. Wie WIRED im Januar berichtete, schnitt DeepSeek-R1 bei Sicherheits- und Jailbreak-Tests schlecht ab. Diese Bedenken müssen wahrscheinlich ausgeräumt werden, um R1 oder V3 für die meisten Unternehmen sicher zu machen.

In der Zwischenzeit werden neue Modelle auf den Markt kommen und den Stand der Technik weiter vorantreiben. Bedenken Sie, dass GPT-4o und Claude 3.5 Sonnet, die führenden Closed-Source-Modelle, mit denen die Modelle von DeepSeek verglichen werden, erst letzten Sommer veröffentlicht wurden: in der Welt der generativen KI eine Ewigkeit. Nach der Veröffentlichung von R1 kündigte Alibaba die bevorstehende Veröffentlichung seines eigenen massiven Open-Source-MoE-Modells Qwen2.5-Max an, das DeepSeek-V3 nach eigenen Angaben in allen Bereichen übertrifft.vi Weitere Anbieter werden wahrscheinlich folgen.

Am wichtigsten ist jedoch, dass die Industrie und die Open-Source-Community mit den aufregenden neuen Ideen experimentieren werden, die DeepSeek auf den Tisch gebracht hat, und sie für neue Modelle und Techniken integrieren oder anpassen werden. Das Schöne an Open-Source-Innovationen ist, dass eine steigende Flut alle Boote anhebt.

AI Academy

KI-Experte werden

Erlangen Sie das nötige Wissen, um KI-Investitionen zu priorisieren, die das Unternehmenswachstum vorantreiben. Starten Sie noch heute mit unserer kostenlosen AI Academy und gestalten Sie die Zukunft der KI in Ihrem Unternehmen.

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Buchen Sie eine Live-Demo