Abstrakte dreidimensionale Rechtecke

Eine Liste großer Sprachmodelle (LLMs)

Eine Liste von LLMs

Large Language Models (LLMs) sind zum Fundament der modernen Entwicklung im Bereich der künstlichen Intelligenz geworden. Sie haben das Zeitalter der generativen KI eingeleitet und prägen es heute, von einfachen Chatbot-Anwendungen bis hin zum agentischen Engineering und anderen komplexen, von KI-Agenten gesteuerten automatisierten Workflows. Ihr Aufkommen markiert einen grundlegenden Wendepunkt in der Geschichte des maschinellen Lernens.

Mit zunehmender Reife der Technologie kommen immer mehr neue LLMs auf den Markt. Sowohl führende KI-Entwickler als auch neue Start-ups und etablierte Großunternehmen bringen ständig neue Modelle heraus und verfeinern diese. Gleichzeitig arbeitet die Open-Source-Community kontinuierlich an der Feinabstimmung von Open-Source-LLMs, indem sie bestehende Modelle mit benutzerdefinierten Datensätzen kombiniert und modifiziert, um unzählige Varianten zu schaffen. Daher kann keine Liste von LLMs Anspruch auf Vollständigkeit erheben – und selbst die „vollständigste“ Liste würde diesen Anspruch nicht lange behalten.

Im Folgenden finden Sie eine Liste einiger der derzeit bekanntesten und leistungsstärksten Large Language Models. Hier sind einige Punkte, die es zu beachten gilt:

  • Die Liste räumt Modellen Vorrang ein, die von ihren Entwicklern aktiv unterstützt und aktualisiert werden und zumindest nominell eine wettbewerbsfähige Leistung aufweisen. Dies schließt eine Reihe historisch einflussreicher Foundation Models aus, wie beispielsweise Googles T5, OpenAIs GPT-3 oder Metas Llama 2, von denen einige weiterhin für Forschungszwecke genutzt werden.

In der Praxis lassen sich LLMs im Allgemeinen in zwei Kategorien einteilen: Closed-Source-LLMs, die ausschließlich als kommerzielle Angebote über den Modellentwickler erhältlich sind, und Open-Modelle, die kostenlos zur Verfügung gestellt werden.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Closed-Source-LLMs

Auf ein Closed-Source-Modell oder ein proprietäres Modell kann nur direkt auf der Plattform des Modellentwicklers, auf anderen Plattformen, für die er sein Modell lizenziert hat, oder über die proprietäre API des Modellanbieters zugegriffen werden.

Da Entwickler geschlossener Modelle ihre technischen Details in der Regel als streng gehütete Geschäftsgeheimnisse behandeln, ist es meist unmöglich, die genauen Angaben zur Größe eines geschlossenen Modells, zur Architektur seines neuronalen Netzes oder zu seinem Trainingsprozess mit Sicherheit zu erfahren. Einige Details lassen sich zwar ableiten – beispielsweise durch den Vergleich der Inferenzgeschwindigkeit, der GPU-Speichernutzung und der Benchmark-Leistung eines geschlossenen Modells mit denen offener Modelle, deren Details öffentlich bekannt sind –, doch werden diese selten, wenn überhaupt, bestätigt.

Spätestens seit etwa 2022 sind die meisten hochmodernen Pioniermodelle zu jedem beliebigen Zeitpunkt geschlossene Modelle – doch dies spiegelt in erster Linie die realen historischen Gegebenheiten der Branche wider und nicht etwa eine inhärente Überlegenheit geschlossener Modelle gegenüber offenen Modellen. Nachfolgend sind einige der bemerkenswertesten geschlossenen Modellreihen in alphabetischer Reihenfolge aufgeführt.

Claude (Anthropic)

Die Claude-Sprachmodelle von Anthropic gehören zu den leistungsstärksten der Welt. Anthropic wurde 2021 von ehemaligen OpenAI-Mitarbeitern ursprünglich als Forschungslabor für KI-Sicherheit gegründet. Der Ansatz des Unternehmens bei der Modellentwicklung basiert auf dem einzigartigen Konzept der Constitutional AI. Claudes „Verfassung“ ist ein Dokument, das nicht nur als Leitfaden für das Verhalten der Mitarbeiter von Anthropic dient, sondern auch für das Verhalten (und die Erstellung von synthetischen Trainingsdaten) der Claude-Modelle selbst.

Seit Claude 3 verfügen die nachfolgenden Generationen von Claude über multimodale Modelle in drei verschiedenen Größen:

  • Claude Haiku sind die kleinsten Modelle von Anthropic, die auf Geschwindigkeit und Kosteneffizienz optimiert sind. Im Gegensatz zu Sonnet und Opus sind Haiku-Modelle keine Argumentationsmodelle: Sofern sie nicht ausdrücklich dazu aufgefordert werden, geben Haiku-Modelle keine „Chain-of-Thought“-Schlussfolgerungsketten (CoT) aus.
  • Claude Sonnet sind die mittelgroßen Modelle von Anthropic, die nach Ansicht von Anthropic für die meisten Anwendungsfälle den optimalen Kompromiss zwischen Leistung und Effizienz bieten. Sowohl Sonnet als auch Opus sind hybride Schlussfolgerungsmodelle, was bedeutet, dass sie so konfiguriert werden können, dass sie entweder eine standardmäßige Inferenz oder adaptives CoT-Schlussfolgern für die Lösung komplexer, mehrstufiger Probleme durchführen.
  • Claude Opus sind die größten und leistungsstärksten Modelle von Anthropic, die darauf ausgelegt sind, bei anspruchsvollen Aufgaben Höchstleistungen zu erbringen.

Claude Haiku, Sonnet und Opus können alle Text-, Audio- und Bildeingaben verarbeiten und Text oder Audio (als Text to Speech) ausgeben. Im Gegensatz zu den meisten ihrer Konkurrenten mit geschlossenen Modellen waren sie (und die Claude-Plattform, auf der sie basieren) bisher nicht in der Lage, Bilder zu generieren – doch seit dem 12. März 2026 kann Claude nun Bilder generieren. Beim Zugriff auf die Modelle über die Claude-API können Nutzer den „Aufwandsgrad“ des Schlussfolgerungsprozesses von Sonnet oder Opus auf „max“, „hoch“, „mittel“, „niedrig“ oder „adaptiv“ einstellen.

Gemini (Google)

Gemini ist Googles Serie geschlossener Sprachmodelle, die von der Tochtergesellschaft Google DeepMind entwickelt und erstmals im Dezember 2023 vorgestellt wurde. Es ist erwähnenswert, dass Google Brain (das 2023 mit DeepMind zu Google DeepMind fusionierte) für die Entwicklung der Transformer-Architektur des Transformator-Modells verantwortlich ist, das die ersten großen Sprachmodelle (LLMs) ermöglichte, nachdem es 2017 die bahnbrechende Forschungsarbeit „Attention is All You Need“ veröffentlicht hatte.

Seit Anfang 2025 hat Google jede Generation der Gemini-Modelle in drei verschiedenen Größen veröffentlicht, bei denen es sich durchweg um Modelle für logisches Schlussfolgern handelt. Beim Zugriff über die Gemini-API können Nutzer eine von mehreren „Denkstufen“ auswählen, um die Anzahl der Token und die Zeit, die das Modell benötigt, bevor es eine endgültige Ausgabe generiert, individuell anzupassen.

  • Gemini Pro-Modelle sind Googles größte, hochmoderne LLMs.

  • Die Gemini Flash-Modelle sind im Vergleich zu Gemini Pro auf Geschwindigkeit optimiert.
  • Gemini Flash-Lite-Modelle sind schnelle, kostengünstige Modelle, die für Aufgaben mit hohem Durchsatz wie Übersetzungen und den Einsatz von Agenten-Tools optimiert sind.

Die Modelle Gemini Pro, Flash und Flash-Lite sind von Haus aus multimodal: Sie können Text-, Audio-, Bild- oder Videoeingaben verarbeiten und Textausgaben generieren. Bei Zugriff über die Gemini-Plattform können multimodale Ausgaben mithilfe der separaten, spezialisierten Modelle von Gemini für die Bild-, Video- oder Musikgenerierung erstellt werden.

Seit der Veröffentlichung von Gemini 2.5 Pro im März 2025, das damals in den meisten akademischen Benchmarks die branchenweit beste Leistung erzielte, konkurrieren die Gemini-Modelle mit Claude und der GPT-Serie von OpenAI um den Titel der weltweit leistungsstärksten LLMs. Generell wechselt der Status des „Top“-Modells jedes Mal, wenn ein neues bahnbrechendes Modell aus einer dieser drei Serien veröffentlicht wird.

Grok (xAI)

Grok ist eine Familie proprietärer LLMs, die von xAI erstellt wurden und erstmals im November 2023 als Chatbot in der Beta-Vorschau auf X (ehemals Twitter) gestartet wurden. Im April 2025 veröffentlichte xAI den API-Zugriff für Grok 3, das damals neueste Flaggschiffmodell des Unternehmens.

Die Modellpalette von Grok hat sich im Laufe der verschiedenen Modellgenerationen kontinuierlich weiterentwickelt.

  • Grok 2 wurde von Grok 2 Mini begleitet, der ersten größenbasierten Variante der Modellfamilie. Dieses Verfahren wurde im Februar 2025 auch bei Grok 3 beibehalten.

  • Die vierte Generation der Grok-Modelle wurde im Juli 2025 mit Grok 4 und Grok 4 Heavy eingeführt. Im Herbst 2025 folgten Grok 4 Fast und anschließend Grok 4.1 (erhältlich sowohl in der „Thinking“- als auch in der „Non-thinking“-Konfiguration).

  • Im August 2025 veröffentlichte xAI Grok Code Fast 1, ein auf Effizienz ausgerichtetes Modell, das für agentische Codierung optimiert ist.

Seit Grok 4 können Grok-Modelle Text-, Bild- und Spracheingaben verarbeiten. Obwohl die Grok-LLMs keine multimodalen Ausgaben liefern können, lassen sich Bild- und Videoausgaben über die Grok Imagine-Plattform mithilfe des Aurora-Modells von xAI generieren.

Unabhängig von seiner reinen Leistungsfähigkeit war ein Großteil der Geschichte von Grok (und insbesondere die des Grok-Chatbots) von Kontroversen geprägt, wie etwa Vorwürfen der Verbreitung von Fehlinformationen zu Wahlen, dem Einbringen polarisierender Standpunkte in nicht damit zusammenhängende Gespräche und der Verfestigung schädlicher Stereotypen.

Open-Source-Veröffentlichungen

In öffentlichen Erklärungen erklärte Elon Musk, CEO von xAI, dass „unser allgemeiner Ansatz darin besteht, die letzte Version als Open Source zu veröffentlichen, sobald die nächste Version vollständig verfügbar ist.“1

xAI hat Grok 1 im März 2024 unter der Apache-2.0-Lizenz als Open-Source-Software veröffentlicht. Obwohl Grok 3 bereits im Februar 2025 veröffentlicht wurde, erfolgte die nächste Open-Source-Veröffentlichung eines weiteren Modells erst im August 2025. Irritierenderweise gaben xAI (und Musk) bekannt, dass sie „Grok 2.5“ 2als Open Source veröffentlicht hätten, 2 obwohl zuvor weder ein Modell mit diesem Namen genannt noch angekündigt worden war. Die eigene Hugging-Face-Modellkarte des Modells bezeichnet das Modell sogar als „Grok-2“.

In dieser Ankündigung von August 2025 deutete Musk an, dass Grok 3 ebenfalls in „etwa sechs Monaten“ als Open Source veröffentlicht werden würde. Auch acht Monate später wurde der Veröffentlichungstermin für die Open-Source-Version noch nicht bekannt gegeben.

GPT (OpenAI)

Der GPT-Reihe von OpenAI – kurz für „Generative Pretrained Transformer“ – wird weithin zugeschrieben, die aktuelle Ära der generativen KI eingeläutet zu haben, insbesondere nach der Einführung von ChatGPT im Jahr 2022 mit dem Modell GPT-3.5.

Die Konventionen von OpenAI für die Benennung von Modellen und Varianten haben sich seit 2022 erheblich geändert, was oft zu Verwirrung führt. So wurde beispielsweise GPT-4.1 nach GPT-4.5 veröffentlicht, und das o4-Argumentationsmodell war zur gleichen Zeit verfügbar wie das multimodale Modell GPT-4o ohne Argumentationsfunktionen, das sich völlig von ihrem „o4“-Modell für Schlussfolgerungen unterschied, dessen Leistung der von „o3“ unterlegen war. Anfang 2025 räumte OpenAI-CEO Sam Altman ein: „Wir sind uns bewusst, wie kompliziert unser Modell- und Produktangebot geworden ist.“

Seit der Veröffentlichung von GPT-5 im August 2025 umfasst das konsolidierte LLM-Angebot des Unternehmens nun Folgendes:

  • GPT-5.x ist das Flaggschiff unter den Allzweckmodellen von OpenAI. Stand März 2026 ist die neueste Modellversion GPT-5.4. Obwohl alle GPT-5-Modelle auf logischem Denken basieren, ist GPT-5.4 auch in einer GPT-5.4 Pro-Variante erhältlich, die „mehr Rechenleistung nutzt, um intensiver zu denken und durchweg bessere Antworten zu liefern“.3OpenAI bietet zudem GPT-5 Codex an, eine Version von GPT-5, die für die optimale Generierung von Agenten-Code feinabgestimmt wurde (und regelmäßig entsprechend den aktualisierten Versionen des Kernmodells aktualisiert wird).
  • GPT-5 mini bietet laut Modellübersichten von OpenAI „nahezu grenzenorientierte Intelligenz für kosteneffektive, großvolumige Workloads mit geringer Latenz".
  • GPT-5 nano ist die „schnellste und kostengünstigste Version von GPT-5“.

OpenAI hat zudem Open-Weight-GPT-Modelle mit offenen Gewichten veröffentlicht, die im Abschnitt „Offene Modelle“ dieses Artikels näher beschrieben werden.

Mistral AI

Mistral AI, ein in Frankreich ansässiges Unternehmen, das von ehemaligen Mitarbeitern von Meta AI und Google DeepMind gegründet wurde, widmete sich bei der Veröffentlichung seines ersten Modells (Mistral 7B) im September 2023 ursprünglich ausschließlich Open-Source-Modellen. Seitdem ist Mistral zu einem gemischten Modell übergegangen, bei dem viele seiner Angebote offen zugänglich sind, ausgewählte Spitzenmodelle jedoch weiterhin Closed Source bleiben.

Zu den wichtigsten proprietären LLMs von Mistral AI gehören ab März 2026:

  • Mistral Medium 3.1, ein im August 2025 veröffentlichtes multimodales Allzweckmodell.

  • Codestral, ein auf Codierung ausgerichtetes Modell, das „speziell für die hochpräzise Vervollständigung von Textstellen (Fill-in-the-Middle, FIM) entwickelt wurde“.4

  • Magistral Medium 1.2, ein Argumentationsmodell als Ergänzung zu Mistral Medium.

Die Angebote von Mistral im Bereich der Open-Weight-Modelle werden weiter unten in diesem Artikel näher erläutert.

AI Academy

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Erfahren Sie mehr über eine neue Klasse flexibler, wiederverwendbarer KI-Modelle, die neue Einnahmen erschließen, Kosten senken und die Produktivität steigern können. Dann nutzen Sie unseren Leitfaden, um mehr zu erfahren.

Open Source LLMs

Im Bereich des maschinellen Lernens wird der Begriff Open Source umgangssprachlich oft für KI-Tools verwendet, deren Quellcode kostenlos zur Verfügung gestellt wird; tatsächlich handelt es sich bei dem Begriff jedoch um eine formelle Bezeichnung, die von der Open Source Initiative (OSI) verwaltet wird. Die OSI zertifiziert eine bestimmte Softwarelizenz nur dann als „von der Open Source Initiative genehmigt“, wenn sie der Ansicht ist, dass diese Lizenz die zehn Anforderungen erfüllt, die in der offiziellen Open Source Definition (OSD) aufgeführt sind.

Die meisten „Open-Source“-Modelle erfüllen nicht alle diese Anforderungen. Vor diesem Hintergrund bezieht sich der Begriff offenes Modell (oder Open-Weight-Modell) treffender auf jedes frei verfügbare LLM. Innerhalb des Spektrums der offenen Modelle gibt es große Unterschiede. Ein Open-Weight-Modell (das jedoch kein Open-Source-Modell ist) kann zur Durchführung von Inferenz verwendet und sogar feinabgestimmt werden – wenn jedoch nicht der vollständige Quellcode bereitgestellt wird, kann es über Änderungen an den Werten seiner Gewichte durch Feinabstimmung hinaus nicht modifiziert werden. Seine Lizenz kann die Nutzung des Modells in bestimmten Szenarien (wie beispielsweise kommerziellen Umgebungen) untersagen oder andere spezifische Auflagen für seine Anwendung vorsehen.

Ein echtes Open-Source-Modell, das zusammen mit dem Trainingscode und einer Beschreibung der Trainingsverfahren veröffentlicht wird, kann hingegen in jeder Hinsicht vollständig angepasst und ohne Einschränkungen genutzt werden. Die gängigsten und standardisiertesten Open-Source-Lizenzen sind die Apache-2.0-Lizenz und die MIT-Lizenz. Es sei jedoch darauf hingewiesen, dass ein Open-Source-Modell nicht vollständig reproduzierbar ist, sofern der Entwickler nicht die Details zu den Trainingsdaten bereitstellt.

Open-Source-Veröffentlichungen sind ein integraler Bestandteil der kontinuierlichen Weiterentwicklung und Verbesserung von LLMs und haben maßgeblich dazu beigetragen, dass deren Erfindung überhaupt erst ermöglicht wurde. Open Models sind normalerweise über ihren Modellentwickler oder über beliebte Open-Source-Plattformen wie GitHub oder Hugging Face zugänglich. Im Folgenden finden Sie eine alphabetisch geordnete Liste bemerkenswerter Open-Model-Serien.

Cohere

Cohere, ein in Kanada ansässiges Unternehmen, zu dessen Gründern einer der Autoren des Buches „Attention is All You Need“ gehört, wurde 2019 gegründet. Obwohl das Unternehmen für jedes LLM detaillierte technische Berichte veröffentlicht und diese angeblich als offene Modelle zur Verfügung stellt, lizenziert Cohere seine offenen Veröffentlichungen unter einer modifizierten Version der Creative-Commons-4.0-Lizenz, die eine kommerzielle Nutzung untersagt.

Befehl

 Command ist Coheres Flaggschiff-Serie von Foundation Modellen, die für Anwendungsfälle in Unternehmen konzipiert ist.

  • Command R war die erste Generation von Coheres Unternehmensmodellen, die im März 2024 mit einem Modell mit 35 Milliarden Parametern eingeführt wurde, dessen Schwerpunkt auf RAG und der Nutzung von Tools liegt. Darauf folgte im darauffolgenden Monat Command R+, eine Variante mit 104 Milliarden Parametern. Im Dezember desselben Jahres kam das kleinere Modell Command R7B hinzu.

  • Command A, die zweite Generation der Unternehmensmodelle von Cohere, wurde im März 2025 veröffentlicht und konzentriert sich auf Aufgaben in den Bereichen Wirtschaft, MINT und Codierung. Das ursprüngliche 111B-Modell wurde schließlich in Varianten veröffentlicht, darunter Command A Reasoning, Command A Translate (feinabgestimmt zur Optimierung der Übersetzungsleistung in 23 Sprachen) und Command A Vision, ein Vision Language Model (VLM), das das LLM mit einem Vision-Encoder kombinierte.

In einem Reddit-Kommentar vom März 2026 wies Cohere-CEO Aidan Gomez darauf hin, dass das Unternehmen aktiv an der Entwicklung der nächsten Generation von Command arbeite und dass es sich dabei um die ersten Mixture-of-Experts-Modelle (MoE) des Unternehmens handeln werde.

Aya

Aya ist die auf Mehrsprachigkeit ausgerichtete Modellreihe von Cohere, die im Februar 2024 mit Aya 101 eingeführt wurde – einem Modell, das, wie der Name schon sagt, „Anweisungen in 101 Sprachen befolgen konnte“.

  • Aya Vision ist ein multimodales, mehrsprachiges VLM, das in den Varianten 8B und 32B angeboten wird und Funktionen in 23 verschiedenen Sprachen bietet.

  • Tiny Aya, das im Februar 2026 veröffentlicht wurde, ist eine Reihe leichter mehrsprachiger Modelle mit 3,35 B Parametern. Tiny Aya-Base ist ein vortrainiertes Modell, das über 70 Sprachen unterstützt. TinyAya-Global ist das instruktionsoptimierte Pendant und unterstützt 67 Sprachen.

  • Die Veröffentlichung von „Tiny Aya“ umfasste zudem spezielle regionale Varianten. TinyAya-Earth ist für afrikanische und westasiatische Sprachen optimiert; TinyAya-Fire ist für südasiatische Sprachen optimiert; TinyAya-Water ist für Sprachen aus dem asiatisch-pazifischen Raum und Europa optimiert.

DeepSeek

DeepSeek ist ein wichtiger Akteur im Open-Source-Ökosystem und hat eine Reihe von Innovationen zu LLM-Architekturen und Trainingsprozessen beigetragen. Zeitweise konnte die Leistung seiner Modelle mit der von führenden proprietären Modellen mithalten. Ihre LLMs – sowohl die Gewichte als auch der Code – werden unter einer Standard-MIT-Lizenz als Open Source zur Verfügung gestellt. DeepSeek veröffentlicht zudem regelmäßig Fachartikel, in denen die Ergebnisse und Techniken detailliert beschrieben werden.

  • DeepSeek-V3 ist ein großes MoE-Modell mit insgesamt 671 Milliarden Parametern (und 37 Milliarden aktiven Parametern während der Inferenz), das erstmals Ende 2024 veröffentlicht wurde. Dem Modell wird häufig zugeschrieben, die „Mixture of Experts“-Architektur wieder in den Mainstream gerückt zu haben.

  • DeepSeek-R1 ist ein Argumentationsmodell, das durch Feinabstimmung von DeepSeek-V3 unter Verwendung damals neuartiger Techniken des verstärkenden Lernens entwickelt wurde. DeepSeek-R1 markierte einen Meilenstein in der Geschichte der Open-Source-LLMs. Es konnte nicht nur mit der Leistung des zuvor unübertroffenen o1-Modells von OpenAI mithalten, sondern lieferte auch ein technisches Papier mit allen Details zur Trainingsmethodik von DeepSeek. Seine Veröffentlichung inspirierte unmittelbar die erste Generation offener Schlussfolgerungsmodelle.

  • DeepSeek-V3.1, das im August 2025 veröffentlicht wurde, ist ein hybrides Schlussfolgerungsmodell, das sowohl für Standard-Inferenz als auch für CoT-Argumentationen konfiguriert werden kann. Im Wesentlichen vereint es DeepSeek-V3 und DeepSeek-R1 in einem einzigen Modell. Zuletzt wurde es im Oktober 2025 als DeepSeek-V3.2 aktualisiert. Sowohl DeepSeek-V3.1 als auch DeepSeek-V3.2 behalten die 671B-37B-MoE-Architektur des ursprünglichen Modells bei.

  • DeepSeek hat zudem mehrere „DeepSeek-R1-Distill“-Modelle veröffentlicht, die durch Feinabstimmung kleinerer Qwen- und Llama-Modelle entstanden sind, um DeepSeek-R1 mittels Wissensdestillation nachzubilden.

Trotz immer wiederkehrender Gerüchte über eine bevorstehende Veröffentlichung von DeepSeek-V4 (oder „DeepSeek-R2“) ist diese bislang noch nicht erfolgt.

Falcon (TII)

Die LLMs der Falcon-Reihe werden vom Technology Innovation Institute (TTI) der Vereinigten Arabischen Emirate entwickelt. Zwar war die erste Modellgeneration des TTI aus dem Jahr 2023 vor allem durch Falcon-180B bekannt, das damals zu den größten verfügbaren Open-Source-Modellen zählte, doch hat sich das TTI seitdem auf kleinere Modelle konzentriert. Falcon2 verfügte über 11 Milliarden Parameter, und Falcon3, das erste multimodale Modell des TII (veröffentlicht im Dezember 2024), umfasste zwischen 1 und 10 Milliarden Parameter.

Die aktuellsten Generationen der Falcon-Modelle konzentrieren sich auf Hybridmodelle vom Typ Mamba-Transformator-Modelle.

  • Falcon-H1, das im Mai 2025 veröffentlicht wurde, umfasst vortrainierte und durch Anweisungsoptimierung auf bestimmte Aufgaben optimierte Hybridmodelle in den Varianten 0,5 Mrd., 1,5 Mrd., 3 Mrd., 7 Mrd. und 34 Mrd. Falcon-H1R, veröffentlicht im Januar 2026, ist eine auf Schlussfolgerungen spezialisierte Variante von Falcon-H1-7B.

  • Falcon-H1-Tiny sind, wie der Name schon sagt, extrem kleine Varianten von Falcon-H1, die in den Größen 90M, 100M und 0,6B angeboten werden. Jede Größe wird sowohl als Basismodell als auch als spezialisierte Variante angeboten, die für bestimmte Anwendungsfälle optimiert wurde.

  • Falcon-Edge-Modelle sind eine Familie experimenteller 1-Bit-LLMs („BitNet“) mit einer Größe von 1B und 3B.

Falcon-Modelle werden unter einer proprietären Falcon-Lizenz veröffentlicht, die sich am Apache-2.0-Framework orientiert, diesem jedoch wesentliche Bestimmungen und Einschränkungen hinzufügt.

Gemma (Google)

Gemma ist eine Familie offener Modelle von Google. Laut Google werden Gemma-Modelle „aus derselben Technologie gebaut, die auch [ihre] Gemini-Modelle betreibt.“7

  • Gemma 3, das im März 2025 veröffentlicht wurde, ist die neueste Generation des zentralen LLM von Gemma. Die erste Version von Gemma umfasste sowohl vortrainierte als auch auf Anweisungsoptimierung optimierte Varianten mit einer Größe von 1 Mrd., 4 Mrd., 12 Mrd. und 27 Mrd. Parametern. Im August 2025 fügte Google eine kleinere Variante mit 270 Mio. Parametern hinzu. Gemma-3-Modelle können Text- oder Bildeingaben verarbeiten und bieten mehrsprachige Unterstützung für über 140 Sprachen.
  • Gemma 3n, das im Juli 2025 veröffentlicht wurde, verfügt über eine experimentelle MatFormer-Architektur, die es im Wesentlichen ermöglicht, eine beliebige Anzahl kleinerer, maßgeschneiderter Modelle in einem einzigen, größeren Modell zu „verschachteln“. Die Architektur ist nach den russischen Matroschka-Puppen benannt – daher der Name MatFormer. Gemma 3n wird in den Nenngrößen 2B und 4B angeboten und unterstützt Text-, Bild-, Video- oder Audioeingaben (die Ausgaben erfolgen jedoch ausschließlich als Text).

  • FunctionGemma ist eine für den Einsatz mit Tools (oder „Funktionsaufrufe“, daher der Name) optimierte Variante von Gemma 3 270M.

Gemma-Modelle werden unter der Gemma-Lizenz veröffentlicht, deren Nutzungsbedingungen denen der Apache 2.0-Lizenz ähneln, jedoch der Gemma Prohibited Use Policy unterliegen.

GLM (Z.ai)

GLM ist eine Familie von LLMs des in Peking ansässigen Unternehmens Z.ai (auch bekannt als Zhipu AI), die auf Spitzenleistung abzielt. Das Unternehmen erzielte mit GLM-4.5 einen Durchbruch, das bei seiner ersten Veröffentlichung Ende Juli 2025 in akademischen Benchmarks offenbar mit den weltweit führenden Open-Source-Modellen, darunter die Flaggschiff-Modelle von DeepSeek und Qwen, mithalten konnte.

  • GLM-4.5 wurde in zwei Modellgrößen angeboten – dem Flaggschiff-LLM, einem großformatigen MoE-Modell mit insgesamt 355 B Parametern (32 B aktiv), und dem kleineren GLM-4.5-Air (mit insgesamt 106 B Parametern, 12 B aktiv). GLM-4.5V ist eine VLM, die auf dem GLM-4.5-Air Foundation Model basiert, das Computer Vision und Videoverständnis-Funktionen ergänzt.

  • GLM-4.6 ist eine aktualisierte Version von GLM-4.5, die am 30. September 2025 veröffentlicht wurde; sie enthielt keine kleinere, rein textbasierte Variante. Anfang Dezember veröffentlichte das Unternehmen jedoch GLM-4.6V (ein Update von GLM-4.5V) und GLM-4.6V-Flash, ein 9-B-Dense-Modell.

  • GLM-4.7, ein Update des Ende Dezember 2025 veröffentlichten Flaggschiff-Modells für reine Textverarbeitung, wurde um GLM-4.7-Flash erweitert, ein deutlich kleineres LLM mit insgesamt nur 30 Milliarden Parametern (und 3 Milliarden aktiven Parametern).

  • GLM-5, das im Februar 2026 veröffentlicht wurde, ist mit insgesamt 744 Milliarden Parametern (davon 40 Milliarden aktiven) deutlich größer als seine Vorgänger.

Granite (IBM)

IBM Granite ist eine Reihe von Open-Source-LLMs, die für Anwendungsfälle in Unternehmen optimiert sind und sich vor allem auf kleine, praktische und effiziente Modelle konzentrieren. Granite wurde erstmals im September 2023 eingeführt und erlangte mit der Veröffentlichung von Granite 3.0 im Oktober 2024 große Bekanntheit, wodurch die Granite-Reihe eine Leistung erreichte, die mit der führenden Open-Source-Modelle vergleichbarer Größe mithalten kann.

Granite 4, das im Oktober 2025 veröffentlicht wurde, führte eine neue hybride Mamba2-Transformer-Architektur für überlegene Geschwindigkeit und Speichereffizienz ein, insbesondere unter großen Workloads, im Vergleich zu herkömmlichen Transformermodellen.

  • Granite 4-H Small ist ein hybrides MoE-Modell mit insgesamt 32 Milliarden Parametern (9 Milliarden aktive). Granite 4 umfasst zudem ein weiteres hybrides MoE-Modell, Granite 4-H Tiny, mit insgesamt 7 Milliarden Parametern (1 Milliarde aktive), sowie ein dichtes Hybridmodell, Granite 4-H Micro, mit 3 Milliarden aktiven Parametern.

  • Granite 4 Micro ist ein 3B-Dichte-Modell, das im Gegensatz zu den 4-H-Modellen auf einer herkömmlichen Transformer-Architektur basiert.

  • Granite 4 Nano ist eine Serie von hybriden Mamba-Transformator-Modellen und herkömmlichen Transformator-Modellen mit einer Parameteranzahl von 350 Millionen bis zu 1 Milliarde.

  • Granite 4 1B-Speech ist ein Sprach-zu-Text-Modell, das für die automatische Spracherkennung (ASR) und die bidirektionale automatische Sprachübersetzung (AST) entwickelt wurde.

Alle Granite-Modelle sind unter einer Standard-Apache-2.0-Lizenz als Open Source verfügbar und wurden anhand von unternehmenssicheren Daten trainiert. Im Oktober 2025 wurde die Granite-Serie als erste große Familie offener Modelle nach ISO 42001 zertifiziert.

GPT-OSS (OpenAI)

GPT-OSS sind die Open-Weight-Sprachmodelle von OpenAI, die im August 2025 unter einer Standard-Apache-2.0-Lizenz veröffentlicht wurden. Es sind die ersten offenen LLMs des Unternehmens seit der Veröffentlichung von GPT-2 im Jahr 2019.

  • GPT-OSS-120B ist ein MoE-Modell mit insgesamt 117 Milliarden Parametern (5,1 Milliarden aktive), das für allgemeine Zwecke und Aufgaben konzipiert ist, die von hochgradiger Argumentationsfähigkeit profitieren.

  • GPT-OSS-20B ist ein MoE-Modell mit 21 Milliarden Parametern (davon 3,6 Milliarden aktiv), das für Anwendungen mit geringer Latenz und die lokale Bereitstellung konzipiert ist.

Beide GPT-OSS-Modelle wurden mit einer 4-Bit-Quantisierung ihrer Modellgewichte trainiert, wodurch ihre Geschwindigkeit im Vergleich zu herkömmlichen Modellen ähnlicher Größe deutlich gesteigert und ihr Speicherbedarf reduziert wurde.

Kimi (Moonshot AI)

Kimi ist eine Serie offener Modelle, die von Moonshot AI aus Peking entwickelt wurden.

  • Kimi-K2 ist ein rein textbasiertes, umfangreiches MoE-Modell mit insgesamt 1 Billion Parametern (davon 32 Milliarden aktiv). Es erlangte bei seiner Veröffentlichung im Juli 2025 große Bekanntheit, da es bei wichtigen Benchmarks zur Codierung mit den Modellen GPT-4.1 und Claude Opus 4 mithalten konnte und diese teilweise sogar übertraf.

  • Kimi-K2 Thinking, die Variante des Kimi-K2-Inferenzmodells, sorgte ebenfalls für Aufsehen, da sie sich bei anspruchsvollen Benchmarks für agentische KI erneut mit den führenden geschlossenen Modellen messen konnte.

  • Kimi-K2.5 – eine Weiterentwicklung von Kimi-K2, die um multimodale Bildverarbeitungsfunktionen erweitert wurde. Das System kann in verschiedenen „Modi“ betrieben werden, die jeweils für bestimmte Anwendungsfälle optimiert sind.

Kimi-Modelle werden unter einer modifizierten MIT-Lizenz veröffentlicht, die von den Nutzern verlangt, „‚Kimi K2‘ an prominenter Stelle auf der Benutzeroberfläche“ jedes Produkts anzuzeigen, das über 100 Millionen aktive Nutzer pro Monat oder einen monatlichen Umsatz von mehr als 20 Millionen US-Dollar aufweist.

Llama (Meta)

Die Llama-Modelle von Meta (ursprünglich als LLaMA bezeichnet, eine Abkürzung für „Large Language model Meta AI) sind ein fester Bestandteil der Geschichte der offenen LLMs. Die frühen Llama-Versionen trugen zur Demokratisierung der LLM-Methoden bei und prägten viele Standardkonventionen der LLM-Entwicklung – vom Training über die Architektur bis hin zu Variationen bei der Dimensionierung.

  • Llama 2 wurde im Juli 2023 in den Größen 7B, 13B und 70B auf den Markt gebracht.

  • Llama 3, das im April 2024 in den Größen 8B und 70B veröffentlicht wurde, konnte sich in akademischen Benchmarks gegen viele führende geschlossene Modelle behaupten. Llama 3.1 erweiterte die Kontextlänge der Modelle erheblich und fügte im Juli desselben Jahres eine bis dahin beispiellos große 405B-Variante hinzu. Llama 3.2 fügte sowohl kleinere Varianten als auch Bildverarbeitungsfunktionen hinzu, während Llama 3.3 ein einziges 70B-Modell umfasste, dessen Leistung mit der von Llama 3.1 405B konkurrierte.

  • Llama 4 wurde mit zwei großen multimodalen MoE-Modellen veröffentlicht: Llama 4 Maverick mit insgesamt 400 Milliarden Parametern (davon 17 Milliarden aktiv) und Llama 4 Scout mit insgesamt 109 Milliarden Parametern (davon 19 Milliarden aktiv). Obwohl ihre Leistung in den meisten Benchmarks die der früheren Llama-Generationen deutlich übertraf, bleiben die Llama-3-Modelle die beliebtesten LLMs von Meta (wie die Downloadzahlen auf Hugging Face zeigen).10

Obwohl Meta häufig den Begriff „Open Source“ verwendet, werden Llama-Modelle unter einer speziellen Llama-Lizenz veröffentlicht, die Einschränkungen hinsichtlich Nutzung, Namensnennung und Zugriff vorsieht. Die Open Source Initiative hat daher die Verwendung des Begriffs durch Meta kritisiert.

Minimax

Die in Shanghai ansässige MiniMax Group veröffentlichte im Januar 2025 ihr erstes gleichnamiges LLM, MiniMax-Text-01, sowie ein dazugehöriges VLM, MiniMax-VL-01. Seitdem hat sich das Unternehmen als einer der führenden LLM-Entwickler in China etabliert, wobei der Schwerpunkt auf groß angelegten Modellen und langen Kontextfenstern liegt.

  • MiniMax-M1, veröffentlicht im Juni 2025, ist ein rein textbasiertes Logikmodell, das auf der Feinabstimmung von MiniMax-Text-01 basiert. Wie sein Vorgänger ist es ein großes MoE-Modell mit insgesamt 456 B Parametern und 45,9 B aktivierten Parametern pro Token.
  • MiniMax-M2 bietet im Vergleich zum M1 eine überlegene Leistung und Effizienz. Es verfügt über insgesamt 230 Milliarden Parameter und eine differenziertere MoE-Architektur, die pro Token nur 10 Milliarden Parameter aktiviert. Es wurde im Oktober 2025 veröffentlicht und zwei Monate später als MiniMax-M2.1 aktualisiert. MiniMax bietet außerdem MiniMax-M2-her an, eine speziell auf charakterbasiertes Rollenspiel abgestimmte Version.

  • MiniMax-M2.5 und MiniMax-M2.5-Lightning,die im Februar 2026 veröffentlicht wurden, erzielen eine weitere Leistungsoptimierung und können bei ausgewählten Benchmarks zur Codierung mit Claude Opus 4.5 mithalten. Sie sind in jeder Hinsicht identisch, abgesehen von Geschwindigkeit und Durchsatz: Die „Lightning“-Variante liefert Ergebnisse doppelt so schnell.

  • MiniMax-M2.7, das im März 2026 veröffentlicht wurde, ist ein Update von MiniMax-M2.5, das nach Angaben des Unternehmens dazu beigetragen hat, sich selbst zu trainieren.11

MiniMax-Modelle werden unter einer modifizierten MIT-Lizenz angeboten.

Mistral AI

Neben seinen Closed-Source-Angeboten bietet Mistral AI eine Vielzahl von hoch angesehenen Open-Source-Modellen an. Die meisten (wenn auch nicht alle) Open-Source-Modelle von Mistral werden unter der Standard-Apache-2.0-Lizenz veröffentlicht.

  • Mistral Large 3 nutzt eine von DeepSeek-V3 inspirierte MoE-Architektur mit insgesamt 675 Milliarden Parametern (davon 41 Milliarden aktiv). Seine Benchmark-Leistung entspricht in etwa der von DeepSeek-V3.1 und Kimi-K2.1.12 Das im Dezember 2025 veröffentlichte Modell ist mehrsprachig und multimodal und kann sowohl Text- als auch Bildeingaben verarbeiten.

  • Ministral 3 ist die kleine Modellreihe von Mistral, die in den Größen 3B, 8B und 14B sowie in den Varianten „Base“, „Anweisungsoptimierung“ und „Reasoning“ angeboten wird.

  • Mistral Small 3.2 ist ein 24 B LLM, das im Juni 2025 veröffentlicht wurde. Seine Leistung ist vergleichbar mit der des neueren Ministral 3 14B.

  • Devstral ist die auf agentenbasierte Technik ausgerichtete Modellreihe von Mistral. Devstral 2, das im Dezember 2025 auf den Markt kam, umfasst zwei Modelle. Devstral 2 123B wird unter einer modifizierten MIT-Lizenz veröffentlicht, wonach Unternehmen mit einem monatlichen Umsatz von über 20 Millionen US-Dollar eine kommerzielle Lizenz bei Mistral beantragen müssen. Devstral Small 2 24B wird unter der Standard-Apache-2.0-Lizenz veröffentlicht.

  • Mixtral, veröffentlicht im Dezember 2023, ist ein LLM, das ursprünglich die Mixture of Experts-Architektur für Sprachmodelle populär machte. Anfang 2026 ist die 8x7B-Variante auf Hugging Face weiterhin äußerst beliebt, mit über 700.000 monatlichen Downloads.13

Nemotron (NVIDIA)

Die offene LLM-Serie des führenden Hardwareherstellers NVIDIA genießt aufgrund ihrer Leistungsfähigkeit, der wissenschaftlichen Literatur sowie ihrer architektonischen Innovationen hohes Ansehen.

  • NVIDIA-Nemotron-Nano v2 ist eine Familie hybrider Mamba-2-LLM-Modelle mit einer Größe von 9B und 12B, die sowohl logisches Denken als auch Standard-Inferenz leisten können. Sie wurden im August 2025 unter einer speziellen NVIDIA Open Model License Agreement veröffentlicht, die besondere Bestimmungen hinsichtlich der rechtlichen Haftung, der Nutzung und des Rechts von NVIDIA auf künftige Änderungen der Vereinbarung enthält.

  • Nemotron 3 Nano, das im Dezember 2025 auf den Markt kam, umfasst zwei Modelle: Nemotron-3-Nano-4B und Nemotron-3-Nano-30B-A3B, ein MoE mit insgesamt 30B Parametern (3B aktiv). Sie wurden unter der NVIDIA Nemotron Open Model License veröffentlicht, die NVIDIA das Recht entzieht, die Bedingungen in Zukunft einseitig zu ändern.

  • Nemotron 3 Super ist ein größeres MoE mit insgesamt 120 Milliarden Parametern (davon 12 Milliarden aktiv), das im März 2026 auf den Markt kam.

Olmo (AllenAI)

Olmo, entwickelt vom Allen Institute for AI („Ai2“), gehört zu den wirklich „offensten“ aller Open-Source-Modelle: Ai2 veröffentlicht in der Regel den gesamten Code, die Gewichte, die Trainings-Checkpoints und die zugehörigen Datensätze im Rahmen einer Standard-Apache-2.0-Lizenz.

  • Olmo 3, veröffentlicht im November 2025, umfasst dichte Transformatormodelle in den Größen 7B und 32B. Die Modelle werden in den Varianten „Base“, „Instruct“ und „Think“ angeboten. Im Dezember 2025 erhielt das 32B-Modell ein Update als Olmo 3.1.
  • Olmo Hybrid, das im März 2026 veröffentlicht wurde, ist ein 7B-Modell mit einer experimentellen Hybridarchitektur, die sowohl Transformer- als auch lineare RNNs kombiniert (basierend auf der Gated DeltaNet-Architektur, die durch Qwen bekannt wurde).

Phi (Microsoft)

Phi ist die offene Modellreihe von Microsoft, die sich traditionell auf kleine Modelle konzentriert. Sie werden unter der Standard-MIT-Lizenz veröffentlicht.

  • Phi 4 ist ein rein textbasiertes LLM mit einer Größe von 14 Milliarden Parametern, das ursprünglich im Dezember 2024 veröffentlicht wurde.

  • Phi 4-mini, veröffentlicht im Februar 2025, ist ein kleineres 3.8B-Modell.

  • Phi 4-multimodal, das zusammen mit Phi 4-mini veröffentlicht wurde, unterstützt Text-, Bild- und Spracheingaben.

  • Phi 4-Reasoning-Vision, das im März 2026 veröffentlicht wurde, ist ein 15B-Modell, das ganzheitliches, multimodales Schlussfolgern über Bilder, Texte und Dokumente hinweg ermöglicht.

Qwen (Alibaba)

Die von Alibaba entwickelte Qwen-Reihe von LLMs hat sich zu einem der beliebtesten offenen Modelle der Branche entwickelt. Die Modellfamilie bietet eine große Auswahl an Modellgrößen, Architekturen und Funktionen, die auf die vielfältigen Anforderungen von Entwicklern zugeschnitten sind.

  • Qwen3 umfasst reine Text-Dense-Transformator-Modelle in den Größen 0,6B, 1,7B, 4B, 8B, 14B und 32B sowie MoEs in den Größen 30B-A3B und das Flaggschiffmodell Qwen3-235B-A22B. Alle Qwen3-Modelle werden in den Varianten „Base“, „Thinking“ und „Instruct“ angeboten.

  • Qwen3-Next ist ein experimentelles, rein textbasiertes MoE-Modell mit 80 Milliarden Parametern (davon 3 Milliarden aktiv), das die Standard-Attention durch Gated Delta Networks (inspiriert von Mamba-2) und Gated Attention ersetzt.

  • Qwen3-Omni ist ein nativ multimodales Modell, das auf Qwen3-30B-A3B basiert und Eingaben in Form von Text, Bildern, Audio oder Video sowie Ausgaben in Form von Text oder Sprache unterstützt.

  • Qwen3-Coder-Next ist eine speziell für die Codegenerierung optimierte Version von Qwen3-Next.

  • Qwen3.5, veröffentlicht im Februar 2026, ist eine Familie multimodaler Modelle, die auf der Architektur von Qwen3-Next basiert. Es umfasst sowohl Basis- als auch Hybrid-Schlussfolgerungsmodelle in den Größen 0,8B, 2B, 4B, 9B und 27B sowie MoE-Modelle in den Größen 35B-A3B, 122B-A10B und das Flaggschiffmodell 397B-A17B. Qwen3.5-397B-A17B zielt darauf ab, mit den führenden Modellen Gemini, GPT und Claude um Spitzenleistung zu konkurrieren.

Autor

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Verwandte Lösungen
IBM Bob

Beschleunigen Sie die Softwarebereitstellung mit Bob, Ihrem KI-Partner für sichere, absichtsorientierte Entwicklung.

IBM Bob erkunden
IBM watsonx Orchestrate

Mit IBM watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und -Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
Machen Sie den nächsten Schritt

Wo auch immer Sie sich im Entwicklungszyklus befinden, Bob hat die passende Lösung für Sie – mit absichtsorientierten, sicherheitsorientierten, agentenbasierten Reviews, die die Bereitstellung hochwertiger Software beschleunigen.

  1. IBM Bob entdecken
  2. Entdecken Sie watsonx Orchestrate
Fußnoten