Eine Liste großer Sprachmodelle

Autoren

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

Eine Liste großer Sprachmodelle

Der Boom der generativen KI hat die treibende Kraft dahinter ins Rampenlicht gerückt: Large Language Models (LLMs). Dutzende von LLMs gibt es bereits, aber mit der rasanten Weiterentwicklung der Technologie tauchen immer mehr dieser KI-Modelle auf.

Vergleichen wir das Ganze mit der Automobilbranche: Hunderte von Autoherstellern auf der ganzen Welt haben ihre eigenen Modelle, die den unterschiedlichen Bedürfnissen der Verbraucher gerecht werden. Auch die Autos haben sich im Laufe der Zeit gewandelt, von benzinbetriebenen Autos zu Elektrofahrzeugen mit vielen intelligenten Funktionen.

Dasselbe gilt für LLMs. Diese KI-Systeme begannen als Foundation Models, die aus mehreren Schichten neuronaler Netze bestanden, die anhand riesiger Datensatz-Volumen trainiert wurden.

Sie setzen Deep Learning ein, um Aufgaben der Verarbeitung natürlicher Sprache (NLP) und Natural Language Understanding (NLU) zu erledigen. Ihre Fähigkeiten haben sich jedoch verbessert und beinhalten nun auch Funktionen und Reasoning der agentischen KI.

Diese rasante Entwicklung bedeutet, dass sich die LLM-Geschäftswelt ständig verändert. KI-Entwickler müssen ihre Modelle ständig aktualisieren oder sogar neue entwickeln, um mit dem rasanten Fortschritt Schritt zu halten.

Während NLP- und NLU-Aufgaben wie die Zusammenfassung von Inhalten, die maschinelle Übersetzung, die Stimmungsanalyse und die Textgenerierung weiterhin zu den tragenden Säulen gehören, passen KI-Entwickler ihre Modelle an bestimmte Anwendungsfälle an.

Beispielsweise sind einige LLMs speziell für die Codegenerierung konzipiert, während andere für die Ausführung von Vision-Language-Aufgaben konzipiert sind.

Es ist unmöglich, jedes LLM, das auf dem Markt ist, erwähnen, aber hier finden Sie eine Liste der aktuellsten und beliebtesten großen Sprachmodelle, anhand derer Unternehmen ihre Optionen eingrenzen und herausfinden können, welches Modell ihren Bedürfnissen am besten entspricht:

Claude

Entwickler: Anthropic

Erscheinungsdatum: Februar 2025 für Claude 3.7 Sonett

Anzahl der Parameter: Nicht öffentlich bekannt gegeben

Kontextfenster: 200.000 Token

Lizenz: Proprietär

Zugriff: Anthropic API, Amazon Bedrock, Google Cloud Vertex AI

Eingabe: Multimodal (Bild, Text)

Ausgabe: Text

Claude ist eine Familie von LLMs, die auf einer Transformer-Architektur basieren. Es ist das große Modell hinter dem gleichnamigen dialogorientierten KI-Assistenten. Claudes Design orientiert sich an konstitutionellen KI-Prinzipien, die sich auf die KI-Sicherheit konzentrieren, um schädliche Verhaltensweisen wie KI-Verzerrung zu reduzieren.

Die Claude-Familie besteht aus 3 KI-Modellen:

● Claude Haiku

● Claude Sonnet

● Claude Opus

Claude Haiku

Claude 3.5 Haiku ist das schnellste Modell. Es ist ideal für Anwendungsfälle mit geringer Latenz, wie z. B.Chatbots für Kundenservice und Code-Vervollständigung, um den Workflow in der Softwareentwicklung zu beschleunigen.

Claude Sonnet

Claude 3.7 Sonett ist das „bisher intelligenteste Modell“ von Anthropic. Dieses Argumentationsmodell verfügt über einen Modus des „erweiterten Denkens“, der es ihm ermöglicht, sich selbst zu reflektieren, bevor es eine Antwort gibt. Diejenigen, die Anthropic-API verwenden, können auch angeben, wie lange das Modell nachdenken soll.

Claude 3.7 Sonnet kann für spezifischere Aufgaben wie Codegenerierung, Computernutzung (ermöglicht es dem LLM, einen Computer so zu verwenden, wie es ein Mensch tut), Extrahieren von Informationen aus visuellen Daten und Beantwortung von Fragen eingesetzt werden.

Claude Opus

Claude 3 Opus ist das leistungsstärkste Modell unter den dreien. Es kann tiefgreifende Analysen und längere, komplexere Aufgaben in mehreren Schritten bewältigen.

Befehl

Entwickler: Cohere

Erscheinungsdatum: April 2024 für Command R+ und Dezember 2024 für Command R7B

Anzahl der Parameter: Bis zu 104 Milliarden

Kontextfenster: 128.000 Token

Lizenz: Proprietär

Zugriff: Cohere API, Amazon Bedrock, Microsoft Azure KI Studio, Oracle KI Infrastructure Generative KI

Eingabe: Text

Ausgabe: Text

Command ist das Flaggschiff unter den Sprachmodellen von Cohere. Diese Familie von LLMs für Unternehmen umfasst diese Modelle:

● Command R

● Command R+

● Command R7B

Command R

Command R ist ein mehrsprachiges Textgenerierungsmodell mit 32 Milliarden Parametern.¹ Es wurde trainiert, seine Fähigkeit zur Retrieval-Augmented Generation (RAG) durch die Angabe von Zitaten in seinen Antworten zu untermauern. Command R bietet auch Funktionen zur Verwendung von Konversationstools

Command R+

Command R+ ist eine leistungsfähigere Version mit 104 Milliarden Parametern.² Es kann komplexe RAG-Funktionen und die mehrstufige Nutzung von Werkzeugen bewältigen, so dass KI-Agenten die neuesten Informationen sammeln und ihre Wissensdatenbank aktualisieren können, indem sie auf externe Tools zurückgreifen.

Command R7B

Command R7B ist mit 7 Milliarden Parametern das kleinste und schnellste Modell. Es ist ideal für CPU-basierte Bereitstellungen, Low-End-GPUs und andere Edge-Geräte und kann für Inferenz auf dem Gerät implementiert werden.

DeepSeek-R1

Entwickler: DeepSeek

Veröffentlichungsdatum: Januar 2025

Anzahl der Parameter: 671 Milliarden

Kontextfenster: 128.000 Token

Lizenz: Open Source (MIT Lizenz)

Zugriff: DeepSeek API, Hugging Face

Eingabe: Text

Ausgabe: Text

DeepSeek-R1 ist ein Open-Source-Reasoning-Modell des chinesischen KI-Startups DeepSeek. Es verwendet eine Mixture of Experts, (MoE)-Architektur für maschinelles Lernen und wurde mit groß angelegtem Reinforcement Learning trainiert, um seine Reasoning-Fähigkeiten zu verfeinern.

Die Leistung von DeepSeek-R1 ist bei bestimmten LLM-Benchmarks ähnlich oder sogar besser als die der Reasoning-Modelle o1 von OpenAI. DeepSeek-R1 nutzte außerdem Wissensdestillation, um mehrere kleinere Llama- und Qwen-Modelle mithilfe der vom deutlich größeren LLM DeepSeek-R1 generierten Reasoning-Daten zu optimieren.

Die daraus resultierenden destillierten Modelle verbesserten die Funktionen ihrer ursprünglichen Gegenstücke und wiesen sogar eine bessere Leistung gegenüber anderen größeren Modellen auf. 3

Falcon

Entwickler: Technology Innovation Institute

Erscheinungsdatum: Dezember 2024 für Falcon 3

Anzahl der Parameter: Bis zu 180 Milliarden

Kontextfenster: Bis zu 32.000 Token

Lizenz: Open Source

Zugang: Hugging Face

Eingabe: Text

Ausgabe: Text

Falcon ist eine Gruppe von Open-Source-Modellen, die von Forschern des Technologie Innovation Institute (TII) der VAE entwickelt wurden. Diese Modelle wurden mit dem TII-eigenen RefinedWeb trainiert, einem riesigen Datensatz mit gefilterten englischen Webdaten.

Falcon besteht aus diesen LLMs:

● Falcon 2

● Falcon 3

● Falke Mamba 7B

Weitere frühere und größere Falcon-Versionen sind Falcon 40B mit 40 Milliarden Parametern und Falcon 180B mit 180 Milliarden Parametern.

Falcon 2

Falcon 2 11B ist ein reines Kausal-Decodermodell mit 11 Milliarden Parametern. Es bietet mehrsprachige Unterstützung und wird in Kürze auch über Vision-to-Language-Funktionen verfügen.

Falcon 3

Falcon 3 ist ein reines Decoder-Design und in leichtgewichtigen Parametergrößen von 1, 3, 7 und 10 Milliarden erhältlich. Er verbessert seinen Vorgänger und seine Argumentationsfähigkeiten.

Falcon Mamba 7B

Falcon Mamba 7B ist ein Zustandsraummodell für die Sprachverarbeitung (State Space Language Model, SSLM), das von der typischen LLM-Transformer-Architektur abweicht. Transformer-Modelle verwenden einen Aufmerksamkeitsmechanismus, um ihre Aufmerksamkeit auf die wichtigsten Token in der Eingabesequenz zu fokussieren. Je größer das Kontextfenster wird, desto mehr Speicher und Rechenleistung benötigen die Transformatoren jedoch.

SSLMs aktualisieren während der Verarbeitung kontinuierlich einen „Zustand“ und verwenden einen Auswahlalgorithmus, um die Parameter dynamisch entsprechend der Eingabe anzupassen. Dies ermöglicht es Falcon Mamba 7B, lange Textsequenzen ohne zusätzlichen Speicher zu verarbeiten und neue Token in der gleichen Zeit unabhängig von der Kontextlänge zu generieren.

Gemini

Entwickler: Google DeepMind

Erscheinungsdatum: Dezember 2024

Anzahl der Parameter: Nicht öffentlich bekannt gegeben

Kontextfenster: 1 Million Token

Lizenz: Proprietär

Zugriff: Gemini API, Google KI Studio, Google Cloud Vertex KI

Eingabe: Multimodal (Audio, Bild, Text, Video)

Ausgabe: Text

Gemini ist die Suite multimodaler Modelle von Google. Es unterstützt auch den generativen intelligenten Chatbot (früher bekannt als Bard) gleichen Namens.

Gemini verwendet ein Transformer-Modell, eine neuronale Netzwerkarchitektur, die von Google selbst stammt und auf den früheren grundlegenden Sprachmodellen des Unternehmens aufbaut, darunter BERT (Bidirectional Encoder Representations from Transformers) und PaLM 2 (Pathways Language Model).

Die neueste Version, Gemini 2.0, ist laut Google „für das agentische Zeitalter entwickelt“. Gemini 2.0 gibt es in verschiedenen Varianten:

● Gemini 2.0 Flash

● Gemini 2.0 Flash-Lite

● Gemini 2.0 Pro

Gemini 2.0 Flash

Gemini 2.0 Flash ist ein leichtes Modell, das die Verwendung von Tools unterstützt. Zu den Funktionen, die bald verfügbar sein werden, gehören Bilderzeugung und Text to Speech.

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite ist eine verbesserte Version des bisherigen leichten und kosteneffizienten 1.5 Flash. Es behält die gleiche Geschwindigkeit und die gleichen Kosten bei gleichzeitiger Qualitätsverbesserung bei.

Gemini 2.0 Pro

Gemini 2.0 Pro ist das, was Google aufgrund seiner Funktionen und seines längeren Kontextfensters bei zwei Millionen Token als sein stärkstes Modell für die Codierung und Bewältigung komplexer Prompt bezeichnet. Es befindet sich noch in der experimentellen Phase.

GPT

Entwickler: Offene KI

Veröffentlichungsdatum: Mai 2024 für GPT-4o und Juli 2024 für GPT-4o mini

Anzahl der Parameter: Nicht öffentlich bekannt gegeben

Kontextfenster: 128.000 Token

Lizenz: Proprietär

Zugriff: OpenAI API mit .NET, JavaScript, Python, TypeScript

Eingabe: Multimodal (Audio, Bild, Text, Video)

Ausgabe: Multimodal (Audio, Bild, Text)

Generative pretrained transformers (GPTs) sind eine Reihe von großen Sprachmodellen, die von OpenAI entwickelt wurden. GPT umfasst die folgenden LLMs:

● GPT-4o

● GPT-4o mini

GPT-4o

GPT-4o ist ein mehrsprachiges und multimodales Modell. Als eines der fortschrittlichsten LLMs ist GPT-4o in der Lage, Audio-, Text- und visuelle Eingaben zu verarbeiten und eine beliebige Mischung aus Audio-, Bild- und Textausgaben zu erzeugen.

Die Leistung wurde gegenüber seinen Vorgängern GPT-4 Turbo und GPT-4 verbessert. GPT-4o ist das aktuelle LLM, das den generativen intelligenten Chatbot ChatGPT von OpenAI unterstützt.

GPT-4o mini

GPT-4o mini ist ein kleineres, günstigeres Modell, das Bild- und Texteingaben akzeptiert und Textausgaben generiert. Es hat GPT-3.5 Turbo in puncto Leistung übertroffen.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Granite

Entwickler: IBM

Erscheinungsdatum: Februar 2025

Anzahl der Parameter: Bis zu 34 Milliarden

Kontextfenster: 128.000 Token

Lizenz: Open Source (Apache 2.0)

Zugriff: IBM® watsonx.ai, Hugging Face, LM Studio, Ollama, Replicate

Eingabe: Multimodal (Bild, Text)

Ausgabe: Text

IBM® Granite ist eine Reihe von auf Unternehmen abgestimmten Open-Source-LLMs. Sie umfasst die folgenden Modelle:

● Granite 3.2

● Granite-Vision

Granite 3.2

Granite 3.2 enthält verbesserte Argumentationsfunktionen und erweiterte Funktionen für RAG-Aufgaben. Es ist in Parametergrößen von 2 und 8 Milliarden erhältlich.

Die Trainingsdaten von Granite 3.2 sind eine Mischung aus Open-Source-Datensätzen mit freizügiger Lizenz und intern gesammelten, hochwertigen synthetischen Datensätzen, die für die Lösung von Problemen mit langen Kontexten zugeschnitten sind.

Granite Vision

Granite Vision ist ein Vision-Sprachmodell mit 2 Milliarden Parametern, das auf das visuelle Verständnis von Dokumenten zugeschnitten ist. Es wurde für die effiziente Extraktion von Inhalten aus verschiedenen Diagrammen und Tabellen entwickelt und eignet sich daher für die Analyse strukturierter Daten.

Andere LLMs der Granite-Serie bestehen aus diesen spezialisierten Modellen:

● Granite-Code

● Granit Guardian

● Granite Embedding

Granite Code

Diese reinen Decodermodelle sind für codegenerative Aufgaben konzipiert, einschließlich Codebearbeitung, Codeerklärung und Codegenerierung. Granite Code-Modelle wurden mit Code trainiert, der in 116 Programmiersprachen geschrieben wurde und in Größen von 3, 8, 20 und 34 Milliarden Parametern verfügbar ist.

Granite Guardian

Granite Guardian-Modelle sind LLM-basierte Verhaltensregeln zur Erkennung von Risiken in Prompts und Antworten. Granite Guardian ist in Parametergrößen von 2, 3, 5 und 8 Milliarden erhältlich.

Granite Embedding

Granite Embedding-Modelle sind Satztransformator-Modelle, die speziell für abrufbasierte Anwendungen wie semantische Suche und RAG entwickelt wurden.

Grok

Entwickler: xAI

Veröffentlichungsdatum: Februar 2025 für Grok 3

Anzahl der Parameter: 314 Milliarden

Kontextfenster: 128.000 Token

Lizenz: Proprietär

Zugang: xAI API

Eingabe: Multimodal (Bild, Text)

Ausgabe: Text

Grok ist ein Sprachmodell von xAI. Das LLM der ersten Generation, Grok-1, ist ein MoE-Modell mit 314 Milliarden Parametern. Aufgrund seiner enormen Größe sind nur 25 % der Modellgewichte von Grok-1 auf einem bestimmten Eingabe-Token aktiv.

Im März 2024 veröffentlichte xAI Grok-1.5 mit einem Kontextfenster von 128.000 Token und verbesserten Problemlösungsfunktionen. Fünf Monate später brachte xAI die Grok-2 und seine kleinere Version, Grok-2 mini, auf den Markt. Grok-2 verfügt über noch verbesserte Chat-, Codierung- und Denkfähigkeiten und bietet Unterstützung für sehbasierte Aufgaben.

Die neuesten Versionen, Grok 3 und Grok 3 mini, sind mit erweiterten Argumentations- und KI-Agentenfunktionen ausgestattet.

Llama

Entwickler: Meta

Veröffentlichungsdatum: Dezember 2024 für Llama 3.3

Anzahl der Parameter: Bis zu 405 Milliarden

Kontextfenster: 128.000 Token

Lizenz: Open Source

Zugang: Meta, Hugging Face, Kaggle

Eingabe: Multimodal (Bild, Text)

Ausgabe: Text

Llama ist die LLM-Sammlung von Meta AI. Die autoregressiven Modelle implementieren eine optimierte Transformer-Architektur, mit abgestimmten Versionen, die überwachte Feinabstimmung und verstärkendes Lernen mit menschlichem Feedback (RLHF) anwenden.⁵

Die Llama-3-Sammlung tritt die Nachfolge der Llama-2-LLMs an und bietet folgende Modelle:

● Llama 3.1

● Llama 3.2

● Llama 3.3

Llama 3.1

Llama 3.1 hat ein 8-Milliarden-Parameter-Modell und ein Flaggschiff-Foundation-Model mit 405 Milliarden Parametern. Beide sind mehrsprachige Nur-Text-Modelle.

Llama 3.2

Llama 3.2 ist in den Größen 1 und 3 Milliarden Parameter erhältlich, die kompakt genug für mobile und Edge-Geräte sind. Die 11 und 90 Milliarden Parametergrößen sind multimodale LLMs, die für die Beantwortung allgemeiner Fragen zu einem Bild, zur Untertitelung, zum Bildverständnis und zur visuellen Erkennung optimiert sind.⁶

Llama 3.3

Llama 3.3 ist ein mehrsprachiges Textmodell mit 70 Milliarden Parametern. Es bietet eine vergleichbare oder sogar bessere Leistung als Llama 3.1 405B, ist aber kostengünstiger.

Mistral

Entwickler: Mistral AI

Erscheinungsdatum: Juli 2024 für Mistral Large 2

Anzahl der Parameter: Bis zu 124 Milliarden

Kontextfenster: Bis zu 256.000 Token

Lizenz: Mistral Research, Mistral Commercial, Apache 2.0

Zugriff: Die Plattform, Amazon Bedrock, Microsoft Azure KI Studio, Google Cloud Vertex KI, IBM watsonx.ai

Eingabe: Multimodal (Bild, Text)

Ausgabe: Text

Das in Frankreich ansässige Unternehmen Mistral AI verfügt über eine Reihe von LLMs, die diese Modelle umfassen:

● Mistral Groß

● Mistral Klein

● Codestral

● Pixtral Groß

Mistral Large

Mistral Large 2 ist das Flaggschiffmodell von Mistral KI. Es hat 123 Milliarden Parameter und ein Kontextfenster mit 128.000 Token. Es funktioniert gut für Codegenerierung, Mathematik und Reasoning. Mistral Large 2 bietet mehrsprachigen Support und die Möglichkeit, Funktionen aufzurufen.

Mistral Small

Mistral Small 3 ist eine kompaktere Version mit 24 Milliarden Parametern. Dieses Modell eignet sich für dialogorientierte KI, geringe Latenz und die lokale Verarbeitung von Inferenz auf Computern mit eingeschränkten Ressourcen. Mistral Small 3 ist Open Source und wird unter der Apache 2.0 Lizenz veröffentlicht.

Codestral

Codestral 25.01 ist die neueste Generation des Codierungsmodells von Mistral KI. Es verfügt über eine Kontextlänge von 256.000 Token und unterstützt Aufgaben wie Codevervollständigung, Codekorrektur, Codegenerierung und Testgenerierung.

Pixtral Large

Pixtral Large ist ein multimodales Modell mit 124 Milliarden Parametern. Es basiert auf Mistral Large 2 und erweitert seine Funktionen um Bildverständnis.

o1

Entwickler: Offene KI

Veröffentlichungsdatum: September 2024 für o1, Januar 2025 für o3-Mini

Anzahl der Parameter: Nicht öffentlich bekannt gegeben

Kontextfenster: Bis zu 200.000 Token

Lizenz: Proprietär

Zugang: OpenAI-API

Eingabe: Multimodal (Bild, Text)

Ausgabe: Text

Die o1-Serie von KI-Modellen umfasst o1 und o1-mini. Im Vergleich zu den GPT-Modellen von OpenAI sind die o1-LLMs mit besseren Argumentationsfunktionen ausgestattet. Sowohl o1 als auch o1-mini wurden mit groß angelegtem Reinforcement Learning trainiert, das es ihnen ermöglichte, zu „denken“, bevor sie reagierten. Sie können eine lange Gedankenkette anstellen, bevor sie antworten.

Das LLM o1 akzeptiert sowohl Bild- als auch Texteingaben, während o1-mini nur Texteingaben verarbeiten kann.⁷ Im Vergleich zu o1 ist o1-mini kleiner, schneller und kostengünstiger. Es eignet sich außerdem hervorragend für MINT-basiertes Reasoning und Programmieren.

Inzwischen ist o3-mini das neueste Denkmodell. Wie o1-mini liegt seine Stärke in der Codierung, Mathematik und Wissenschaft. Es unterstützt Funktionsaufrufe und bietet 3 Optionen für den Denkaufwand (niedrig, mittel und hoch), um für verschiedene Szenarien zu optimieren, z. B. für komplexe Probleme, die einen höheren Denkaufwand erfordern, oder für einfachere Probleme, die schnelle Antworten erfordern und weniger Denkaufwand erfordern.

AI Academy

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Erfahren Sie mehr über eine neue Klasse flexibler, wiederverwendbarer KI-Modelle, die neue Einnahmen erschließen, Kosten senken und die Produktivität steigern können. Dann nutzen Sie unseren Leitfaden, um mehr zu erfahren.

Zur Episode wechseln

Qwen

Entwickler: Alibaba Cloud

Veröffentlichungsdatum: September 2024 für Qwen 2.5 und Januar 2025 für Qwen2.5-Max

Anzahl der Parameter: Bis zu 72 Milliarden

Kontextfenster: Bis zu 1 Million Token

Lizenz: Open Source (Apache 2.0), proprietär für größere Modelle

Zugriff: Alibaba Cloud, Hugging Face

Eingabe: Multimodal (Audio, Bild, Text, Video)

Ausgabe: Text

Qwen ist eine Reihe von LLMs des chinesischen Cloud-Computing-Unternehmens Alibaba Cloud. Qwen enthält Sprachmodelle und -varianten, die für Audio-, Codierungs-, Mathematik- und Vision-Aufgaben optimiert sind.

Qwen bietet diese Modelle an:

● Qwen 2.5

● Qwen Audio

● Qwen Coder

● Qwen-Mathematik

● Qwen VL

Qwen 2.5

Qwen2.5-Modelle sind reine Decoder-Modelle für mehrsprachige Sprachverarbeitungsaufgaben. Es gibt sie in den Größen 0,5, 3, 7, 14, 32 und 72 Milliarden. Größere Modelle, wie die 72-Milliarden-Variante, sind nur über einen API-Zugang auf der proprietären Cloud-Plattform von Alibaba verfügbar.

Qwen2.5-Turbo zeichnet sich durch eine längere Kontextlänge von 1 Million Token und eine schnellere Inferenzgeschwindigkeit aus. Mittlerweile ist Qwen2.5-Max das neueste groß angelegte MoE-Modell.

Qwen Audio

Qwen 2 Audio wurde speziell für audiobasierte Aufgaben entwickelt. Dieses 7-Milliarden-Parameter-Modell kann verwendet werden, um Ton zu transkribieren, zu erkennen und zu klassifizieren, Sprachbefehle zu verarbeiten und musikalische Elemente zu identifizieren.

Qwen Coder

Qwen2.5 Coder ist ein codespezifisches LLM. Es ist in den Größen 1,5, 7, 14 und 32 Milliarden Parameter erhältlich.

Qwen Math

Qwen 2 Math ist eine Sammlung von mathematikoptimierten LLMs. Diese Modelle eignen sich für fortgeschrittenes mathematisches Denken und das Lösen komplexer mathematischer Probleme. Qwen 2 Math ist in den Größen 1,5, 7 und 72 Milliarden erhältlich.

Qwen VL

Qwen 2 VL ist ein Vision Language Model, das visuelle Verarbeitung mit natürlichem Sprachverständnis kombiniert. Beispiele für Anwendungsfälle sind das Extrahieren von Informationen aus visuellen Daten und das Generieren von Untertiteln und Zusammenfassungen für Bilder und Videos. Qwen 2 VL ist mit 2, 7 und 72 Milliarden Parametern erhältlich.

Stabiles LM

Entwickler: Stability AI

Erscheinungsdatum: April 2024 für Stable LM 2 12B

Anzahl der Parameter: Bis zu 12 Milliarden

Kontextfenster: 4.096 Token

Lizenz: Stability AI Community License oder Enterprise License

Zugriff: Stability AI, Hugging Face

Eingabe: Text

Ausgabe: Text

Stable LM ist eine Gruppe von frei zugänglichen Sprachmodellen von Stability AI, den Machern des Text-zu-Bild-Modells Stable Diffusion. Stable LM 2 12B hat 12 Milliarden Parameter, während Stable LM 2 1.6B 1,6 Milliarden Parameter hat. Es handelt sich um reine Decoder-LLMs, die auf mehrsprachigen Daten und Datensätzen trainiert wurden. Beide Modelle berücksichtigen den Aufruf von Funktionen und die Verwendung von Tools.

Stable Code 3B ist ein weiteres LLM, das auf codebezogene Datensätze feinabgestimmt ist. Als leichtgewichtiges Modell mit 3 Milliarden Parametern kann Stable Code 3B in Echtzeit auf Geräten ausgeführt werden, auch auf solchen ohne GPU.

Fußnoten

Alle Links befinden sich außerhalb von ibm.com

¹ Model Card for C4AI Command R 08-2024, Hugging Face, abgerufen am 14. Februar 2025.

² Modellkarte für C4AI Command R+ 08-2024, Hugging Face, abgerufen am 14. Februar 2025.

³ DeepSeek-R1: Incentivierung von Funktionen in LLMs via Reinforcement Learning, GitHub, 23. Januar 2025.

⁴ Abruf der neuesten 2.0 experimentellen Modelle in der Gemini-App, Google, 5. Februar 2025.

⁵ Model Information, GitHub, 30. September 2024.

⁶ Model Information, GitHub, 30. September 2024.

⁷ o1 und o1-mini, OpenAI, abgerufen am 14. Februar 2025.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von Foundation Models den richtigen Ansatz wählen.

Eine Liste großer Sprachmodelle

Autoren

Eine Liste großer Sprachmodelle

Claude

Claude Haiku

Claude Sonnet

Claude Opus

Befehl

Command R

Command R+

Command R7B

DeepSeek-R1

Falcon

Falcon 2

Falcon 3

Falcon Mamba 7B

Gemini

Gemini 2.0 Flash

Gemini 2.0 Flash-Lite

Gemini 2.0 Pro

GPT

GPT-4o

GPT-4o mini

Die neuesten Erkenntnisse und Insights zu KI

Granite

Granite 3.2

Granite Vision

Granite Code

Granite Guardian

Granite Embedding

Grok

Llama

Llama 3.1

Llama 3.2

Llama 3.3

Mistral

Mistral Large

Mistral Small

Codestral

Pixtral Large

o1

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Qwen

Qwen 2.5

Qwen Audio

Qwen Coder

Qwen Math

Qwen VL

Stabiles LM

Fußnoten

Share

Ressourcen