Was ist Mistral AI?

Luftaufnahme von Menschen, die spazieren gehen

Mistral AI ist ein in Frankreich ansässiges Startup für künstliche Intelligenz (KI), das vor allem für seine Open-Source- Large Language Models (LLMs) bekannt ist. Seit seiner Gründung im Jahr 2023 hat sich das Unternehmen zu einem der weltweit führenden Entwickler von generativer KI entwickelt.

Mistral AI wurde im April 2023 von Arthur Mensch, ehemals Google DeepMind, zusammen mit Guillaume Lample und Timothée Lacroix, ehemals Meta AI, gegründet. Die Mitbegründer, die sich ursprünglich während ihres Studiums an der École Polytechnique in einem Vorort von Paris kennengelernt hatten, benannten ihr Unternehmen nach dem starken Nordwestwind, der von Südfrankreich ins Mittelmeer weht. Gemessen an der Bewertung war das französische Unternehmen im Juni 2024 das größte KI-Startup in Europa und das größte außerhalb der San Francisco Bay Area.1

Bei DeepMind war Mensch einer der Hauptautoren des wegweisenden Papiers „Training Compute-optimal Large Language Models“. Das Papier und das darin vorgestellte „Chinchilla“ -Modell erkundeten Skalierungsgesetze für LLMs und stellten mehrere sehr einflussreiche Entdeckungen in Bezug auf die Beziehung zwischen Modellgröße, Trainingsdaten, Effizienz und Leistung für autoregressive Sprachmodelle vor. Bei Meta gehörten Lacroix und Lample zu den Forschern, die hinter den ursprünglichen LLaMa-Modellen standen.

Das kombinierte Fachwissen der Mitbegründer in den Bereichen Effizienz und LLM-Entwicklung hat eine Reihe von meist Open-Source-Modellen hervorgebracht, deren Leistung oft mit der von deutlich größeren LLMs übereinstimmt. Zu den bemerkenswertesten frühen Beiträgen des europäischen Unternehmens zur Entwicklung generativer KI gehörten Innovationen im Bereich der geringen Mixture-of-Experts-Modelle (MoE).   

Die erklärte Mission umfasst ein „starkes Engagement für offene, portable und anpassbare Lösungen sowie einen extremen Fokus darauf, die fortschrittlichste Technologie in begrenzter Zeit auf den Markt zu bringen“.

 

Mistral AI-Modelle

Mistral AI unterteilt seine LLMs im Allgemeinen in drei Kategorien: „Allzweckmodelle“, „Spezialmodelle“ und „Forschungsmodelle“.

Obwohl Mistral viele seiner Modelle mit offenen Gewichten für die meisten gängigen Machine-Learning-Plattformen (ML) unter einer Apache-2.0-Lizenz anbietet, gelten für die kommerzielle Nutzung seiner leistungsstärksten Modelle in der Regel einige Einschränkungen.

Mistral verwendet ein einfaches, wenn auch unkonventionelles Benennungssystem für seine Modelle. Die Namen einiger Modelle, wie Mistral 7B oder Pixtral 12B, geben Aufschluss über die Anzahl der Parameter, während andere eher beschreibend auf die Größe Bezug nehmen, wie beispielsweise „Mistral Large” oder „Mistral Small”, oder gar keine Angaben dazu enthalten. Viele, wie „Mixtral“ oder „Mathstral“, sind Wortspiele mit dem Namen des Unternehmens.

Einige Aktualisierungen der Modellversionen spiegeln sich in den primären Modellnamen wider, andere nicht. Mistral Large und Mistral Small wurden beispielsweise erstmals im Februar 2024 veröffentlicht. Das erste Modell wurde im Juli als „Mistral Large 2” aktualisiert, während das zweite Modell nach einem Update im September weiterhin „Mistral Small” genannt wurde.
 

Allzweck-Modelle

Die Modelle, die Mistral AI als „Allzweckmodelle” kategorisiert, sind in der Regel Text-in-Text-out-LLMs, die hinsichtlich ihrer jeweiligen Modellgröße, Kosten oder Rechenanforderungen eine Leistung auf dem neuesten Stand der Technik bieten. Wie der Name der Kategorie schon sagt, eignen sich diese Modelle gut für allgemeine Anwendungsfälle der Verarbeitung natürlicher Sprache (NLP) und Textgenerierung..
 

Mistral Large 2

Mistral Large 2 ist das Flaggschiff-LLM und das größte Modell von Mistral. Bei seiner Veröffentlichung im September 2024 übertraf es in gängigen Benchmarks alle offenen Modelle (mit Ausnahme des wesentlich größeren Meta Llama 3.1 405B) und konnte mit vielen führenden geschlossenen Modellen mithalten.

Mit 123 Milliarden Parametern nimmt Mistral Large 2 eine einzigartige Nische in der LLM-Landschaft ein, da es größer ist als jedes „mittelgroße” Modell, aber deutlich kleiner als seine direkten Konkurrenten. In seiner offiziellen Ankündigung gab Mistral AI bekannt, dass das Modell so dimensioniert wurde, dass es auf einem einzelnen Knoten mit hohem Durchsatz ausgeführt werden kann.

Laut Mistral AI unterstützt das mehrsprachige Mistral Large 2 Dutzende von Sprachen, darunter Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Arabisch, Hindi, Russisch, Chinesisch, Japanisch und Koreanisch. Außerdem werden über 80 Codierungssprachen unterstützt.

Mistral Large 2 wurde unter der Mistral Research License veröffentlicht und erlaubt die offene Nutzung und Änderung nur für nichtkommerzielle Zwecke. Für den kommerziellen Einsatz müssen Sie sich direkt an den KI-Anbieter wenden, um eine Mistral-Kommerziell-Lizenz anzufordern, oder über ausgewählte Partner wie IBM watsonx darauf zugreifen.
 

Mistral Small

Mistral Small wurde erstmals im Februar 2024 als Unternehmensmodell veröffentlicht, wurde aber auf den Status eines „Altlast-Modells“ herabgestuft, bevor es überarbeitet wurde und im September als Modell der „Unternehmensklasse“, Mistral Small v24.09, zurückkehrte. Trotz des Namens bietet Mistral mehrere Modelle an, die kleiner als Mistral Small sind.

Mit 22B-Parametern stellt Mistral Small einen kosteneffizienten Mittelwert zwischen Mistral Larger und dem kleineren Mistral NeMo 12B dar. Wie Mistral Large 2 wird auch Mistral Small 24.09 unter der Mistral-Forschungs-Lizenz angeboten.
 

Mistral NeMo

Mistral NeMo wurde in Zusammenarbeit mit NVIDIA entwickelt. Mit 12B Parametern gehört es zu den leistungsstärksten Modellen seiner Größenklasse und bietet mehrsprachige Unterstützung für romanische Sprachen, Chinesisch, Japanisch, Koreanisch, Hindi und Arabisch. Von den Allzweckmodellen von Mistral ist Mistral NeMo das einzige LLM, das vollständig unter einer Apache 2.0-Lizenz als Open Source verfügbar ist.

 

Spezialmodelle

Im Gegensatz zu den Allzweckmodellen sind die „Spezialmodelle” von Mistral AI für bestimmte Aufgaben und Bereiche trainiert und nicht für allgemeine Text-In-Text-Out-Anwendungen.

Es ist jedoch anzumerken, dass es sich hierbei nicht um eine starre Einteilung handelt: Mistral AI kategorisiert einige zusätzliche Spezialmodelle, wie beispielsweise Mathstral, unter „Forschungsmodelle” statt unter „Spezialmodelle”. Die Unterscheidung basiert in erster Linie auf den verfügbaren Nutzungsrechten: Spezialmodelle können bestimmte Einschränkungen hinsichtlich der Einsatzumgebungen oder der kommerziellen Nutzung aufweisen, während dies bei Forschungsmodellen nicht der Fall ist.
 

Codestral

Codestral ist ein 22B-Open-Weight-Modell, das auf Codegenerierungsaufgaben spezialisiert ist und über 80 Programmiermodelle fließend beherrscht, darunter Python, Java, C, C++, JavaScript, Bash, Swift und Fortran. Es wurde unter der Mistral AI Non-Production License veröffentlicht, die seine Verwendung für Forschungs- und Testzwecke erlaubt. Kommerzielle Lizenzen können auf Anfrage direkt bei Mistral beantragt werden.
 

Mistral Embed

Mistral Embed ist ein Einbettungsmodell, das für die Generierung von Wort-Einbettungen trainiert wurde. Derzeit wird nur die englische Sprache unterstützt.
 

Pixtral 12B

Pixtral 12B ist ein offenes multimodales Modell, das unter einer Apache 2.0-Lizenz angeboten wird und sowohl Text-in-, Text-out- als auch Bild-in-, Text-out-Aufgaben ausführen kann. Seine Architektur kombiniert einen auf Mistral Nemo basierenden 12B-Multimodal-Decoder mit einem 400M-Parameter-Vision-Encoder, der von Grund auf mit Bilddaten trainiert wurde. Pixtral kann in dialogorientierten Schnittstellen verwendet werden, ähnlich wie man mit herkömmlichen textbasierten LLMs interagiert, mit der zusätzlichen Möglichkeit, Bilder hochzuladen und das Modell aufzufordern, Fragen dazu zu beantworten.

Im Vergleich zu multimodalen Modellen vergleichbarer Größe, sowohl proprietären als auch Open-Source-Modellen, erzielte Pixtral bei den meisten multimodalen Benchmarks äußerst wettbewerbsfähige Ergebnisse. Beispielsweise übertraf Pixtral die Modelle Claude 3 Haiku von Anthropic, Gemini 1.5 Flash 8B von Google und Phi 3.5 Vision von Microsoft bei Benchmarks, die das Lösen von Problemen auf College-Niveau (MMMU), visuelles mathematisches Denken (MathVista), das Verstehen von Diagrammen (ChartQA), das Verstehen von Dokumenten (DocQA) und das Beantworten allgemeiner Fragen zum Sehen (VQAv2) messen.2
 

Forschungsmodelle

Die Forschungsmodelle von Mistral werden jeweils als vollständig quelloffene Modelle angeboten, ohne Einschränkungen hinsichtlich der kommerziellen Nutzung, der Einsatzumgebungen oder der Möglichkeit zur Feinabstimmung.
 

Mixtral

Mixtral ist eine Familie von Decoder-only-Modellen mit spärlicher Mixture of Experts (MoE). Im Gegensatz zu herkömmlichen Feedforward-Neuralnetzwerken, die für jede Inferenz das gesamte Netzwerk nutzen, sind MoE-Modelle in verschiedene Parametergruppen unterteilt, die als Experten bezeichnet werden. Für jedes Token wählt ein Router-Netzwerk nur eine bestimmte Anzahl von Experten auf jeder Ebene aus, um die Eingabe zu verarbeiten.

Im Training ermöglicht diese Struktur jedem Expertennetzwerk, sich auf die Verarbeitung bestimmter Arten von Eingaben zu spezialisieren. Während der Inferenz verwendet das Modell für jede Eingabe nur einen Bruchteil der insgesamt verfügbaren Parameter – genauer gesagt, die Parameter in den Expertennetzwerken, die für die jeweilige Aufgabe am besten geeignet sind. Auf diese Weise reduziert die MoE-Architektur die Kosten und die Latenz der Inferenz erheblich, ohne dass dies zu einer entsprechenden Verringerung der Leistung führt.

Mixtral wird in zwei Varianten angeboten, die jeweils in acht Expertennetzwerke unterteilt sind: Mixtral 8x7B und Mixtral 8x22B. Ersteres gehört zu den Foundation Models, die in IBM watsonx verfügbar sind.

Mathstral

Mathstral ist eine Variante von Mistral 7B – das nun den Status eines „Legacy-Modells” hat –, die für die Lösung mathematischer Probleme optimiert ist und unter der Apache 2.0-Lizenz verfügbar ist.
 

Codestral Mamba

Während das ursprüngliche Codestral-Modell die Standard-Transformer-Architektur verwendet, die fast allen großen Sprachmodellen gemeinsam ist, nutzt Codestral Mamba die einzigartige Mamba-Architektur. Die Forschung zu Mamba-Modellen befindet sich noch in einem sehr frühen Stadium – Mamba wurde erstmals 2023 in einer Veröffentlichung vorgestellt –, aber die neuartige Architektur bietet sowohl hinsichtlich der Geschwindigkeit als auch der Kontextlänge erhebliche theoretische Vorteile.

 

Le Chat

Le Chat ist der Chatbot-Service von Mistral, ähnlich wie ChatGPT von OpenAI, der am 26. Februar 2024 erstmals in der Beta-Version veröffentlicht wurde. Neben Mistral Large und Mistral Small hat Mistral kürzlich den multimodalen Pixtral 12B in die Liste der LLMs aufgenommen, die in Le Chat verfügbar sind.

 

La Plateforme

La Plateforme ist die API-basierte Entwicklungs- und Bereitstellungsplattform von Mistral, die API-Endpunkte und ein Ökosystem zum Experimentieren, zur Feinabstimmung benutzerdefinierter Datensätze, zur Bewertung und zum Prototyping mit Mistral-Modellen bereitstellt.

 

Weiterführende Lösungen
Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

watsonx.ai erkunden Erkunden Sie KI-Lösungen