Cos'è Mistral AI?

Veduta aerea di persone che camminano

Mistral AI è una startup di intelligenza artificiale (AI) con sede in Francia, nota principalmente per i suoi modelli linguistici di grandi dimensioni (LLM) open source. Dalla sua fondazione nel 2023, è diventata uno dei principali sviluppatori di AI generativa al mondo.

Mistral AI è stata fondata nell'aprile 2023 da Arthur Mensch, ex di Google DeepMind, e Guillaume Lample e Timothée Lacroix, ex di Meta AI. I cofondatori, che si sono conosciuti mentre studiavano all'École Polytechnique alla periferia di Parigi, hanno chiamato l'azienda come il forte vento da nord ovest che soffia dal sud della Francia verso il Mediterraneo. Nel giugno 2024, la società francese è stata valutata come la più grande startup di AI in Europa e la più grande al di fuori dell'area della baia di San Francisco.1

Quando lavorava per DeepMind, Mensch è stato uno degli autori del celebre articolo "Training compute-optimal large language models ". Il documento, così come il modello "Chinchilla" che ha introdotto, hanno esplorato le leggi della scalabilità per gli LLM e hanno presentato diverse scoperte molto influenti sulla relazione tra dimensioni del modello, dati di addestramento, efficienza e prestazioni per i modelli linguistici auto-regressivi. Quando lavoravano per Meta, Lacroix e Lample sono stati tra i ricercatori responsabili dei modelli originali LLama.

L'esperienza combinata dei cofondatori nell'efficienza e nello sviluppo degli LLM ha prodotto una serie di modelli per lo più open source, le cui prestazioni spesso corrispondono a quelle di LLM notevolmente più grandi. Tra i contributi più importanti dell'azienda europea allo sviluppo dell'AI generativa ci sono state le innovazioni per vari modelli mixture of experts (MoE).   

La sua missione dichiarata prevede un "forte impegno verso le soluzioni aperte, portatili e personalizzabili e un'attenzione estrema alla distribuzione della tecnologia più avanzata in tempi limitati".

 

Modelli Mistral AI

Mistral AI generalmente divide i suoi LLM in 3 categorie: modelli "generici", modelli "specialistici" e modelli "di ricerca".

Sebbene Mistral offra molti dei suoi modelli con pesi aperti sulle più comuni piattaforme di machine learning (ML) con una licenza Apache 2.0, in genere pone alcuni vincoli alla distribuzione commerciale per i suoi modelli più performanti.

Mistral utilizza un sistema di denominazione semplice, anche se non convenzionale, per i suoi modelli. I nomi di alcuni modelli, come Mistral 7B o Pixtral 12B, indicano il numero di parametri, mentre altri si riferiscono alle dimensioni in modo più descrittivo, come "Mistral Large" o "Mistral Small", oppure non lo indicano affatto. Molti, come "Mixtral" o "Mathstral", sono un gioco di parole con il nome dell'azienda.

Alcuni aggiornamenti della versione del modello si riflettono nei nomi dei modelli primari, mentre altri no. Ad esempio, Mistral Large e Mistral Small sono stati lanciati per la prima volta nel febbraio 2024. Il primo è stato aggiornato a luglio come "Mistral Large 2", mentre il secondo è rimasto "Mistral Small" dopo l'aggiornamento di settembre.
 

Modelli generici

I modelli che Mistral AI categorizza come "generali" sono in genere LLM text-in e text-out che si avvicinano a prestazioni ottimali per le dimensioni del modello, i costi o le esigenze computazionali. Come suggerisce il nome della categoria, questi modelli sono adatti per i casi d'uso generali di elaborazione del linguaggio naturale (NLP) e generazione di testo.
 

Mistral Large 2

Mistral Large 2 è il modello LLM di punta di Mistral, nonché il modello più grande. Al suo rilascio nel settembre 2024, le sue prestazioni su benchmark comuni hanno superato tutti i modelli aperti (tranne il molto più grande Meta Llama 3.1 405B) e hanno rivaleggiato con quelle di molti dei principali modelli chiusi.

Con 123 miliardi di parametri, Mistral Large 2 occupa una nicchia unica nel panorama degli LLM, essendo più grande di qualsiasi modello "di medie dimensioni", ma significativamente più piccolo dei suoi diretti concorrenti. Nell'annuncio ufficiale del rilascio, Mistral AI ha affermato che il modello è stato dimensionato con l'obiettivo di consentirgli di funzionare a un throughput elevato su un singolo nodo.

Per Mistral AI, il Mistral Large 2 multilingue supporta dozzine di lingue, tra cui inglese, francese, tedesco, spagnolo, italiano, portoghese, arabo, hindi, russo, cinese, giapponese e coreano. Include anche il supporto per oltre 80 linguaggi di codifica.

Mistral Large 2 è stato rilasciato sotto la licenza Mistral Research e consente l'uso aperto e la modifica solo per scopi non commerciali. Per la distribuzione commerciale è necessario contattare direttamente il fornitore di AI per richiedere una licenza commerciale Mistral, oppure accedere tramite partner selezionati, come IBM watsonx.
 

Mistral Small

Mistral Small è stato rilasciato per la prima volta nel febbraio 2024 come modello aziendale, ma è stato relegato allo stato di "modello legacy" prima di essere sottoposto a revisione e tornare come modello "di livello aziendale", Mistral Small v24.09, a settembre. Nonostante il nome, Mistral offre diversi modelli più piccoli di Mistral Small.

Con 22 miliardi di parametri, Mistral Small rappresenta un punto intermedio conveniente tra Mistral Larger e il più piccolo Mistral NeMo 12B. Come Mistral Large 2, Mistral Small 24.09 è offerto con la Mistral License di ricerca.
 

Mistral NeMo

Mistral NeMo è stato realizzato in collaborazione con NVIDIA. Con 12 miliardi di parametri, è tra i modelli più performanti nella sua categoria di dimensioni, con supporto multilingue per le lingue romanze, cinese, giapponese, coreano, hindi e arabo. Tra i modelli generici di Mistral, Mistral NeMo è l'unico LLM completamente open source con una licenza Apache 2.0.

 

Modelli specialistici

A differenza dei modelli generici, i modelli "specialistici" di Mistral AI vengono addestrati per compiti e domini specifici, anziché per applicazioni generiche di inserimento ed estrazione di testo.

Vale la pena notare, tuttavia, che non si tratta di una designazione rigida: Mistral AI classifica alcuni modelli specializzati aggiuntivi, come Mathstral, in "modelli di ricerca" anziché in "modelli specialistici". La distinzione si basa principalmente sui diritti di utilizzo disponibili: i modelli specialistici potrebbero avere alcune restrizioni a livello di implementazione o uso commerciale, mentre i modelli di ricerca no.
 

Codestral

Codestral è un modello aperto da 22 miliardi di parametri, specializzato in attività di generazione del codice, fluente in oltre 80 modelli di programmazione tra cui Python, Java, C, C++, JavaScript, Bash, Swift e Fortran. È stato rilasciato con la Mistral AI Non-Production License e può essere utilizzato per scopi di ricerca e test. Le licenze commerciali sono concesse su richiesta contattando direttamente Mistral.
 

Mistral Embed

Mistral Embed è un modello di embedding addestrato per generare embedding di parole. Attualmente supporta solo la lingua inglese.
 

Pixtral 12B

Pixtral 12B è un modello multimodale aperto, offerto con licenza Apache 2.0, in grado di eseguire sia attività di text-in, text-out che di image-in, text-out. La sua architettura combina un decoder multimodale 12B basato su Mistral Nemo e un encoder di visione parametrica 400M addestrato da zero su dati delle immagini. Pixtral può essere utilizzato nelle interfacce conversazionali, in modo simile a come si interagisce con gli LLM standard di solo testo, con la possibilità aggiuntiva di caricare immagini e chiedere al modello di rispondere a domande su di esse.

Rispetto ai modelli multimodali di dimensioni comparabili, sia proprietari che open source, Pixtral ha ottenuto risultati altamente competitivi sulla maggior parte dei benchmark multimodali. Ad esempio, Pixtral ha superato i modelli Claude 3 Haiku di Anthropic, Gemini 1.5 Flash 8B di Google e Phi 3.5 Vision di Microsoft su benchmark che misurano la risoluzione dei problemi a livello universitario (MMMU), il ragionamento matematico visivo (MathVista), la comprensione dei grafici (ChartQA), la comprensione dei documenti (DocQA) e la risposta alle domande di visione generale (VQAv2).2
 

Modelli di ricerca

I modelli di ricerca di Mistral sono offerti come modelli completamente open source, senza restrizioni sull'uso commerciale, sugli ambienti di implementazione o sulla capacità di messa a punto.
 

Mixtral

Mixtral è una famiglia di modelli sparsi decoder-only mixture of experts (MoE). A differenza delle reti neurali convenzionali, che utilizzano l'intera rete per ogni inferenza, i modelli MoE sono suddivisi in gruppi distinti di parametri chiamati "esperti". Per ogni token, una rete di router seleziona solo un certo numero di esperti su ogni livello per elaborare l'input.

Nell'addestramento, questa struttura consente a ciascuna rete di esperti di specializzarsi nell'elaborazione di determinati tipi di input. Durante l'inferenza, il modello utilizza solo una frazione del totale dei parametri disponibili, in particolare i parametri nelle reti di esperti più adatte all'attività da svolgere, per ogni input. In tal modo, l'architettura del MoE riduce significativamente il costo e la latenza dell'inferenza senza una corrispondente riduzione delle prestazioni.

Mixtral è offerto in 2 varianti, ciascuna delle quali è suddivisa in 8 reti di esperti: Mixtral 8x7B e Mixtral 8x22B. La prima è tra i foundation model disponibili in IBM watsonx.

Mathstral

Mathstral è una variante di Mistral 7B (ora relegato allo status di "modello legacy"), ottimizzata per risolvere problemi matematici e disponibile con la licenza Apache 2.0.
 

Codestral Mamba

Mentre il modello originale di Codestral utilizza l'architettura trasformativa comune a quasi tutti i modelli di linguaggio di grandi dimensioni, Codestral Mamba utilizza la distinta architettura mamba. La ricerca sui modelli Mamba è ancora nella fase iniziale (Mamba è stata introdotta per la prima volta in un articolo del 2023), tuttavia la nuova architettura offre un vantaggio teorico significativo sia in termini di velocità che di lunghezza del contesto.

 

Le Chat

Le Chat è il servizio di chatbot di Mistral, simile a ChatGPT di OpenAI, rilasciato per la prima volta in versione beta il 26 febbraio 2024. Oltre a Mistral Large e Mistral Small, Mistral ha recentemente aggiunto il Pixtral 12B multimodale all'elenco di LLM disponibili su Le Chat.

 

La Plateforme

La Plateforme è la piattaforma API di sviluppo e distribuzione di Mistral, che fornisce endpoint API e un ecosistema per sperimentare, mettere a punto set di dati personalizzati, valutare e prototipare con i modelli Mistral.

 

Soluzioni correlate
Foundation Model

Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Esplora la libreria IBM dei foundation model nel portafoglio di IBM watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Esplora watsonx.ai Esplora le soluzioni AI