O que é a Mistral AI?

Vista aérea de pessoas caminhando

O que é Mistral AI?

A Mistral AI é uma startup de inteligência artificial (IA) sediada na França, conhecida principalmente por seus grandes modelos de linguagem (LLMs) de código aberto. Desde sua fundação em 2023, tornou-se uma das principais desenvolvedoras de IA generativa do mundo.

A Mistral IA foi cofundada em abril de 2023 por Arthur Mensch, anteriormente da Google DeepMind, ao lado de Guillaume Lample e Timothée Lacroix, anteriormente da Meta AI.

Os cofundadores, que se conheceram originalmente enquanto estudavam na École Polytechnique nos subúrbios de Paris, nomearam sua empresa em homenagem ao forte vento oeste que sopra do sul da França para o Mediterrâneo. Em avaliação, a empresa francesa era a maior startup de IA da Europa e a maior fora da área da Baía de São Francisco em junho de 2024.1

Na DeepMind, Mensch foi um dos principais autores do artigo seminal “Treinamento de grandes modelos de linguagem ideais para computação”. O artigo, e o modelo “Chinchilla” nele apresentado, exploraram leis de escalonamento para LLMs e introduziram várias descobertas altamente influentes quanto à relação entre tamanho do modelo, dados de treinamento, eficiência e desempenho para modelos de linguagem autorregressivos. Na Meta, Lacroix e Lample estavam entre os pesquisadores por trás dos modelos originais do LLaMa.

A experiência combinada dos cofundadores em eficiência e desenvolvimento de LLMs resultou em uma série de modelos principalmente de código aberto cujo desempenho geralmente corresponde ao de LLMs significativamente maiores. Entre as contribuições iniciais mais notáveis da empresa europeia para o desenvolvimento da IA generativa estavam inovações em modelos de mixture of experts (MoE) esparsos.   

Sua missão declarada envolve um “forte compromisso com soluções abertas, portáteis e personalizáveis, e um foco extremo em enviar a tecnologia mais avançada em tempo limitado”.

Modelos da Mistral AI

Mistral IA geralmente divide seus LLMs em categorias: modelos de “uso geral”, modelos “especialistas” e modelos de “pesquisa”.

Embora a Mistral ofereça muitos de seus modelos com pesos abertos nas plataformas mais comuns de aprendizado de máquina (ML) sob uma licença Apache 2.0, ela normalmente coloca algumas restrições à implementação comercial de seus modelos de melhor desempenho.

A Mistral usa um sistema de nomenclatura simples, embora não convencional, para seus modelos. Os nomes de alguns modelos, como Mistral 7B ou Pixtral 12B, indicam contagens de parâmetros, enquanto outros se referem ao tamanho de forma mais descritiva, como “Mistral Large”, “Mistral Small”, ou nada. Muitos, como “Mixtral” ou “Mathstral”, envolvem um trocadilho com o nome da empresa.

Algumas atualizações de versões de modelos são refletidas em nomes de modelos primários, enquanto outras não são. Por exemplo, o Mistral Large e o Mistral Small foram lançados pela primeira vez em fevereiro de 2024. O primeiro foi atualizado em julho como “Mistral Large 2”, mas o segundo permaneceu como “Mistral Small” após uma atualização em setembro.

Modelos de uso geral

Os modelos que a Mistral AI categoriza como modelos de “uso geral” são normalmente LLMs com entrada e saída de texto que abordam o desempenho para os tamanhos de seus respectivos modelos, custos ou demandas computacionais. Como o nome da categoria sugere, esses modelos são adequados para casos de uso gerais de processamento de linguagem natural (NLP) e geração de texto.

Mistral Large 2

O Mistral Large 2 é o principal LLM e o maior modelo da Mistral. Após seu lançamento em setembro de 2024, seu desempenho em benchmarks comuns superou todos os modelos abertos (exceto o muito maior Meta Llama 3.1 405B) e rivalizou com o de muitos dos principais modelos fechados.

Com 123 bilhões de parâmetros, o Mistral Large 2 ocupa um nicho único no cenário de LLMs, sendo maior do que qualquer modelo de “tamanho médio”, mas significativamente menor do que seus concorrentes diretos. Em seu anúncio oficial de lançamento, a Mistral AI indicou que o modelo foi dimensionado com o objetivo de permitir que fosse executado com grande taxa de transferência em um único nó.

De acordo com a Mistral AI, o Mistral Large 2 multilíngue é compatível com dezenas de idiomas, incluindo inglês, francês, alemão, espanhol, italiano, português, árabe, indiano, russo, chinês, japonês e coreano. Ele também é compatível com mais de 80 linguagens de programação.

O Mistral Large 2 foi lançado sob a Licença de Pesquisa Mistral, permite uso aberto e modificação somente para fins não comerciais. A implementação comercial requer contato direto com o provedor de IA para solicitar uma licença comercial da Mistral ou acessá-la por meio de parceiros selecionados, como o IBM watsonx.

Mistral Small

O Mistral Small foi lançado pela primeira vez em fevereiro de 2024 como um modelo corporativo, mas foi relegado ao status de “modelo legado” antes de receber uma revisão e retornar como um modelo “de nível empresarial”, o Mistral Small v24.09, em setembro. Apesar do nome, o Mistral oferece vários modelos menores do que o Mistral Small.

Com 22 bilhões de parâmetros, o Mistral Small representa um ponto intermediário econômico entre o Mistral Larger e o Mistral NeMo 12B menor. Assim como o Mistral Large 2, o Mistral Small 24.09 é oferecido sob a licença de pesquisa da Mistral.

Mistral NeMo

O Mistral NeMo foi criada em colaboração com a NVIDIA. Com 12 bilhões de parâmetros, ele está entre os modelos de melhor desempenho em sua categoria de tamanho, com compatibilidade multilíngue com idiomas românicos, chinês, japonês, coreano, hindi e árabe. Dos modelos de uso geral da Mistral, o Mistral NeMo é o único LLM totalmente de código aberto sob uma licença Apache 2.0.

Modelos especialistas

Ao contrário de seus modelos de uso geral, os modelos “especialistas” da Mistral AI são treinados para tarefas e domínios específicos, em vez de aplicações gerais de entrada de texto, saída de texto.

Vale a pena observar, no entanto, que essa não é uma designação rígida: a Mistral AI categoriza alguns modelos especializados adicionais, como o Mathstral, em “modelos de pesquisa” em vez de “modelos especialistas”. A distinção se baseia principalmente nos direitos de uso disponíveis: modelos especialistas podem ter certas restrições em ambientes de implementação ou uso comercial, enquanto modelos de pesquisa não.

Codestral

O Codestral é um modelo de peso aberto de 22 bilhões de parâmetros especializado em tarefas de geração de código, fluente em mais de 80 modelos de programação, incluindo Python, Java, C, C++, JavaScript, Bash, Swift e Fortran. Foi lançado sob a Licença de Não Produção da Mistral AI, permitindo seu uso para fins de pesquisa e testes. Licenças comerciais podem ser concedidas mediante solicitação por meio do contato direto com a Mistral.

Mistral Embed

O Mistral Embed é um modelo de embedding treinado para gerar embeddings de palavras. No momento, é compatível apenas com o idioma inglês.

Pixtral 12B

O O Pixtral 12B é um modelo multimodal aberto, oferecido sob uma licença Apache 2.0, capaz de tarefas de entrada de texto e saída de texto, e entrada de imagem e saída de texto. Sua arquitetura combina um decodificador multimodal de 12 bilhões de parâmetros no Mistral Nemo e um codificador de visão de 400 milhões de parâmetros treinado a partir do zero em dados de imagem. O Pixtral pode ser usado em interfaces de conversação, da mesma forma que interage com LLMs padrão somente de texto, com a capacidade adicional de carregar imagens e solicitar o modelo a responder a perguntas sobre elas.

Em relação a modelos multimodais de tamanho comparável, tanto proprietários quanto de código aberto, o Pixtral obteve resultados altamente competitivos na maioria dos benchmarks multimodais. Por exemplo, o Pixtral superou o Claude 3 Haiku da Anthropic, o Gemini 1.5 Flash 8B do Google e os modelos Phi 3.5 Vision da Microsoft em benchmarks que medem resolução de problemas em nível universitário (MMMU), raciocínio matemático visual (MathVista), compreensão de gráficos (ChartQA), compreensão de documentos (DocQA ) e respostas a perguntas de visão geral (VQAv2).2

Modelos de pesquisa

Os modelos de pesquisa da Mistral são oferecidos como modelos de código aberto, sem restrições ao uso comercial, ambientes de implementação ou capacidade de ajuste fino.
 

Mixtral

O Mixtral é uma família de modelos de mistura esparsa de especialistas (MoE) somente de decodificação. Ao contrário das redes neurais feedforward convencionais, que usam toda a rede para cada inferência, os modelos MoE são subdivididos em grupos distintos de parâmetros chamados de especialistas. Para cada token, uma rede de roteadores seleciona apenas um certo número de especialistas em cada camada para processar a entrada.

No treinamento, essa estrutura permite que cada rede de especialistas se especialize no processamento de determinados tipos de entradas. Durante a inferência, o modelo usa apenas uma fração do total de parâmetros disponíveis, especificamente os parâmetros nas redes de especialistas mais adequadas à tarefa em questão, para cada entrada. Ao fazer isso, a arquitetura da MoE reduz consideravelmente o custo e a latência da inferência sem uma diminuição correspondente no desempenho.

O Mixtral é oferecido em duas variantes, cada uma das quais é subdividida em oito redes de especialistas: Mixtral 8x7B e Mixtral 8x22B. O primeiro está entre os modelos de base disponíveis no IBM watsonx.

Mathstral

O Mathstral é uma variante do Mistral 7B (que agora está relegada ao status de “modelo legado”) otimizada para resolver problemas matemáticos, disponível sob a licença Apache 2.0.

Codestral Mamba

Enquanto o modelo Codestral original usa a arquitetura de transformação padrão comum a quase todos os grandes modelos de linguagem, o Codestral Mamba usa a arquitetura mamba distinta. A pesquisa sobre os modelos Mamba ainda está no estágio inicial (o Mamba foi lançado pela primeira vez em um artigo de 2023), mas a nova arquitetura oferece uma vantagem teórica significativa em velocidade e tamanho do contexto.

Le Chat

O Le Chat é o serviço de chatbot da Mistral, semelhante ao ChatGPT da OpenAI, lançado pela primeira vez em versão beta em 26 de fevereiro de 2024. Juntamente com o Mistral Large e o Mistral Small, a Mistral adicionou recentemente o Pixtral 12B multimodal à lista de LLMs disponíveis no Le Chat.

La Plateforme

La Plateforme é a plataforma de serviço de APIs de desenvolvimento e implementação da Mistral, fornecendo endpoints de APIs e um ecossistema para experimentar, fazer ajuste fino em conjuntos de dados personalizados, avaliar e prototipar com os modelos da Mistral.

Soluções relacionadas
Modelos de base

Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa com confiança na sua empresa.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço da sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e as operações críticas adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor comercial.

Explore os serviços de IA
Dê o próximo passo

Explore a biblioteca da IBM de modelos de base no portfólio do IBM® watsonx para escalar a IA generativa para os seus negócios com confiança.

Explore o watsonx.ai Explore as soluções de IA