Mistral AIは、主にオープンソースの大規模言語モデル(LLM)で知られる、フランスを拠点とする人工知能(AI)スタートアップ企業です。2023年の創業以来、世界有数の生成AI開発企業の一社となっています。
MistralAIは、前Google DeepMindのArthur Mench氏と、前MetaAIのGuillaume Lacroix氏によって共同設立されました。パリ近郊のエコール・ポリテクニークで学んだ2人は、南フランスから地中海に吹き込む強い北西風にちなんで会社を名付けました。評価によると、このフランスの会社はヨーロッパ最大のAIスタートアップ企業であり、サンフランシスコ・ベイエリア外では最大規模となっています。1
DeepMindでは、Mensch氏は「Training compute-optimal large language models(演算に最適化された大規模言語モデルのトレーニング)」という画期的な論文の主執筆者の一人でした。この論文とそこで紹介された「チンチラ」モデルでは、LLMのスケーリング法則を探求し、自己回帰言語モデルのモデル・サイズ、トレーニング・データ、効率性、パフォーマンスの関係に関する、非常に影響力のある複数の所見を紹介しました。Meta社では、Lacroix氏とLample氏が元のLlamaモデルの研究者の一人でした。
共同設立者の効率性とLLM開発に関する専門知識を組み合わせることで、パフォーマンスがはるかに大規模なLLMに匹敵する、主にオープンソースの一連のモデルが生まれました。欧州企業の生成AI開発における初期の最も注目すべき貢献の中には、専門家の疎混合(MoE)モデルのイノベーションがありました。
同社の公言する使命には、「オープンでポータブルかつカスタマイズ可能なソリューションへの強いコミットメントと、限られた時間内で最先端のテクノロジーを提供することに最大限の重点を置くこと」があります。
MistralAIは、通常、LLMを3つのカテゴリー「汎用」モデル、「専門」モデル、および「研究」モデルに分類しています。
Mistralは、Apache 2.0ライセンスの下で、ほとんどの一般的な機械学習(ML)プラットフォームにわたってオープン・ウェイトを備えたモデルの多くを提供していますが、最もパフォーマンスの高いモデルの導入には通常、いくつかの制約があります。
Mistralは自社モデルに対して、シンプルではあるものの、型破りな命名システムを採用しています。Mistral 7BやPixtral 12Bなどの一部のモデルの名前はパラメーター数を示しますが、「Mistral Large」や「Mistral Small」など、より説明的にサイズを示したり、まったく示していないモデルもあります。「Mixtral」や「Mathstral」など、その多くは会社名をもじったものです。
一部のモデル・バージョンの更新はプライマリー・モデル名に反映されますが、その他の更新は反映されません。たとえば、Mistral LargeとMistral Smallは2024年2月に初めてリリースされました。前者は7月に「Mistral Large 2」として更新されましたが、後者は9月の更新以降「Mistral Small」のままになっています。
Mistral AIが「汎用」モデルとして分類するモデルは、通常、text-in、text-outのLLMであり、それぞれのモデル・サイズ、コスト、計算需要に対して最先端の性能を実現します。カテゴリーの名前が示すように、これらのモデルは一般的な自然言語処理(NLP)やテキスト生成のユースケースに適しています。
Mistral Large 2は、Mistralの主力LLMであり、最大のモデルです。2024年9月に発売されると、ベンチマークでの性能はすべてのオープン・モデル(はるかに大型のMeta Llama 3.1 405Bを除く)を上回り、多くの主要なクローズド・モデルに匹敵しました。
123Bパラメーターを備えたMistral Large 2は、LLMを取り巻く状況の中で独自のニッチ市場を占めており、どの「中型」モデルよりも大きいものの、直接の競合他社よりも大幅に小さいです。Mistral AIは公式リリース発表で、このモデルは単一ノードで大きなスループットで実行できるようにサイズ設定されていると述べています。
Mistral AIによると、多言語対応のMistral Large2は、英語、フランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、アラビア語、ヒンディー語、ロシア語、中国語、日本語、韓国語など、数十の言語をサポートしています。また、80を超えるコーディング言語のサポートも含まれています。
Mistral Large 2はMistral Researchライセンス下でリリースされており、非営利目的でのみオープンな使用と変更が許可されています。商用展開には、AIプロバイダーに直接連絡してMistral商用ライセンスを依頼するか、IBM watsonx™などの特定のパートナーを通じて利用する必要があります。
Mistral Smallは、2024年2月に初めてエンタープライズ・モデルとしてリリースされましたが、9月にオーバーホールを受けて「エンタープライズ・グレード」モデルであるMistral Small v24.09として復帰する前は、「レガシー・モデル」ステータスにまで昇格されました。Mistralはその名前とは裏腹に、Mistral Smallよりも小さなモデルを複数用意しています。
22Bのパラメーターを有するMistral Smallは、Mistral Largerとより小型のMistral NeMo 12Bの間のコスト効率の高い中間点に相当します。Mistral Large 2と同様、Mistral Small 24.09はMistral研究ライセンスの下で提供されています。
Mistral NeMoは、NVIDIAと共同で構築されました。パラメータが12Bというこのモデルは、ロマンス言語、中国語、日本語、韓国語、ヒンディー語、アラビア語の多言語をサポートしており、そのサイズのカテゴリーの中で最も高性能なモデルの1つです。Mistralの汎用モデルの中で、Mistral NeMoは、Apache 2.0ライセンスの下で完全にオープンソース化されている唯一のLLMです。
汎用モデルとは異なり、Mistral AIの「専用」モデルは、一般的なtext-in、text-outの用途ではなく、特定のタスクとドメイン向けにトレーニングされています。
ただし、これは厳格な呼称ではないことに注意してください。MistralAIは、Mathstralのような一部の特殊なモデルを「専門モデル」ではなく「研究モデル」に分類します。この区別は主に利用可能な使用権に基づいています。専門モデルには導入や商用利用に関して特定の制限がある場合がありますが、研究モデルには制限がありません。
Codestralは、コード生成タスクに特化した22Bオープンウェイト・モデルで、Python、Java、C、C++、JavaScript、Bash、Swift、Fortranなど80以上のプログラミング・モデルに精通しています。これはMistralAI非本番ライセンス下でリリースされ、研究およびテスト目的での使用が許可されています。商用ライセンスは、Mistralに直接連絡することにより、要望に応じて付与できます。
Mistral Embedは、単語の埋め込みを生成するようにトレーニングされた埋め込みモデルです。現時点では英語のみをサポートしています。
Pixtral 12Bは、Apache 2.0ライセンスで提供されるオープン・マルチモーダル・モデルであり、text-in、text-outとimage-in、text-outの両方のタスクを実行することができます。そのアーキテクチャーは、Mistral Nemoに基づく12Bマルチモーダル・デコーダーと、画像データに基づいてゼロからトレーニングされた400Mパラメーターのビジョン・エンコーダーを組み合わせたものです。Pixtralは、標準的なテキストのみのLLMと対話するのと同様に、会話型インターフェースで使用でき、画像をアップロードしてモデルに質問し、それについて回答させる機能も備わっています。
同等規模のマルチモーダル・モデルと比較して、Pixtralは、ほとんどのマルチモーダル・ベンチマークで競争力の高い成果を達成しました。たとえば、Pixtralは、大学レベルの問題解決(MMMU)、視覚的数学的推論(MathVista)、チャート理解(ChartQA)、ドキュメント理解(DocQA)、および一般的なビジョンの質問応答(VQAv2) を測定するベンチマークで、Anthropic の Claude 3 Haiku、Google の Gemini 1.5 Flash 8B、Microsoftの Phi 3.5 Vision モデルを上回りました。2
Mistralの研究モデルはそれぞれ完全なオープンソース・モデルとして提供されており、商用利用、導入環境、微調整機能に制限はありません。
Mixtralは、デコーダー専用のスパースMixture of Experts(MoE)モデルの仲間です。各推論にネットワーク全体を使用する従来のフィードフォワード・ニューラル・ネットワークとは異なり、MoEモデルはエキスパートと呼ばれる個別のパラメーターのグループに細分化されます。各トークンに対して、ルーター・ネットワークは各レイヤーで特定の数のエキスパートのみを選択して入力を処理します。
この構造により、トレーニングでは、各エキスパート・ネットワークが特定の種類のインプットの処理に特化できます。推論の際、モデルは各インプットに対して、利用可能なパラメーター全体の一部(具体的には、手元のタスクに最適なエキスパート・ネットワーク内のパラメーター)のみを使用します。その際、MoEアーキテクチャーは、パフォーマンスを低下させることなく、推論のコストとレイテンシーを大幅に削減します。
Mixtralは2つのバリエーションで提供されており、それぞれがMixtral 8x7BとMixtral 8x22Bの8つのエキスパート・ネットワークに細分化されています。前者は、IBM watsonxで利用できる基盤モデルの1つです。
MathstralはMistral 7Bの亜種であり、現在は「レガシー・モデル」ステータスに認定されており、数学的問題を解決するために最適化されており、Apache 2.0ライセンスで利用できます。
元のCodestralモデルは、ほぼすべての大規模言語モデルに共通する標準的なトランスフォーマー・アーキテクチャーを採用していましたが、Codestral Mambaは独自のMambaアーキテクチャーを採用しています。Mambaモデルの研究はまだ初期段階にあり(Mambaは2023年の論文で初めて導入されました)、この革新的なアーキテクチャーは、速度とコンテキスト長の両方において大きな理論的なメリットをもたらします。
Le Chatは、OpenAIのChatGPTに似たMistralのチャットボット・サービスであり、2024年2月26日に初めてベータ版としてリリースされました。Mistral LargeやMistral Smallと並んで、Mistralは最近、Le Chatで利用可能なLLMのリストにマルチモーダルPixtral 12Bを追加しました。
Mistralの開発および導入APIサービス・プラットフォームであるLa Plateformeは、APIエンドポイントと、カスタム・データ・セットでの実験や微調整、Mistralモデルによる評価、プロトタイプを行うためのエコシステムを提供します。
watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
1 「OpenAIのフランスのライバル企業MistralAIの評価額は現在60億ドル。それでも主要競合他社に比べればまだほんのわずかだ」 Quartz、2024年6月13日
2 「Pixtral 12Bの発表」、 MistralAI、2024年9月17日