Apa itu Mistral AI?

Mistral AI adalah startup kecerdasan buatan (AI) dengan kantor pusat di Prancis yang dikenal terutama karena model bahasa besar (LLM) open source. Sejak didirikan pada tahun 2023, perusahaan ini telah menjadi salah satu pengembang AI generatif terkemuka di dunia.

Mistral AI didirikan pada April 2023 oleh Arthur Mensch, yang sebelumnya bekerja di Google DeepMind, bersama dengan Guillaume Lample dan Timothée Lacroix, yang sebelumnya bekerja di Meta AI. Para pendiri, yang awalnya bertemu saat belajar di École Polytechnique di pinggiran kota Paris, menamai perusahaan mereka dengan nama angin barat laut yang kuat yang bertiup dari Prancis selatan ke Mediterania. Berdasarkan valuasi, perusahaan asal Prancis ini merupakan startup AI terbesar di Eropa dan terbesar di luar San Francisco Bay Area, per Juni 2024.¹

Di DeepMind, Mensch adalah salah satu penulis utama makalah penting, “Training compute-optimal large language models”. Makalah tersebut, dan model “Chinchilla” yang diperkenalkan di dalamnya, menjelajahi hukum penskalaan untuk LLM dan memperkenalkan beberapa penemuan yang sangat berpengaruh mengenai hubungan antara ukuran model, data pelatihan, efisiensi, dan kinerja untuk model bahasa autoregresif. Di Meta, Lacroix dan Lample termasuk di antara peneliti di balik model LLaMa asli.

Keahlian gabungan para pendiri dalam efisiensi dan pengembangan LLM telah menghasilkan serangkaian model sumber terbuka yang kinerjanya sering setara dengan LLM yang jauh lebih besar. Di antara kontribusi awal perusahaan Eropa yang paling menonjol untuk pengembangan AI generatif adalah inovasi dalam model sparse Mixture of Experts (MoE).

Misi yang dinyatakannya melibatkan "komitmen yang kuat terhadap solusi yang terbuka, portabel, dan dapat disesuaikan, serta fokus yang ekstrem pada pengiriman teknologi paling canggih dalam waktu yang terbatas."

Model AI Mistral

Mistral AI secara umum membagi LLM-nya ke dalam 3 kategori: model "tujuan umum", model "spesialis", dan model "penelitian".

Meskipun Mistral menawarkan banyak modelnya dengan parameter terbuka (open weight) di sebagian besar platform machine learning (ML) umum dengan lisensi Apache 2.0, perusahaan ini biasanya memberlakukan beberapa batasan pada penerapan komersial untuk modelnya yang memiliki kinerja paling tinggi.

Mistral menggunakan sistem penamaan yang sederhana, meskipun tidak konvensional, untuk modelnya. Nama sebagian model, seperti Mistral 7B atau Pixtral 12B, mengindikasikan jumlah parameter, sementara yang lainnya merujuk ke ukuran yang lebih deskriptif, seperti "Mistral Large" atau "Mistral Small", atau tidak sama sekali. Banyak nama, seperti “Mixtral” atau “Mathstral,” merupakan permainan kata dari nama perusahaan.

Beberapa pembaruan versi model tercermin dalam nama model utama, sementara yang lain tidak. Misalnya, Mistral Large dan Mistral Small pertama kali dirilis pada Februari 2024. Mistral Large diperbarui pada bulan Juli menjadi "Mistral Large 2," tetapi Mistral Small tetap menjadi "Mistral Small" setelah pembaruan pada bulan September.

Model tujuan umum

Model yang dikategorikan Mistral AI sebagai model “tujuan umum” biasanya merupakan LLM text-in, tex-out yang menjalankan pendekatan kinerja canggih untuk ukuran model, biaya, atau tuntutan komputasi masing-masing. Sesuai dengan nama kategori, model-model ini sangat cocok untuk pemrosesan bahasa alami (NLP) dan contoh penggunaan pembuatan teks.

Mistral Large 2

Mistral Large 2 adalah LLM andalan Mistral dan model terbesar. Setelah dirilis pada bulan September 2024, kinerjanya pada tolok ukur umum mengungguli semua model terbuka (kecuali Meta Llama 3.1 405B yang jauh lebih besar) dan menyaingi banyak model tertutup terkemuka.

Dengan parameter 123B, Mistral Large 2 menempati ceruk unik dalam lingkungan LLM, lebih besar daripada model "ukuran menengah" mana pun, tetapi secara signifikan lebih kecil daripada pesaing langsungnya. Dalam pengumuman rilis resminya, Mistral AI menunjukkan bahwa ukuran model tersebut ditentukan dengan tujuan untuk memungkinkannya berjalan pada throughput besar pada satu node.

Sesuai dengan Mistral AI, Mistral Large 2 multibahasa mendukung puluhan bahasa, termasuk bahasa Inggris, Prancis, Jerman, Spanyol, Italia, Portugis, Arab, Hindi, Rusia, Cina, Jepang, dan Korea. Model ini juga mencakup dukungan untuk lebih dari 80 bahasa pengodean.

Mistral Large 2 dirilis dengan Lisensi Penelitian Mistral, yang memungkinkan penggunaan terbuka dan modifikasi hanya untuk tujuan non-komersial. Untuk penerapan komersial, pengguna harus menghubungi penyedia AI secara langsung untuk meminta Lisensi Komersial Mistral atau mengaksesnya melalui mitra tertentu, seperti IBM watsonx.

Mistral Small

Mistral Small pertama kali dirilis pada Februari 2024 sebagai model perusahaan, tetapi diturunkan ke status “model lama” sebelum menerima perombakan dan kembali sebagai model “kelas perusahaan”, Mistral Small v24.09, pada bulan September. Terlepas dari namanya, Mistral menawarkan beberapa model yang lebih kecil dari Mistral Small.

Dengan parameter 22 miliar, Mistral Small mewakili titik tengah yang hemat biaya antara Mistral Larger dan Mistral NeMo 12B yang lebih kecil. Seperti Mistral Large 2, Mistral Small 24.09 ditawarkan di bawah Lisensi Riset Mistral.

Mistral NeMo

Mistral NeMo dibangun melalui kerja sama dengan NVIDIA. Dengan parameter 12B, model ini adalah salah satu model berkinerja paling tinggi dalam kategori ukurannya, dengan dukungan multibahasa untuk bahasa roman, China, Jepang, Korea, Hindi dan Arab. Dari model tujuan umum Mistral, Mistral NeMo adalah satu-satunya LLM yang sepenuhnya disediakan sebagai sumber terbuka dengan lisensi Apache 2.0.

Model spesialis

Tidak seperti model tujuan umumnya, model “spesialis” Mistral AI dilatih untuk tugas dan domain tertentu, bukan untuk aplikasi text-in, text-out umum.

Namun, perlu dicatat bahwa ini bukanlah sebutan yang kaku: Mistral AI mengategorikan beberapa model khusus tambahan, seperti Mathstral, di kelompok "model penelitian" dan bukannya "model spesialis". Perbedaannya terutama didasarkan pada hak penggunaan yang tersedia: model spesialis mungkin memiliki batasan tertentu pada lingkungan penerapan atau penggunaan komersial, sedangkan model penelitian tidak.

Codestral

Codestral adalah model parameter terbuka 22B yang mengkhususkan diri dalam tugas pembuatan kode, mampu memahami lebih dari 80 model pemrograman termasuk Python, Java, C, C ++, JavaScript, Bash, Swift, dan Fortran. Model ini dirilis dengan Lisensi Non-Produksi AI Mistral, memungkinkan penggunaannya untuk tujuan penelitian dan pengujian. Lisensi komersial dapat diberikan berdasarkan permintaan dengan menghubungi Mistral secara langsung.

Mistral Embed

Mistral Embed adalah model penyematan yang dilatih untuk menghasilkan penyematan kata. Saat ini, model ini hanya mendukung bahasa Inggris.

Pixtral 12B

Pixtral 12B adalah model multimodal terbuka, ditawarkan dengan lisensi Apache 2.0, yang mampu melakukan tugas-tugas text-in, text-out dan image-in, text-out. Arsitekturnya menggabungkan dekoder multimodal 12B berdasarkan Mistral Nemo dan encoder visi parameter 400M yang dilatih dari awal menggunakan data gambar. Pixtral dapat digunakan dalam antarmuka percakapan, mirip dengan cara berinteraksi dengan LLM standar yang hanya menggunakan teks, dengan kemampuan tambahan untuk mengunggah gambar dan memberikan prompt ke model untuk menjawab pertanyaan tentang gambar tersebut.

Dibandingkan dengan model multimodal dengan ukuran yang sebanding, baik berpemilik maupun sumber terbuka, Pixtral mencapai hasil yang sangat kompetitif pada sebagian besar tolok ukur multimodal. Sebagai contoh, Pixtral mengungguli model Claude 3 Haiku dari Anthropic, Gemini 1.5 Flash 8B dari Google, dan model Phi 3.5 Vision dari Microsoft dalam tolok ukur yang mengukur pemecahan masalah tingkat perguruan tinggi (MMMU), penalaran matematis visual (MathVista), pemahaman bagan (ChartQA), pemahaman dokumen (DocQA), dan menjawab pertanyaan visi umum (VQAv2).²

Model penelitian

Model penelitian Mistral masing-masing ditawarkan sebagai model sumber terbuka sepenuhnya, tanpa batasan penggunaan komersial, penerapan, atau kemampuan untuk penyempurnaan.

Mixtral

Mixtral adalah rangkaian model sparse Mixture of Experts (MoE). Tidak seperti jaringan neural konvensional, yang menggunakan seluruh jaringan untuk setiap inferensi, model MoE dibagi lagi menjadi kelompok parameter berbeda yang disebut pakar. Untuk setiap token, jaringan router hanya memilih sejumlah pakar di setiap lapisan untuk memproses input.

Dalam pelatihan, struktur ini memungkinkan setiap jaringan pakar untuk mengkhususkan diri dalam pemrosesan jenis input tertentu. Selama inferensi, model hanya menggunakan sebagian kecil dari total parameter yang tersedia—khususnya, parameter dalam jaringan pakar yang paling cocok untuk tugas yang dihadapi—untuk setiap input. Dengan demikian, arsitektur MoE secara signifikan mengurangi biaya dan latensi inferensi tanpa penurunan kinerja yang sesuai.

Mixtral ditawarkan dalam 2 varian, yang masing-masing dibagi menjadi 8 jaringan pakar: Mixtral 8x7B dan Mixtral 8x22B. Yang pertama adalah salah satu model dasar yang tersedia di IBM watsonx.

Mathstral

Mathstral adalah varian dari Mistral 7B—yang sekarang diturunkan statusnya menjadi "model lama"—yang dioptimalkan untuk memecahkan masalah matematika, tersedia dengan lisensi Apache 2.0.

Codestral Mamba

Model Codestral asli menggunakan arsitektur transformator standar yang umum untuk hampir semua model bahasa besar, sedangkan Codestral Mamba menggunakan arsitektur mamba yang berbeda. Penelitian tentang model Mamba masih dalam tahap paling awal—Mamba pertama kali diperkenalkan dalam makalah tahun 2023—tetapi arsitektur baru menawarkan keuntungan teoretis yang signifikan dalam kecepatan dan panjang konteks.

Le Chat

Le Chat adalah layanan chatbot Mistral, mirip dengan ChatGPT OpenAI, pertama kali dirilis ke versi beta pada 26 Februari 2024. Bersamaan dengan Mistral Large dan Mistral Small, Mistral baru-baru ini menambahkan Pixtral 12B multimodal ke dalam daftar LLM yang tersedia di Le Chat.

La Plateforme

La Plateforme adalah platform yang mendukung API untuk pengembangan dan penerapan Mistral, yang menyediakan titik akhir API dan ekosistem untuk bereksperimen, penyempurnaan pada kumpulan data khusus, mengevaluasi, dan membuat prototipe dengan model Mistral.

Cara memilih model dasar yang tepat

Pelajari cara memilih pendekatan yang tepat dalam mempersiapkan kumpulan data dan menggunakan model dasar.