Mistral AI란 무엇인가요?

걷는 사람들의 조감도

Mistral AI는 프랑스에 본사를 둔 인공 지능(AI) 스타트업으로 주로 오픈 소스 대규모 언어 모델(LLM)로 잘 알려져 있습니다. 2023년 설립 이후 세계 최고의 생성형 AI 개발업체 중 하나가 되었습니다.

Mistral AI는 2023년 4월 전 Google DeepMind 출신인 Arthur Mensch와 Guillaume Lample, 전 Meta AI의 Timothée Lacroix가 공동 설립한 회사입니다. 원래 파리 교외의 École Polytechnique에서 공부할 때 만난 공동 창립자들은 프랑스 남부에서 지중해로 불어오는 강한 북서풍의 이름을 따서 회사 이름을 지었습니다. 이 프랑스 회사는 가치 평가 기준으로 2024년 6월 현재 유럽에서 가장 큰 AI 스타트업이자 샌프란시스코 베이 지역을 제외한 지역에서 가장 큰 AI 스타트업이었습니다.1

DeepMind에서 Mensch는 'Training compute-optimal large language models'라는 중요한 논문의 주요 저자 중 한 명이었습니다. 이 논문과 여기에 소개된 '친칠라' 모델은 LLM의 확장 법칙을 탐구하고 자기회귀 언어 모델의 모델 크기, 학습 데이터, 효율성, 성능 간의 관계에 관해 매우 영향력 있는 몇 가지 발견을 소개했습니다. Meta에서 Lacroix와 Lample은 원래 LLaMa 모델의 연구원 중 한 명이었습니다.

공동 창립자들의 효율성과 LLM 개발에 대한 전문성이 결합되어 대부분 오픈 소스 모델을 개발했으며, 그 성능은 종종 훨씬 더 큰 규모의 LLM과 맞먹는 수준입니다. 생성형 AI 개발에 대한 이 유럽 기업의 초기 기여 중 가장 주목할 만한 것은 희소한 전문가들의 조합(MoE) 모델에 대한 혁신이었습니다.   

'개방형, 휴대형, 맞춤형 솔루션에 대한 강력한 헌신과 제한된 시간 내에 가장 진보된 기술을 출시하는 데 극도로 집중'하는 것이 이 회사의 사명입니다.

 

Mistral AI 모델

Mistral AI는 일반적으로 LLM을 '범용' 모델, '전문가' 모델 및 '연구' 모델의 3개 카테고리로 나눕니다.

Mistral은 Apache 2.0 라이선스에 따라 가장 일반적인 머신 러닝 (ML) 플랫폼에서 개방형 가중치를 갖춘 많은 모델을 제공하지만, 일반적으로 가장 성능이 뛰어난 모델의 경우 상용 배포에 몇 가지 제약이 따릅니다.

Mistral은 모델에 단순하지만 색다른 이름 지정 시스템을 사용합니다. Mistral 7B 또는 Pixtral 12B와 같은 일부 모델의 이름은 매개변수 수를 나타내는 반면, 다른 모델은 'Mistral Large' 또는 'Mistral Small'과 같이 크기를 설명적으로 나타내거나 전혀 설명적이지 않습니다. 'Mixtral'이나 'Mathstral'과 같이 회사 이름에서 유래한 이름도 많습니다.

일부 모델 버전 업데이트는 기본 모델 이름에 반영되지만 다른 모델은 반영되지 않습니다. 예를 들어, Mistral Large와 Mistral Small은 2024년 2월에 처음 출시되었습니다. 전자는 7월에 'Mistral Large 2'로 업데이트되었지만 후자는 9월 업데이트 이후에도 'Mistral Small'으로 유지되었습니다.
 

범용 모델

Mistral AI가 '범용' 모델로 분류하는 모델은 일반적으로 각 모델 크기, 비용 또는 계산 수요에 대해 최첨단 성능에 접근하는 텍스트 입력, 텍스트 출력 LLM입니다. 이 카테고리의 이름에서 알 수 있듯이, 이러한 모델은 일반적인 자연어 처리(NLP) 및 텍스트 생성 사용 사례에 매우 적합합니다.
 

Mistral Large 2

Mistral Large 2는 Mistral의 주력 LLM이자 가장 큰 모델입니다. 2024년 9월 출시 당시 일반 벤치마크 성능은 모든 개방형 모델(훨씬 더 큰 Meta Llama 3.1 405B 제외)을 능가했으며, 여러 주요 폐쇄형 모델에 필적하는 성능을 보였습니다.

123B 매개변수를 갖춘 Mistral Large 2는 LLM 환경에서 독특한 틈새 시장을 차지하고 있으며, '중형' 모델보다는 크지만 직접적인 경쟁자보다 훨씬 작습니다. Mistral AI는 공식 출시 발표에서 단일 노드에서 큰 처리량으로 실행할 수 있도록 모델 규모를 조정했다고 밝혔습니다.

Mistral AI에 따르면 다국어 Mistral Large 2는 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 아랍어, 힌디어, 러시아어, 중국어, 일본어, 한국어를 포함한 수십 개 언어를 지원합니다. 또한 80개 이상의 코딩 언어에 대한 지원도 포함되어 있습니다.

Mistral Large 2는 Mistral Research License에 따라 출시되었으며 비상업적 목적으로만 공개 사용 및 수정이 허용됩니다. 상업적으로 배포하려면 AI 공급업체에 직접 연락하여 Mistral 상업 라이선스를 요청하거나 IBM® watsonx와 같은 선택된 파트너를 통해 액세스해야 합니다.
 

Mistral Small

Mistral Small은 2024년 2월 엔터프라이즈 모델로 처음 출시되었지만, "레거시 모델" 상태로 강등된 후 9월에 대대적으로 개편되어 "엔터프라이즈급" 모델인 Mistral Small v24.09로 돌아왔습니다. 이름과 달리, Mistral은 Mistral Small보다 작은 여러 모델도 제공합니다.

220억 매개변수 규모의 Mistral Small은 Mistral Larger와 더 작은 Mistral NeMo 12B 사이에서 비용 효율적인 중간 모델로 기능합니다. Mistral Small 24.09는 Mistral Large 2와 마찬가지로 Mistral Research License를 통해 제공됩니다.
 

Mistral NeMo

Mistral NeMo는 NVIDIA와의 협업을 통해 구축되었습니다. 12B 매개변수에서 동급 크기 카데고리에서 가장 성능이 뛰어난 모델 중 하나이며, 로망스어, 중국어, 일본어, 한국어, 힌디어, 아랍어 등 다국어를 지원합니다. Mistral의 범용 모델 중 Mistral NeMo는 Apache 2.0 라이선스에 따라 완전히 오픈 소스로 제공되는 유일한 LLM입니다.

 

전문가 모델

범용 모델과 달리 Mistral AI의 '전문가' 모델은 일반적인 텍스트 입력, 텍스트 출력 애플리케이션이 아닌 특정 작업 및 도메인에 대해 학습됩니다.

그러나 이는 엄격한 명칭이 아니라는 점에 주목할 필요가 있습니다. Mistral AI는 Mathstral과 같은 일부 추가 특수 모델을 '전문가 모델'이 아닌 '연구 모델'로 분류합니다. 이러한 구분은 주로 사용 가능한 사용 권한을 기반으로 하며, 전문가 모델은 배포 환경 또는 상업적 사용에 대한 특정 제한이 있을 수 있지만 연구 모델은 그렇지 않습니다.
 

Codestral

Codestral은 코드 생성 작업에 특화된 22B 개방형 가중치 모델로, Python, Java, C, C++, JavaScript, Bash, Swift, Fortran을 포함한 80개 이상의 프로그래밍 모델에 능통합니다. Mistral AI Non-Production License에 따라 출시되어 연구 및 테스트 목적으로 사용할 수 있습니다. 상업용 라이선스는 Mistral에 직접 문의하여 요청하면 발급받을 수 있습니다.
 

Mistral Embed

Mistral Embed는 단어 임베딩을 생성하도록 학습된 임베딩 모델입니다. 현재는 영어만 지원합니다.
 

Pixtral 12B

Pixtral 12B는 Apache 2.0 라이선스에 따라 제공되는 개방형 멀티모달 모델로, 텍스트 입력, 텍스트 출력 및 이미지 입력, 텍스트 출력 작업을 모두 수행할 수 있습니다. 이 아키텍처는 Mistral Nemo를 기반으로 하는 12B 멀티모달 디코더와 이미지 데이터에 대해 처음부터 학습된 400M 매개변수 비전 인코더를 결합합니다. Pixtral은 표준 텍스트 전용 LLM과 상호 작용하는 방식과 유사하게 대화형 인터페이스에서 사용할 수 있으며, 이미지를 업로드하고 모델에 프롬프트하여 질문에 대한 답을 구할 수 있는 기능이 추가되었습니다.

비슷한 규모의 독점 및 오픈 소스 멀티모달 모델과 비교하여, Pixtral은 대부분의 멀티모달 벤치마크에서 매우 경쟁력 있는 결과를 달성했습니다. 예를 들어, Pixtral은 대학 수준 문제 해결(MMMU), 시각적 수학적 추론(MathVista), 차트 이해(ChartQA), 문서 이해(DocQA), 일반적인 시각 질문 답변(VQAv2)을 측정하는 벤치마크에서 Anthropic의 Claude 3 Haiku, Google의 Gemini 1.5 Flash 8B 및 Microsoft의 Phi 3.5 Vision 모델보다 우수한 성능을 보였습니다 .2
 

연구 모델

Mistral의 연구 모델은 모두 완전한 오픈 소스 모델로 제공되며, 상업적 사용, 배포 환경 또는 미세 조정 기능에 대한 제한이 없습니다.
 

Mixtral

Mixtral은 디코더 전용의 희소한 전문가들의 조합(MoE) 모델 제품군입니다. 각 추론에 전체 네트워크를 사용하는 기존의 피드포워드 신경망과 달리 MoE 모델은 전문가라는 별도의 매개변수 그룹으로 세분화됩니다. 각 토큰에 대해 라우터 네트워크는 각 계층에서 특정 수의 전문가만 선택해 입력을 처리합니다.

학습에서 이 구조는 각 전문가 네트워크가 특정 종류의 입력 처리에 특화될 수 있도록 합니다. 추론하는 동안 모델은 각 입력에 대해 사용 가능한 전체 매개변수의 일부(특히 해당 작업에 가장 적합한 전문가 네트워크의 매개변수)만 사용합니다. 이를 통해 MoE 아키텍처는 추론 비용과 대기 시간을 크게 줄이면서도 그에 상응하는 성능 저하가 발생하지 않습니다.

Mixtral은 2가지 버전으로 제공되며 각 버전은 Mixtral 8x7B 및 Mixtral 8x22B의 8가지 전문가 네트워크로 세분화됩니다. 전자는 IBM watsonx에서 사용할 수 있는 파운데이션 모델 중 하나입니다.

Mathstral

Mathstral은 현재 '레거시 모델' 상태로 강등된 Mistral 7B의 변형으로, 수학 문제 해결에 최적화되어 있으며 Apache 2.0 라이선스에 따라 사용할 수 있습니다.
 

Codestral Mamba

기존 Codestral 모델은 거의 모든 대규모 언어 모델에 공통적인 표준 트랜스포머 아키텍처를 사용하는 반면, Codestral Mamba는 독자적인 mamba 아키텍처를 사용합니다. Mamba 모델에 대한 연구는 아직 초기 단계이지만(Mamba는 2023년 논문에서 처음 소개됨), 이 새로운 아키텍처는 속도와 컨텍스트 길이 모두에서 이론적으로 상당한 이점을 제공합니다.

 

Le Chat

Le Chat는 OpenAI의 ChatGPT와 유사한 Mistral의 챗봇 서비스로, 2024년 2월 26일에 베타 버전으로 처음 출시되었습니다. Mistral은 Mistral Large 및 Mistral Small과 함께 최근 Le Chat에서 사용할 수 있는 LLM 명단에 멀티모달 Pixtral 12B를 추가했습니다.

 

La Plateforme

La Plateforme은 Mistral의 개발 및 배포 API 제공 플랫폼으로, Mistral 모델로 실험하고, 사용자 지정 데이터 세트를 미세 조정하며, 평가 및 프로토타입을 제작할 수 있는 API 엔드포인트와 에코시스템을 제공합니다.

 

관련 솔루션
파운데이션 모델

watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

IBM watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.

watsonx.ai 살펴보기 AI 솔루션 살펴보기