7월 23일 화요일, Meta는 다국어 대규모 언어 모델(LLM)의 Llama 3.1 컬렉션을 출시한다고 발표했습니다. Llama 3.1은 8B, 70B 및 405B(사상 최초) 매개변수 크기의 사전 학습되고 명령어가 조정된 텍스트 입력/텍스트 출력 오픈 소스 생성형 AI 모델로 구성됩니다.
현재 가장 크고 강력한 오픈 소스 언어 모델이자 시중 최고의 독점 모델과 경쟁할 수 있는 명령어가 조정된 Llama 3.1-405B는 IBM watsonx.ai 에서 사용할 수 있습니다. 현재 IBM 클라우드, 하이브리드 클라우드 환경 또는 온프레미스에 배포할 수 있습니다.
Llama 3.1 릴리스는 4월 18일 Llama 3 모델 출시에 이어 출시됩니다. 함께 제공된 출시 발표에서 Meta는 "가까운 미래에 Llama 3를 다국어 및 다중 모드로 만들고, 더 긴 컨텍스트를 제공하며, 추론 및 코딩과 같은 LLM 기능 전반에서 전반적인 성능을 지속적으로 개선하는 것이 목표"라고 밝혔습니다.
오늘 출시된 Llama 3.1은 컨텍스트 길이의 획기적인 증가부터 도구 사용 및 다국어 기능 확장에 이르기까지 이러한 목표를 향한 상당한 진전을 보여줍니다.
2023년 12월, 50개 이상의 글로벌 창립 회원사 및 협력사와의 협력을 통해 Meta와 IBM은 AI Alliance를 출범했습니다. 산업, 스타트업, 학계, 연구 및 정부 전반의 주요 조직을 한데 모으는 AI Alliance는 우리 사회의 요구와 복잡성을 가장 잘 반영할 수 있도록 AI의 진화를 주도하고자 합니다. 창립 이후 AI Alliance는 100개 이상의 회원사를 거느린 연합으로 성장했습니다.
보다 구체적으로 AI Alliance는 개발자와 연구자가 신뢰, 안전, 보안, 다양성, 과학적 엄격함, 경제적 경쟁력을 보장하면서 책임감 있는 혁신을 가속화할 수 있도록 개방형 커뮤니티를 육성하는 데 전념하고 있습니다. 이를 위해 AI Alliance는 벤치마크와 평가 표준을 개발 및 배포하고, 사회 전반의 과제를 해결하고, 글로벌 AI 기술 구축을 지원하고, 안전하고 유익한 방식으로 AI의 개방적인 개발을 장려하는 프로젝트를 지원합니다.
Llama 3.1은 글로벌 AI 커뮤니티에 새로운 아이디어와 접근 방식을 구축 및 실험하고 책임감 있게 확장할 수 있는 최첨단 개방형 모델 패밀리 및 에코시스템을 제공함으로써 이러한 사명을 더욱 강화합니다. 강력한 새 모델 외에도 이 릴리스에는 강력한 시스템 수준의 안전 조치, 새로운 사이버 보안 평가 조치, 업데이트된 추론 시간 가드레일이 포함되어 있습니다. 종합적으로, 이러한 리소스는 생성형 AI를 위한 신뢰 및 안전 도구의 개발 및 사용의 표준화를 장려합니다.
'400B 이상의 매개변수'를 가진 곧 출시될 Llama 모델은 4월의 Llama 3 발표에서 모델 성능에 대한 일부 예비 평가를 포함하여 논의되었지만, 정확한 규모와 세부 사항은 오늘 출시 전까지 공개되지 않았습니다. Llama 3.1은 모든 모델 규모에 걸쳐 주요 업그레이드를 제공하지만, 새로운 405B 오픈 소스 모델은 선도적인 독점 폐쇄형 소스 LLM을 통해 전례 없는 동등성을 달성했습니다.
오늘 Meta가 발표한 업데이트된 수치는 405B 모델이 다른 최첨단 제품과 비교했을 때 얼마나 인상적인지 종합적으로 보여줍니다. 일반적인 벤치마크에서 주요 LLM과 비교하면 다음과 같습니다.[1]
405B를 다른 최첨단 모델과 비교할 때 성능 벤치마크만이 고려해야 할 유일한 요소는 아닙니다. 기본 모델이 예고 없이 변경될 수 있는 API를 통해서만 액세스할 수 있는 폐쇄형 소스와 달리, Llama 3.1-405B는 온프레미스에서 구축, 수정 및 실행할 수 있는 안정적인 플랫폼입니다. 이러한 수준의 제어와 예측 가능성은 일관성과 재현성을 중시하는 연구자, 기업 및 기타 단체에 큰 도움이 됩니다.
IBM은 Meta와 마찬가지로 실행 가능한 개방형 모델의 가용성이 더 우수하고 안전한 제품을 촉진하고 혁신을 가속화하며 전반적으로 더 건강한 AI 시장에 기여한다고 믿습니다. 정교한 405B 매개변수 오픈 소스 모델의 규모와 기능은 모든 규모의 조직에 고유한 기회와 사용 사례를 제공합니다.
모델의 크기와 해당 계산 요구 사항을 고려할 때 대부분의 하드웨어 설정에서 로컬로 실행하려면 양자화 또는 기타 최적화 방법이 필요할 수 있는 추론 및 텍스트 생성을 위해 모델을 직접 사용하는 것 외에도 405B는 다음과 같은 용도로 활용할 수 있습니다.
Llama 3.1 모델의 성공적인 출시를 위해 Meta AI는 IBM watsonx와 같이 모델 평가, 안전 가드레일 및 검색 증강 생성(RAG)을 위한 핵심 기능을 제공하는 플랫폼을 사용할 것을 '강력히 권장'합니다.
오랫동안 기다려온 405B 모델은 Llama 3.1 릴리스에서 가장 주목할만한 부분일 수 있지만, 유일하게 주목할만한 부분은 아닙니다. Llama 3.1 모델은 Llama 3와 동일한 고밀도 트랜스포머 아키텍처를 공유하지만, 모든 모델 크기에서 Llama 3에 비해 몇 가지 중요한 업그레이드를 제공합니다.
사전 학습되고 명령어가 조정된 모든 Llama 3.1 모델의 경우 컨텍스트 길이가 Llama 3의 8,192개 토큰에서 Llama 3.1의 토큰 128,000개로 크게 확장되며 무려 1600% 증가했습니다. 따라서 Llama 3.1의 컨텍스트 길이는 기업 사용자에게 제공되는 GPT-4o 버전의 컨텍스트 길이와 동일하며, GPT-4(또는 ChatGPT Free의 GPT-4o 버전)보다 훨씬 길고 Claude 3가 제공하는 200,000 토큰 창과 비슷합니다. Llama 3.1은 사용자가 선택한 하드웨어 또는 클라우드 제공업체에 배포할 수 있으므로 수요가 많은 기간에는 컨텍스트 길이가 일시적으로 줄어들지 않습니다. 마찬가지로, Llama 3.1은 일반적으로 광범위한 사용 제한이 적용되지 않습니다.
컨텍스트 창이라고도 하는 모델의 컨텍스트 길이는 LLM이 특정 시간에 고려하거나 '기억'할 수 있는 텍스트의 총량(토큰 단위)을 나타냅니다. 대화, 문서 또는 코드 베이스가 모델의 최대 컨텍스트 길이를 초과하는 경우 모델이 계속 진행하려면 이를 잘라내거나 요약해야 합니다. Llama 3.1의 확장된 컨텍스트 창을 통해 Llama 모델은 이제 세부 사항을 잊지 않고 훨씬 더 긴 대화를 수행하고 학습 및 추론 중에 훨씬 더 큰 문서 또는 코드 샘플을 수집할 수 있습니다.
텍스트를 토큰으로 변환하는 데 고정된 단어 대 토큰 '환율'이 수반되지는 않지만, 단어당 약 1.5개의 토큰이 적절하게 추정됩니다. 따라서 Llama 3.1의 128,000 토큰 컨텍스트 창은 약 85,000개의 단어에 해당합니다. Hugging Face의 Tokenizer Playground는 다양한 모델이 텍스트 입력을 토큰화하는 방법을 쉽게 확인하고 실험할 수 있는 방법입니다.
Llama 3.1 모델은 Llama 2보다 훨씬 더 효율적으로 언어를 인코딩하는 Llama 3용으로 출시된 새로운 토크나이저의 이점을 계속 누릴 수 있습니다.
혁신에 대한 책임감 있는 접근법에 따라 Meta는 확장된 맥락 길이에 대해 신중하고 철저한 접근 방식을 취해 왔습니다. 이전의 실험적인 오픈 소스 노력을 통해 128,000 토큰 창, 심지어 100만 토큰 창을 가진 Llama 파생 모델을 생성했다는 점에 주목할 필요가 있습니다. 이러한 프로젝트는 Meta의 개방형 모델에 대한 노력의 이점을 보여주는 훌륭한 예이지만, 신중하게 접근해야 합니다. 최신 연구에 따르면 엄격한 대응 조치가 없는 상황에서 매우 긴 컨텍스트 창은 'LLM에 대한 넓은 공격 표면을 제공'합니다.
다행히 Llama 3.1 릴리스에는 새로운 추론 가드레일 세트도 포함되어 있습니다. Llama Guard와 CyberSec Eval의 업데이트 버전과 함께, 이 릴리스는 직접 및 간접 프롬프트 인젝션 필터링을 제공하는 Prompt Guard 지원이 도입되어 있습니다. Meta는 LLM에서 생성된 안전하지 않은 코드가 프로덕션 시스템으로 유입되는 것을 방지하도록 설계된 강력한 추론 시간 필터링 도구인 CodeShield를 통해 추가적인 위험 완화를 제공합니다.
생성형 AI를 구현할 때와 마찬가지로, 강력한 보안, 개인정보 보호 및 안전 조치를 갖춘 플랫폼에만 모델을 배포하는 것이 항상 현명합니다.
이제 모든 크기의 사전 학습되고 명령어가 조정된 Llama 3.1 모델이 다국어를 지원합니다. Llama 3.1 모델은 영어 외에도 스페인어, 포르투갈어, 이탈리아어, 독일어, 태국어 등 다양한 언어를 구사할 수 있습니다. Meta는 '다른 몇 가지 언어'는 아직 학습 후 검증 단계에 있으며 향후 출시될 수 있다고 언급했습니다.
Llama 3.1 Instruct 모델은 '도구 사용'에 맞게 미세 조정되었습니다. 즉, Meta는 LLM의 기능을 보완하거나 확장하는 특정 프로그램과의 인터페이스 기능을 최적화했습니다. 여기에는 특정 검색, 이미지 생성, 코드 실행 및 수학적 추론 도구에 대한 도구 호출을 생성하는 교육과 제로 샷(zero-shot) 도구 사용 지원, 즉 이전에 교육에서 볼 수 없었던 도구와 원활하게 통합할 수 있는 기능이 포함됩니다.
Meta의 최신 릴리스는 진정한 최첨단 생성형 AI 모델을 특정 사용 사례에 맞게 조정하고 조정할 수 있는 전례 없는 기회입니다.
Llama 3.1에 대한 지원은 AI의 오픈 소스 혁신을 촉진하고 고객에게 타사 모델과 IBM® Granite 모델 제품군을 포함한 동급 최고의 watsonx 개방형 모델에 대한 액세스를 제공하기 위한 IBM의 노력의 일환입니다.
IBM watsonx는 온프레미스 또는 선호하는 클라우드 환경에 모델을 배포할 수 있는 유연성부터, 미세 조정, 프롬프트 엔지니어링, 그리고 엔터프라이즈 애플리케이션과의 통합을 위한 직관적인 워크플로에 이르기까지, 고객이 Llama 3.1과 같은 오픈 소스 모델을 각자의 요구 사항에 가장 최적화된 방식으로 진정으로 맞춤화할 수 있도록 지원합니다. 단일 플랫폼에서 비즈니스를 위한 맞춤형 AI 애플리케이션을 즉시 구축할 수 있고 모든 데이터 소스를 관리하며 책임감 있는 AI 워크플로를 가속화할 수 있습니다.
자금 Llama 3.1-405B를 IBM watsonx.ai에서 사용할 수 있으며, 8B 및 70B 모델도 곧 제공될 예정입니다.
지금 바로 Llama 3.1-405B 및 watsonx.ai로 RAG 튜토리얼을 시작하세요.
[1] 독점 모델에 대한 인용된 벤치마크 평가는 2024년 6월 20일 Anthropic (Claude 3.5 Sonnet 및 Claude 3 Opus) 및 2024년 3월 4일 Anthropic (Claude 3 Sonnet 및 Haiku), 2024년 5월 13일 OpenAI (GPT 모델), 2024년 5월 Google Deepmind (Gemini 모델)에서 가져왔습니다.