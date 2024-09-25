IBM은 AI 개발자용 엔터프라이즈 스튜디오인 watsonx.ai에서 다양한 Llama 3.2 모델 출시를 발표합니다. 이는 오늘 오전 MetaConnect에서 사전 학습되고 명령어가 조정된 다국어 대규모 언어 모델(LLM)인 Llama 3.2 컬렉션을 출시한 데 이은 조치입니다.
특히 Llama 3.2는 Meta의 첫 멀티모달 AI 진출을 의미합니다. 이 릴리스에는 이미지를 입력으로 사용할 수 있는 11B 및 90B 크기의 두 가지 모델이 포함되어 있습니다. 명령어가 조정된 Llama 3.2 90B Vision 및 11B Vision 모델은 SaaS를 통해 watsonx.ai 즉시 이용 가능합니다.
또한 watsonx.ai에는 지금까지 출시된 제품 중 가장 작은 Llama 모델(1B 및 3B 크기의 텍스트 입력/텍스트 출력 LLM 2종)이 출시됩니다. 모든 Llama 3.2 모델은 긴 컨텍스트 길이(최대 128K 토큰)를 지원하며 그룹화된 쿼리 어텐션을 통해 빠르고 효율적인 추론에 최적화되어 있습니다. Meta는 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어 및 태국어가 공식적으로 지원된다고 명시했지만, Llama 3.2는 해당 8개 언어 이외의 추가 언어에 대해 학습을 받았습니다(개발자는 Llama 3.2 모델을 미세 조정할 수도 있음).
Meta의 최신 추가 기능은 IBM의 생성형 AI를 향한 개방형 다중 모델 전략에 따라 watsonx.ai에서 사용 가능한 파운데이션 모델 라이브러리에 추가되었습니다.
"최신 Llama 3.2 모델을 watsonx에서 사용할 수 있도록 함으로써 훨씬 더 많은 기업이 이러한 혁신의 이점을 누릴 수 있으며, 하이브리드 클라우드 환경 전반에 걸쳐 자체 조건에 따라 최신 모델을 번거로움 없이 배포할 수 있습니다."라고 Meta의 생성형 AI 책임자인 Ahmad Al-Dahle은 말합니다. "Meta는 각 조직의 특정 요구 사항에 맞게 AI 솔루션을 조정하고 Llama 배포를 확장할 수 있도록 지원하는 것이 필수적이라고 생각합니다. 개방성, 안전, 보안, 신뢰 및 투명성에 대한 우리의 약속을 공유하는 조직인 IBM과의 파트너십을 통해 이를 실현할 수 있습니다."
계속 읽으면서 새로운 멀티모달 기능, 모바일 및 기타 엣지 디바이스에서의 새로운 배포 기회, 업데이트된 안전 기능 등 Llama 3.2 컬렉션에 대한 자세한 내용을 확인하세요.
Llama 시리즈의 텍스트 전용 LLM 선행 모델들과 달리, Llama 3.2 11B 및 Llama 3.2 90B는 문서 수준 이해, 차트 및 그래프 해석, 이미지 캡션 생성 등 이미지 입력/텍스트 출력 사용 사례를 포함하도록 기능을 확장했습니다. 이제 개발자는 폐쇄형 모델의 고급 능력에 근접하는 강력한 시각적 추론 모델에 액세스하는 동시에 개방형 모델의 완전한 유연성과 사용자 지정 기능을 제공할 수 있습니다.
새로운 멀티모달 Llama 3.2 비전 LLM은 최대 1120x1120 픽셀의 고해상도 이미지를 처리할 수 있어, 컴퓨팅 비전 작업에 활용할 수 있습니다. 여기에는 분류, 객체 탐지 및 식별, 광학 문자 인식(OCR)을 통한 이미지-텍스트 변환(필기체 포함), 문맥 기반 질문 및 답변, 데이터 추출 및 처리, 이미지 비교, 개인 시각 보조 등이 포함됩니다.
이러한 멀티모달 접근 방식에는 다음의 3가지 주요 이점이 있습니다.
두 모델 모두 비전 언어 모델(VLM)에 대한 일반적인 멀티모달 벤치마크에서 우수한 성능을 발휘하며, 개방형 모델의 경우 최고 점수에 근접하며 최첨단 폐쇄형 모델과 경쟁하는 경우가 많습니다. 예를 들어, 명령어가 조정된 Llama 3.2 90B-Vision은 차트 이해(ChartQA)에서 OpenAI의 GPT-4O와 대등하며 과학 다이어그램 해석(AI2D)에서는 Anthropic의 Claude 3 Opus와 Google의 Gemini 1.5 Pro를 모두 능가합니다.1
마찬가지로 Llama 3.2 11B-Vision은 동급 모델 중에서 경쟁력 있는 벤치마크 점수를 달성했습니다. 문서 시각적 Q&A(DocVQA)에서 Gemini 1.5 Flash 8B를 제치고, AI2D, ChartQA 및 시각적 수학 추론(MathVista)에서는 Claude 3 Haiku 및 Claude 3 Sonnet을 앞섰으며, 일반 시각 Q&A (VQAv2)에서는 Pixtral 12B 및 Qwen2-VL 7B와 동등한 성능을 보여주었습니다.2
Llama 3.2 컬렉션에는 지금까지 가장 작은 Llama 모델을 대표하는 1B 및 3B 매개변수가 있는 변형도 포함되어 있습니다.
Llama는 모델 크기가 작고 그에 따라 컴퓨팅 및 메모리 요구 사항이 적기 때문에 모바일 및 기타 엣지 디바이스를 포함한 대부분의 하드웨어에서 로컬로 실행할 수 있습니다. 이를 통해 Llama 3.2 1B와 Llama 3.2 3B는 로컬 애플리케이션과 에이전트 AI에서 혁신의 물결을 일으킬 수 있는 잠재력을 갖추게 되었습니다. 이렇게 작고 성능이 뛰어난 모델에는 많은 장점이 있지만, 가장 중요한 두 가지를 꼽자면 다음과 같습니다.
로컬에서 실행되는 이 경량 Llama 3.2 모델은 RAG, 다국어 요약 및 하위 작업 위임을 포함한 온디바이스 애플리케이션을 조정하는 비용 효율적인 에이전트 역할을 할 수 있습니다. 또한 Llama Guard와 같은 안전 모델 구현 비용을 절감하는 데 사용할 수 있습니다. 이 새로운 멀티모달 버전은 Meta의 오늘 릴리스에 포함되어 있으며 watsonx에서 사용할 수 있습니다.
새로운 경량 Llama 모델 모두 성능 벤치마크, 특히 주요 에이전트 AI 작업과 관련된 주요 벤치마크를 능가합니다. 예를 들어, Llama 3.2 3B는 도구 사용(BFCL v2)에서 더 큰 모델인 Llama 3.1 8B에 필적하고 요약(TLDR9+)에서는 성능이 더 뛰어나며, 1B는 요약과 재작성 작업 부문 모두에서 비슷한 성능을 자랑합니다. 짧은 시간 안에 개방형 LLM이 얼마나 발전했는지를 보여주는 지표로, Llama 3.2 3B는 MATH 벤치마크에서 기존 GPT-4보다 상당히 우수한 성능을 보였습니다.
강력한 AI 모델의 가용성이 계속 증가함에 따라 기성 솔루션만 사용하여 경쟁 우위를 구축하는 것이 점점 더 어려워질 것입니다. Llama 개방형 모델은 성능 벤치마크에서 가장 강력한 모델에도 필적하는 동시에 폐쇄형 모델에서는 불가능한 맞춤화, 투명성 및 유연성을 제공합니다.
Llama 3.2에 대한 지원은 AI의 오픈 소스 혁신을 촉진하고 고객에게 타사 모델과 IBM Granite 모델 제품군을 포함한 동급 최고의 watsonx 개방형 모델에 대한 액세스를 제공하기 위한 IBM의 노력의 일환입니다.
IBM watsonx는 배포 환경의 완전한 유연성부터 미세 조정, 프롬프트 엔지니어링 및 엔터프라이즈 애플리케이션과의 통합을 위한 직관적인 워크플로에 이르기까지 고객이 Llama 3.2와 같은 오픈소스 모델의 구현을 진정으로 맞춤화할 수 있도록 지원합니다. 단일 플랫폼에서 비즈니스를 위한 맞춤형 AI 애플리케이션을 즉시 구축할 수 있고 모든 데이터 소스를 관리하며 책임감 있는 AI 워크플로를 가속화할 수 있습니다.
현재 IBM watsonx.ai에서 다음 모델을 사용할 수 있습니다.
앞으로 몇 주 안에 사전 학습된 Llama 3.2 모델이 합류할 예정입니다. '-Instruct' 모델은 각각 일반적인 사용 사례와 유용성 및 안전성에 대한 사람들의 선호도에 더 잘 부합하도록 감독 미세 조정(SFT)과 인간 피드백을 통한 강화 학습(RLHF)을 거쳤습니다.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.