Gemma는 Google의 무료 개방형 소규모 언어 모델(SLM) 제품군입니다. 이는 Gemini 대형 언어 모델(LLM) 제품군과 동일한 기술로 제작되었으며 Gemini의 "경량" 버전으로 간주됩니다.
Gemma 모델은 Gemini 모델보다 간결하기 때문에 노트북과 모바일 기기에 배포할 수 있지만 NVIDIA 그래픽 처리 장치(GPU) 및 Google Cloud 텐서 처리 장치(TPU)에도 최적화되어 있습니다. 하지만 Gemini와 달리 Gemma는 다국어나 멀티모달을 지원하지 않습니다.
이러한 텍스트-텍스트 인공 지능(AI) 모델은 '보석'을 의미하는 동일한 라틴어 단어에서 이름이 파생되었습니다. Gemma는 Google에서 모델 가중치에 대한 무료 액세스를 제공하는 개방형 모델 그룹이며 모델은 개인 및 상업적 사용과 재배포를 위해 무료로 제공됩니다.1
Gemma의 1세대 모델은 2024년 2월에 출시되었으며,1 2세대 모델은 2024년 6월에 발표되었습니다.2
Gemma는 Gemma 모델의 1세대입니다. Gemma 2B는 매개변수가 20억 개로 가장 작고, Gemma 7B는 70억 개의 매개변수를 가지고 있습니다. 이러한 모델은 코드 및 수학 데이터 세트와 대부분 영어인 웹 문서 콘텐츠를 기반으로 훈련되었습니다.3
이 비전 언어 모델은 이미지와 텍스트를 모두 인풋으로 받아들이고 텍스트를 아웃풋으로 생성합니다. 따라서 이미지에 대한 질문에 답하고, 이미지 내의 물체를 감지하고, 이미지 캡션을 생성하고, 이미지에 포함된 텍스트를 읽는 데 적합합니다. 기본 아키텍처는 비전 트랜스포머 이미지 인코더와 Gemma 2B에서 초기화된 트랜스포머 텍스트 디코더로 구성됩니다.7
PaliGemma에는 사전 학습된 모델의 범용 세트와 특정 연구 데이터 세트에서 미세 조정된 연구 지향 모델 세트가 있습니다. Google은 대부분의 PaliGemma 모델에 미세 조정이 필요하고 사용자에게 배포하기 전에 아웃풋을 테스트해야 한다고 언급했습니다.8
RecurrentGemma는 Google 연구진이 개발한 순환 신경망 아키텍처를 사용합니다. 따라서 특히 긴 시퀀스를 생성할 때 더 빠르게 추론할 수 있으며 Gemma보다 적은 메모리를 필요로 합니다. 사전 학습 및 명령 조정된 2B 및 9B 모델로 제공됩니다.9
CodeGemma와 PaliGemma에는 각각 고유한 활용 사례가 있습니다. 그러나 일반적으로 사람들은 다음과 같은 자연어 처리(NLP) 및 natural language understanding 작업에 Gemma를 사용할 수 있습니다.
Gemma는 2017년 Google에서 개발한 신경망 아키텍처인 트랜스포머 모델을 기반으로 합니다.10
트랜스포머 모델의 작동 방식에 대한 간략한 개요는 다음과 같습니다.
인코더는 인풋 시퀀스를 임베딩이라는 숫자 표현으로 변환하며 이는 인풋 시퀀스에서 토큰의 의미와 위치를 캡처합니다.
셀프 어텐션 메커니즘을 통해 트랜스포머는 위치에 관계 없이 인풋 시퀀스에서 가장 중요한 토큰에 '주의를 집중'할 수 있습니다.
디코더는 이 셀프 어텐션 메커니즘과 인코더의 임베딩을 사용하여 통계적으로 가장 확률이 높은 아웃풋 시퀀스를 생성합니다.
그러나 Gemma는 디코더 전용 트랜스포머라고 하는 트랜스포머 아키텍처의 변형을 사용합니다.11 이 모델에서 인풋 시퀀스는 디코더에 직접 공급되며, 디코더는 여전히 임베딩과 어텐션 메커니즘을 사용하여 아웃풋 시퀀스를 생성합니다.
Gemma의 1세대 모델은 몇 가지 아키텍처 요소를 통해 트랜스포머를 개선했습니다.
신경망의 각 레이어는 절대 위치 임베딩 대신 회전 위치 임베딩을 적용합니다. 또한 임베딩은 모델을 압축하기 위해 인풋과 아웃풋 간에 공유됩니다.3
Gemma 7B는 여러 개의 "어텐션 헤드"가 각자의 키와 값을 가지고 토큰 간에 다양한 유형의 관계를 포착하는 멀티헤드 어텐션 방식을 사용합니다. 이와 대조적으로 Gemma 2B는 모든 어텐션 헤드가 단일 키와 값을 공유하는 멀티쿼리 어텐션을 사용하여 속도를 향상하고 메모리 부하를 줄입니다.11
Gemma 2는 Gemma보다 더 깊은 신경망을 사용합니다. 다음은 그 외 주목할 만한 몇 가지 구조적 차이점입니다.4
Gemma 2는 신경망의 다른 모든 계층에서 로컬 슬라이딩 윈도우 어텐션과 글로벌 어텐션을 번갈아 사용합니다. 로컬 슬라이딩 윈도우 어텐션은 인풋 시퀀스의 특정 고정 크기 '윈도우'에 초점을 맞추는 동적 메커니즘으로, 모델이 한 번에 소수의 단어에만 집중할 수 있습니다. 반면 글로벌 어텐션은 시퀀스의 모든 토큰에 주의를 기울입니다.
Gemma 2는 쿼리를 더 작은 그룹으로 분할하고 각 그룹 내에서 개별적으로 어텐션을 계산하는 분할-정복 접근 방식인 그룹화 쿼리 어텐션을 사용합니다.
또한 Gemma 2 2B 및 9B 모델은 더 큰 모델의 추론 프로세스를 에뮬레이트하고 예측과 일치하도록 더 작은 모델을 학습시킴으로써 더 큰 모델의 지식을 더 작은 모델로 '증류'하는 지식 증류를 적용합니다.
모델이 명령을 더 잘 따르도록 준비하는 명령 조정 측면에서 Gemma와 Gemma 2 모두 인간 피드백을 통한 강화 학습(RLHF)을 적용합니다.4 감독된 미세 조정은 레이블이 지정된 명령 지향 과제의 예를 사용하여 모델에 응답을 구조화하는 방법을 가르칩니다. 반면, RLHF는 보상 모델을 사용하여 인간 평가자의 품질 평가를 수치 보상 신호로 변환하여 모델이 어떤 응답이 긍정적인 피드백을 얻는지 학습하도록 지원합니다.
코드 생성, 상식적 추론, 언어 이해, 수학적 추론 및 질의 응답을 아우르는 LLM 벤치마크로 Gemma 7B 성능을 평가한 결과, Llama 3 8B 및 Mistral 7B와 같은 유사한 규모의 SLM과 비슷한 수준으로 나타났습니다. Gemma 2 9B 및 27B는 성능이 더 뛰어나, 대부분 벤치마크에서 Llama 3 8B 및 Mistral 7B를 모두 능가했습니다.12
그러나 Meta와 Mistral의 최신 SLM인 Llama 3.2 3B와 Ministral 3B는 다양한 벤치마크에서 Gemma 2 2B를 능가했습니다.13 Microsoft의 38억개 매개변수 언어 모델인 Phi-3-mini도 Gemma 7B보다 더 높은 성능을 보였습니다.14
Gemma 모델은 다음 플랫폼을 통해 액세스할 수 있습니다.
Google AI Studio
Hugging Face(Hugging Face Transformers에도 통합됨)
Kaggle
Vertex AI Model Garden
개발자는 JAX, LangChain, PyTorch, TensorFlow 같은 오픈 소스 머신 러닝 프레임워크와 Keras 3.0 같은 애플리케이션 프로그래밍 인터페이스(API)를 통해 모델을 구현할 수 있습니다. 또한 Gemma에는 NVIDIA GPU 전반에 걸친 최적화가 포함되어 있기 때문에, 개발자는 NeMo 프레임워크를 포함한 NVIDIA 툴을 사용해 모델 및 TensorRT-LLM을 미세 조정하여 NVIDIA GPU에서 효율적인 추론이 가능하도록 최적화할 수 있습니다.
엔터프라이즈 AI 개발을 위해 Gemma 모델을 Google Cloud Vertex AI 및 Google Kubernetes Engine(GKE)에 배포할 수 있습니다. 컴퓨팅 능력이 제한적인 사용자를 위해 Google Colab은 GPU 및 TPU와 같은 컴퓨팅 리소스에 대한 무료 클라우드 기반 액세스를 제공합니다.
다른 AI 모델과 마찬가지로 Google Gemma는 다음과 같은 AI 모델의 위험과 계속 씨름하고 있습니다.
편향: 더 작은 모델은 더 큰 모델에 존재하는 편향으로부터 학습할 수 있으며, 이 도미노 효과는 결과에 반영될 수 있습니다.
할루시네이션: Gemma와 같은 SLM의 아웃풋을 검증 및 모니터링하는 것은 생성 결과가 정확하고 사실적으로 올바른지 확인하는 데 필수적입니다.
개인정보 보호 위반: Google은 Gemma 및 Gemma 2의 학습 데이터 세트가 특정 개인 정보 및 기타 민감한 데이터를 제거하기 위해 필터링되었음을 언급합니다.4 그러나 개인 사용자와 기업은 개인 또는 독점 데이터가 유출되지 않도록 Gemma를 미세 조정하는 데 사용하는 데이터에 여전히 주의해야 합니다.
안전 및 보안과 관련해, Google은 공격적 사이버 보안, CBRN(화학, 생물학, 방사선 및 핵) 지식, 자체 확산(자율적으로 복제하는 능력) 및 설득을 포함한 여러 메트릭에 대해 Gemma를 평가했습니다. CBRN 도메인에서 Gemma의 지식은 낮은 편입니다. 마찬가지로, 공격적 사이버 보안, 자체 확산 및 설득에서도 이 모델은 낮은 역량을 보였습니다.4
또한 Google은 AI 연구자와 개발자가 책임감 있고 안전한 AI 애플리케이션을 구축할 수 있도록 책임감 있는 생성형 AI 툴킷을 출시했습니다.1
모든 링크는 ibm.com 외부에 있습니다.
1 Gemma: 최신식 오픈 모델 소개, Google, 2024년 2월 21일
2 연구자와 개발자는 이제 Gemma 2를 사용할 수 있습니다, Google, 2024년 6월 27일
3 Gemma: Gemini 연구 및 기술 기반 개방형 모델, Google DeepMind, 2024년 2월 21일
4 Gemma 2: 실용적인 크기로 오픈 언어 모델 개선, Google DeepMind, 2024년 6월 27일
5 CodeGemma 모델 카드, 개발자를 위한 Google AI, 2024년 8월 5일
6 질문해야 할 때를 알기 — 대규모 언어 모델 및 데이터 연결, arXiv, 2024년 9월 10일
7 PaliGemma 모델 카드, 개발자를 위한 GoogleAI, 2024년 8월 5일
8 PaliGemma, 개발자를 위한 Google AI, 2024년 8월 5일
9 RecurrentGemma 모델 카드, 개발자를 위한 Google AI, 2024년 8월 5일
10 트랜스포머: 언어 이해를 위한 새로운 신경망 구조, Google Research, 2017년 8월 31일
11 Gemma 설명: Gemma 모델 패밀리 아키텍처 개요, 개발자를 위한 Google, 2024년 8월 15일
12 Gemma 개방형 모델, 개발자를 위한 Google AI, 2024년 11월 5일 액세스
13 Un Ministral, des Ministraux,Mistral AI, 2024년 10월 16일
14 Phi-3 소개: SLM으로 가능한 것의 재정의, Microsoft, 2024년 4월 23일
watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.