Google Gemini란 무엇인가요?

사람과 장비로 가득 찬 고다드 우주 센터의 흑백 사진.

작성자

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Google Gemini란 무엇인가요?

Gemini는 Google의 대규모 언어 모델(LLM)로, 보다 광범위하게는 오디오, 이미지, 소프트웨어 코드, 텍스트 및 비디오를 비롯한 다양한 양식 또는 유형의 데이터를 처리하도록 설계된 멀티모달 AI 모델 제품군입니다.

Gemini는 동명의 Google 생성형 AI(gen AI) 챗봇(구 Bard)을 구동하는 모델이기도 합니다. 이는 Anthropic의 Claude가 챗봇의 이름인 동시에 챗봇을 뒷받침하는 LLM 제품군의 이름인 것과 같습니다. Gemini 앱은 웹과 모바일 모두에서 기본 모델의 챗봇 인터페이스 역할을 합니다.

Google은 자사 기술 제품군에 Gemini 챗봇을 점진적으로 통합하고 있습니다. 예를 들어, Gemini는 Google Assistant 대신 최신 Google Pixel 9 및 Pixel 9 Pro 휴대폰의 기본 인공 지능(AI) 어시스턴트로 도입되습니다. Google Workspace에서는 Gemini가 Docs 사이드 패널에서 콘텐츠를 작성하고 수정하는 일을 돕고, Gmail 사이드 패널에서 이메일 초안 작성, 답변 추천, 사용자의 받은편지함에서 내 정보 검색에 도움을 줍니다.

다른 Google 앱도 Gemini를 통합하고 있습니다. 예를 들어 Google 지도는 Gemini 모델의 기능을 활용하여 장소와 지역에 대한 요약을 제공합니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

Google Gemini의 작동 방식

Gemini는 방대한 다국어 및 다중 모드 데이터 세트로 훈련을 받았습니다. Google이 2017년에 도입한 신경망 아키텍처인 트랜스포머 모델을 사용합니다.1

트랜스포머 모델의 작동 방식에 대한 간략한 개요는 다음과 같습니다.

  • 인코더는 인풋 시퀀스를 임베딩이라는 숫자 표현으로 변환하여 인풋 시퀀스에서 토큰의 의미와 위치를 포착합니다.

  • 셀프 어텐션 메커니즘을 통해 트랜스포머는 위치에 관계 없이 인풋 시퀀스에서 가장 중요한 토큰에 '주의를 집중'할 수 있습니다.

  • 디코더는 이 셀프 어텐션 메커니즘과 인코더의 임베딩을 사용하여 통계적으로 가장 확률이 높은 아웃풋 시퀀스를 생성합니다.

텍스트 기반 프롬프트만 수신하는 생성형 사전 학습 트랜스포머(GPT) 모델 또는 텍스트와 이미지 프롬프트를 모두 수신하는 이미지 생성용 확산 모델과 달리, Google Gemini는 오디오, 이미지, 텍스트, 비디오가 혼합된 시퀀스를 입력으로 지원하며 혼합된 텍스트 및 이미지 아웃풋을 생성할 수 있습니다.2

Gemini AI 모델 버전

Gemini의 멀티모달 AI 모델 제품군은 다양한 변형으로 제공됩니다. 각 변형은 다양한 장치와 작업에 최적화되어 있습니다.

Gemini의 1세대 모델인 1.0은 Nano와 Ultra로 제공됩니다. 차세대 모델인 1.5는 Pro 및 Flash로 제공됩니다.

Google AI Sudio 및 Google Cloud Vertex AI 개발 플랫폼의 Gemini API를 통해 Gemini의 AI 특징과 기능을 구축하고 실험할 수 있습니다. 현재로서는 Gemini 1.5 Pro와 Gemini 1.5 Flash만 사용할 수 있습니다.

Gemini 1.0 Nano

Gemini 1.0 Nano는 데이터 네트워크 없이도 모바일 기기에서 작동하도록 설계된 1.0 제품군의 가장 작은 버전입니다. 이미지 설명, 채팅 메시지에 대한 답변 추천, 텍스트 요약 , 음성 변환 등의 장치 내 작업을 수행할 수 있습니다.

Gemini Nano는 Pixel 8 Pro 이상이 탑재된 Android 기기에서 사용할 수 있습니다. Google은 모바일 전용이라는 제한을 넘어 Gemini Nano를 Chrome 데스크톱 클라이언트에 통합하고 있습니다.

Gemini 1.0 Ultra

Gemini 1.0 Ultra는 능력을 갖춘 1.0 제품군 중 가장 큰 버전입니다. 이 버전은 코딩, 수학적 추론 및 다중 모드 추론과 같은 매우 복잡한 작업을 위해 제작되었습니다. Gemini Nano와 Gemini Ultra 모두 컨텍스트 창(모델이 한 번에 처리할 수 있는 토큰 수)이 토큰 32,000 토큰입니다.2

Gemini 2.0 Pro

Gemini 1.5 Pro는 최대 200만 토큰의 컨텍스트 창을 갖춘 중형 멀티모달 모델입니다. Gemini Pro는 이 긴 컨텍스트 창을 통해 몇 시간 분량의 오디오 및 비디오부터 수천 줄의 코드 또는 수백 페이지의 문서에 이르기까지 더 큰 규모로 정보를 처리할 수 있습니다.3

Gemini 1.5 Pro는 트랜스포머 아키텍처 외에도 Mixture of Experts(MoE) 아키텍처를 적용합니다. MoE 모델은 각각 특정 도메인 또는 데이터 유형을 전문으로 하는 더 작은 '전문가' 신경망으로 분할됩니다. 이 모델은 입력 유형에 따라 가장 관련성이 높은 전문가만 선택적으로 활성화하는 방법을 학습합니다. 이를 통해 계산 비용을 줄이는 동시에 더 빠른 성능을 얻을 수 있습니다.4

Gemini 2.0 Flash

Gemini 1.5 Flash는 Gemini Pro의 가벼운 버전입니다. 이 버전은 지식 증류라는 머신 러닝(ML) 기술을 사용하여 훈련되었으며, 이 기술을 통해 Gemini 1.5 Pro의 인사이트가 더 작은 Gemini 1.5 Flash로 전송되었습니다. 또한 이 버전은 최대 100만 토큰을 포함하는 긴 컨텍스트 창을 제공하지만 지연 시간이 짧아 더 빠르고 효율적입니다.3

Google Gemini의 간략한 역사

Google은 LLM 아키텍처의 선구자이며, 강력한 연구를 바탕으로 자체적인 AI 모델을 개발하고 있습니다.

  • 2017년: Google 연구원들이 오늘날 많은 LLM의 기반이 되는 트랜스포머 아키텍처를 발표했습니다.

  • 2020년: Google이 26억 개의 매개변수를 갖춘 신경망 기반 대화형 에이전트인 Meena 챗봇을 출시했습니다.5

  • 2021년: Google이 대화형 LLM인 LaMDA(Language Model for Dialogue Applications)를 공개했습니다.6

  • 2022년: LaMDA에 비해 더 발전된 기능을 갖춘 PaLM(Pathways Language Model)이 출시되었습니다.7

  • 2023년: LaMDA의 경량적이고 최적화된 버전으로 뒷받침된 Bard 출시가 1분기에 시작되었습니다.8 2분기에는 향상된 코딩, 다국어 및 추론 기술을 갖춘 PaLM 2가 출시되고 Bard에 도입되었습니다.9 Google은 올해 마지막 분기에 Gemini 1.0을 발표했습니다.

  • 2024: Google은 Bard의 이름을 Gemini로 변경하고 AI 모델을 버전 1.5로 업그레이드했습니다.

"쌍둥이자리"라는 단어는 라틴어로 "쌍둥이"를 의미하며, 12궁도의 일부이자 별자리입니다. Gemini 모델이 DeepMind와 Google Brain 팀의 힘을 합친 Google DeepMind의 아이디어라는 점을 감안하면 이는 적절한 이름입니다. 이 회사는 또한 아폴로 임무의 성공에 필수적인 2인승 우주선인 NASA의 프로젝트 Gemini(Project Gemini)에서 영감을 얻었습니다.10

Gemini의 성능

Gemini Ultra는 다양한 LLM 벤치마크에서 비슷한 모델을 능가합니다. 수학적 추론을 위한 GSM8K, 코드 생성을 위한 HumanEval, 자연어 이해를 위한 MMLU와 같은 벤치마크에서 Claude 2, GPT-4 및 Llama를 능가했습니다.2

특히 Gemini Ultra는 MMLU에서 인간 전문가의 성능조차 능가했습니다. 그러나 상식적 추론과 자연어 추론을 위한 HellaSwag 벤치마크에서는 GPT-4가 여전히 Gemini Ultra보다 더 나은 성능을 보였습니다.2

Google은 Gemini Ultra의 멀티모달 기능도 평가했습니다. 그 결과, Gemini Ultra는 문서 이해, 이미지 이해 및 자동 음성 인식 벤치마크에서 다른 모델보다 더 높은 성능을 보였습니다. 자동 음성 번역, 영어 비디오 자막, 다중 모드 이해 및 추론, 비디오 질의응답 부문에서 LLM을 앞질렀음에도 불구하고, Gemini Ultra의 성능은 여전히 개선의 여지가 있습니다.2

한편, Gemini 1.5 Flash와 Gemini 1.5 Pro의 성능은 Gemini 1.0 Ultra의 성능과 비슷하거나 더 우수합니다.11 Gemini 1.5 Pro는 컨텍스트 창이 커지더라도 높은 수준의 성능을 유지합니다.4

Gemini 사용 사례

Google Gemini는 아직 초기 단계이지만, 이 고성능 AI 모델은 다양한 애플리케이션에 구현할 수 있는 잠재력을 가지고 있습니다.

  • 고급 코딩

  • 이미지 및 텍스트 이해

  • 언어 번역

  • 멀웨어 분석

  • 개인화된 AI 전문가

  • 범용 AI 에이전트

  • 음성 어시스턴트

고급 코딩

Gemini AI 모델은 C++, Java, Python과 같은 프로그래밍 언어에서 작동하여 코드를 이해하고, 설명하고, 생성할 수 있습니다. Google은 이론적 컴퓨터 과학과 복잡한 수학의 요소로 경쟁 프로그래밍 문제를 해결할 수 있는 코드 생성 시스템인 AlphaCode2를 개발하기 위한 파운데이션 모델로 Gemini Pro의 미세 조정된 버전을 사용했습니다.

이미지 및 텍스트 이해

Gemini는 이미지와 캡션 이미지에서 텍스트를 추출하는 데 사용할 수 있습니다. 텍스트 이미지를 기계가 읽을 수 있는 형식으로 변환하는 광학 문자 인식 (OCR) 도구를 사용하지 않고도 차트, 다이어그램 및 그림과 같은 시각 자료를 분석할 수 있습니다.

언어 번역

기능을 갖춘 Google의 AI 모델은 다양한 언어를 번역하는 데 사용할 수 있습니다. 예를 들어 Meet 화상 회의 앱에서 사용자는 번역된 자막을 사용 설정하여 특정 언어로 번역할 수 있습니다.

멀웨어 분석

Gemini 1.5 Pro와 Gemini 1.5 Flash는 모두 멀웨어 분석에 사용할 수 있습니다. Gemini Pro는 파일이나 코드 조각이 악성인지 여부를 정확하게 판단하고 결과에 대한 자세한 보고서를 생성할 수 있습니다.12 한편, Gemini Flash는 신속하고 대규모 멀웨어 해부를 수행할 수 있습니다.13

개인화된 AI 전문가

Google은 최근 사용자가 Gemini 챗봇을 사용자 정의하여 모든 작업이나 주제에 대한 맞춤형 AI "전문가"를 만들 수 있는 Gems라는 새로운 기능을 출시했습니다. 사전 제작된 Gems의 몇 가지 예로는 복잡한 주제를 세분화하고 이해하기 쉽게 만드는 데 도움이 되는 학습 코치, 다음 비디오에 대한 신선한 아이디어를 제공하는 브레인스토밍 파트너, 문법 및 구조에 대한 피드백을 제공하는 글쓰기 편집기가 있습니다.

Gems는 Gemini 1.5 Pro 모델을 사용하는 Gemini Advanced 구독과 함께 제공됩니다.

범용 AI 에이전트

Google은 Project Astra를 통해 Gemini 모델을 기반으로 멀티모달 정보를 실시간으로 처리, 기억, 이해할 수 있는 범용 AI 에이전트를 개발하고 있습니다. 재현율과 효율성을 개선하기 위해 Project Astra는 캐싱, 비디오 프레임의 연속 인코딩을 활용하고 음성 및 비디오 입력을 이벤트 타임라인에 결합합니다.14

Google의 데모 중 하나에서 Gemini AI 어시스턴트는 스피커의 부품을 설명하고, 사람이 있는 동네를 인식하고, 안경을 어디에 두었는지 기억할 수 있었습니다.14

음성 어시스턴트

Gemini Live를 통해 사용자는 Gemini 챗봇과 보다 자연스럽고 대화적인 대화를 나눌 수 있습니다. 또한 보다 직관적인 응답을 제공하고 개인의 대화 스타일에 적응할 수 있습니다.

Gemini의 위험

다른 LLM과 마찬가지로 Google Gemini는 계속해서 AI의 위험에 맞서 싸우고 있습니다. 특히 Gemini를 사용하려는 개인과 상업적 사용 또는 워크플로에 통합하기 위해 모델을 고려하는 조직의 경우 주의가 필요합니다.

편향: 2024년 2월, Google은 역사적 인물을 부정확하게 묘사하여 인종 편견의 역사를 삭제하는 문제로 인해 Gemini 챗봇의 인간 이미지 생성 기능을 일시 중지하기로 결정했습니다.15

할루시네이션: 이 글을 쓰는 시점에서 Gemini 기반 AI 개요 검색 결과는 여전히 사실과 다른 아웃풋을 생성하는 경우가 있습니다.

지적 재산권 위반: Google은 자사의 AI 챗봇이 프랑스 내 게시자의 인지나 동의 없이 뉴스 기사와 콘텐츠를 사용하여 훈련되었다는 이유로 프랑스 규제 당국으로부터 벌금을 부과받았습니다.16

관련 솔루션
파운데이션 모델

watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

IBM watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.

watsonx.ai 살펴보기 AI 솔루션 살펴보기
각주

1 Transformer: A Novel Neural Network Architecture for Language Understanding, Google Research, 2017년 8월 31일.

2 Gemini: A Family of Highly Capable Multimodal Models, Google DeepMind, 2024년 9월 16일 액세스.

3 Gemini Models, Google DeepMind, 2024년 9월 16일 액세스

4 Our next-generation model: Gemini 1.5, Google, 2024년 2월 15일

5 Towards a Conversational Agent that Can Chat About…Anything, Google Research, 2020년 1월 28일

6 LaMDA: our breakthrough conversation technology, Google, 2021년 5월 18일.

7 Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance, Google Research, 2022년 4월 4일.

8 Try Bard and share your feedback, Google, 2023년 3월 21일.

9 Introducing PaLM 2, Google, 2023년 5월 10일.

10 How Google’s AI model Gemini got its name, Google, 2024년 5월 15일.

11 Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context, Google DeepMind, 2024년 9월 16일 액세스.

12 From Assistant to Analyst: The Power of Gemini 1.5 Pro for Malware Analysis, Google Cloud, 2024년 4월 30일.

13 Scaling Up Malware Analysis with Gemini 1.5 Flash, Google Cloud, 2024년 7월 16일.

14 Project Astra, Google DeepMind, 2024년 9월 16일 액세스.

15 Google chief admits ‘biased’ AI tool’s photo diversity offended users, The Guardian, 2024년 2월 28일.

16 Google fined €250m in France for breaching intellectual property deal, The Guardian, 2024년 3월 20일.