파운데이션 모델이란 무엇인가요?

파운데이션 모델이란 무엇인가요?

파운데이션 모델은 방대한 데이터 세트를 기반으로 훈련된 AI 모델이며 광범위한 일반 작업을 수행할 수 있습니다. 이들은 더 전문화된 애플리케이션을 제작하기 위한 기본 또는 빌딩 블록 역할을 합니다.

이러한 유연성과 방대한 규모는 객체 감지나 트렌드 예측과 같은 특정 작업을 수행하기 위해 소규모 데이터 세트를 훈련하는 기존 머신 러닝 모델과 차별화됩니다. 반면, 파운데이션 모델은 한 작업에서 습득한 지식을 다른 작업에 적용하기 위해 전이 학습을 사용합니다. 따라서 컴퓨팅 비전, 자연어 처리(NLP)음성 인식을 포함한 더 광범위한 도메인에 적합합니다.

스탠포드 대학교의 파운데이션 모델 연구 센터와 인간 중심 인공지능 연구소의 연구원들은 2021년 논문에서 '파운데이션 모델'이라는 용어를 만들었습니다. 그들은 이러한 모델을 '패러다임 전환'으로 특징짓고 그 명명 뒤에 숨은 이유를 설명합니다. "[A] 파운데이션 모델은 그 자체로 불완전하지만 적응을 통해 많은 작업별 모델이 구축되는 공통 기반 역할을 합니다. 또한 건축의 안정성, 안전 및 보안의 중요성을 강조하기 위해 '기초'라는 용어를 선택했습니다. 잘못 시공된 기초는 재앙의 원인이 되고, 잘 시공된 기초는 미래의 애플리케이션을 위한 신뢰할 수 있는 기반이 됩니다."1

파운데이션 모델은 어떻게 작동하나요?

파운데이션 모델을 구축하려면 기존 머신 러닝 모델을 개발하는 것과 유사한 일련의 단계가 포함되는 경우가 많습니다.

  1. 데이터 수집
  2. 모달리티 선택
  3. 모델 아키텍처 정의
  4. 교육
  5. 평가

1. 데이터 수집

첫 번째 단계는 다양한 소스에서 방대한 양의 데이터를 수집하는 것입니다. 파운데이션 모델은 레이블이 지정되지 않은 비정형 데이터의 광범위한 스펙트럼을 통해 패턴을 추론하고, 관계를 인식하고, 문맥을 식별하고, 지식을 일반화할 수 있습니다.

2. 모달리티 선택

양식은 오디오, 이미지, 소프트웨어 코드, 텍스트 및 비디오를 포함하여 모델이 처리할 수 있는 데이터 유형을 나타냅니다. 파운데이션 모델은 단일모드 또는 다중 모드일 수 있습니다. 유니모달 모델은 텍스트 입력 수신 및 아웃풋 생성과 같은 단일 유형의 데이터를 처리하도록 설계되었습니다. 멀티모달 모델은 텍스트 프롬프트를 받아 이미지를 생성하거나 음성 녹음에서 작성된 전사본을 생성하는 등 여러 모달리티의 정보를 결합할 수 있습니다.

3. 모델 아키텍처 정의

많은 파운데이션 모델은 다층 신경망을 사용하여 인간 두뇌의 의사 결정 과정을 모방하는 딥 러닝 아키텍처를 사용합니다.

트랜스포머 모델이라고 알려진 딥 러닝 모델의 한 유형은 파운데이션 모델, 특히 생성형 사전 훈련 트랜스포머(GPT) 모델 라인과 같은 NLP용 모델에 선택되는 아키텍처였습니다. 다음은 트랜스포머 아키텍처에 대한 간략한 개요입니다.

  • 인코더는 인풋 시퀀스를 임베딩이라는 숫자 표현으로 변환하여 인풋 시퀀스에서 토큰의 의미와 위치를 포착합니다.

  • 셀프 어텐션 메커니즘을 통해 트랜스포머는 위치에 관계 없이 인풋 시퀀스에서 가장 중요한 토큰에 '주의를 집중'할 수 있습니다.

  • 디코더는 이 셀프 어텐션 메커니즘과 인코더의 임베딩을 사용하여 통계적으로 가장 확률이 높은 아웃풋 시퀀스를 생성합니다.

확산 모델은 파운데이션 모델에서 구현되는 또 다른 아키텍처입니다. 확산 기반 신경망은 무작위 노이즈로 훈련 데이터를 점진적으로 '확산'한 다음 해당 확산 프로세스를 역전시켜 원본 데이터를 재구성하는 방법을 학습합니다. 확산 모델은 주로 Google의 Imagen, OpenAI의 DALL-E(DALL-E 2부터 시작), Stability AI의 Stable Diffusion과 같은 텍스트-이미지 파운데이션 모델에 사용됩니다.

4. 훈련

훈련에는 일반적으로 파운데이션 모델이 레이블이 지정되지 않은 데이터에서 내재된 상관관계를 학습하는 자기 지도 학습이 수반됩니다. 따라서 훈련은 예측 오류를 최소화하도록 모델 가중치를 조정하고 학습을 위한 최적의 구성 변수를 찾도록 하이퍼파라미터를 조정하여 여러 반복에 걸쳐 진행됩니다. 정규화 방법을 적용하여 과적합(모델이 훈련 데이터에 너무 가깝거나 정확히 일치하는 경우)을 수정하고 파운데이션 모델의 일반화 능력을 개선할 수도 있습니다.

5. 평가

표준화된 벤치마크를 사용하여 파운데이션 모델의 성능을 검증할 수 있습니다. 이러한 평가의 결과는 추가적인 개선 또는 성능 최적화를 위한 정보를 제공할 수 있습니다.

파운데이션 모델 조정

파운데이션 모델을 처음부터 개발하는 것은 비용이 많이 들고 계산 집약적이며 시간이 많이 소요되는 프로세스일 수 있습니다. 그렇기 때문에 기업은 특정 요구 사항에 맞게 기존 파운데이션 모델을 조정하는 것을 고려할 수 있습니다. 이러한 모델은 API(애플리케이션 프로그래밍 인터페이스)를 통해 또는 모델의 로컬 복사본을 사용하여 액세스할 수 있습니다.

적응에 대한 두 가지 일반적인 접근 방식은 다음과 같습니다.

미세 조정

미세 조정 중에 사전 훈련된 파운데이션 모델은 일반 지식을 특정 작업에 맞게 조정합니다. 여기에는 레이블이 지정된 예시가 포함된 더 작은 도메인별 또는 작업별 데이터 세트에 대한 지도 학습을 사용하는 추가 훈련이 포함됩니다. 모델의 매개변수는 작업의 성능을 최적화하기 위해 업데이트됩니다.

미세 조정은 모델의 매개변수를 변경하므로 모델이 다른 작업에서 수행하는 방식에 영향을 줄 수 있습니다. 레이블이 지정된 데이터 세트를 만드는 것 역시 지루한 과정입니다.

프롬프트

이 방법에는 특정 작업에 맞게 파운데이션 모델을 조정하라는 프롬프트를 제공하는 것이 수반됩니다. 프롬프트는 모델을 안내하는 작업 관련 지침이나 작업 관련 예시의 형태로 제공되며, 이를 통해 모델은 맥락을 얻고 그럴듯한 아웃풋을 생성할 수 있습니다. 이러한 능력을 맥락 내 학습이라고 합니다.

프롬프트는 모델을 훈련시키거나 매개변수를 변경할 필요는 없지만, 모델이 컨텍스트를 이해하고 적절한 예측을 할 수 있도록 조건을 설정하는 올바른 프롬프트를 얻으려면 여러 번 시도해야 할 수 있습니다.

파운데이션 모델 사용 사례

파운데이션 모델의 적응성과 범용 특성은 다양한 실제 애플리케이션에 구현될 수 있음을 의미합니다. 

  • 컴퓨팅 비전

  • 자연어 처리

  • 의료 서비스

  • 로봇 공학

  • 소프트웨어 코드 생성

컴퓨팅 비전

파운데이션 모델을 사용하여 이미지를 생성 및 분류하고 객체를 감지, 식별 및 설명할 수 있습니다. DALL-E, Imagen 및 Stable Diffusion은 텍스트-이미지 파운데이션 모델의 예입니다.

자연어 처리

대규모 언어 모델(LLM)은 NLP와 자연어 이해(NLU) 분야에서 탁월한 파운데이션 모델 클래스입니다. 이들의 능력에는 질문 답변, 텍스트 요약, 전사, 번역 및 비디오 캡션 등이 포함됩니다.

다음은 NLP 분야에서 널리 사용되는 몇 가지 파운데이션 모델입니다.

  • BERT (Bidirectional Encoder Representations from Transformers)는 최초의 파운데이션 모델 중 하나였습니다. 2018년에 Google에서 출시한 이 오픈 소스 AI 시스템은 일반 텍스트 말뭉치로만 학습되었습니다.2

  • BLOOM은 46개 언어로 훈련된 오픈 액세스 다국어 언어 모델입니다. 이는 Hugging Face와 AI 연구원 커뮤니티인 BigScience의 공동 노력의 결과입니다.3

  • Claude는 고급 추론 및 다국어 처리 능력을 갖춘 Anthropic의 파운데이션 모델 제품군입니다.

  • OpenAI의 파운데이션 모델인 GPT는 자사의 생성형 AI 챗봇인 ChatGPT의 근간을 이루고 있습니다. GPT-3.5는 ChatGPT의 무료 버전을 지원하고 GPT-4는 프리미엄 버전을 지원합니다. GPT-4 시리즈는 Microsoft의 Copilot AI 어시스턴트를 지원하는 생성형 AI 모델이기도 합니다.

  • Granite는 디코더 전용 트랜스포머 아키텍처를 기반으로 하는 IBM의 주력 LLM 파운데이션 모델 시리즈입니다. Granite 13b 채팅 모델은 대화 사용 사례에 최적화되어 있으며 가상 에이전트 및 채팅 앱과 잘 작동합니다. Granite 다국어 모델은 영어, 독일어, 스페인어, 프랑스어, 포르투갈어 텍스트를 이해하고 생성하도록 훈련되었습니다.

  • PaLM 2는 다국어 및 추론 기능이 강화된 Google의 차세대 언어 모델입니다.

의료

의료 분야에서 파운데이션 모델은 다양한 업무에 도움이 될 수 있습니다. 환자 방문 요약 작성 및 의학 문헌 검색부터 환자 질문에 대한 답변, 임상시험 환자 매칭, 약물 발견 촉진에 이르기까지 다양한 작업을 수행할 수 있습니다. 예를 들어 Med-PaLM 2 언어 모델은 의학적인 질문에 답할 수 있으며, Google은 의료 이미지에서 정보를 합성할 수 있는 멀티모달 버전을 설계하고 있습니다.4

로봇 공학

로보틱스 분야에서 파운데이션 모델은 로봇이 새로운 환경에 빠르게 적응하고 다양한 작업, 시나리오 및 기계 구현을 일반화하는 데 도움이 될 수 있습니다. 예를 들어, PaLM-E로 구현된 멀티모달 언어 모델은 PaLM의 언어 및 시각 영역에서 로보틱 시스템으로 지식을 전달하고 로봇 센서 데이터에 대해 훈련됩니다5

소프트웨어 코드 생성

파운데이션 모델은 다양한 프로그래밍 언어로 코드를 완료, 디버깅, 설명 및 생성하는 데 도움이 될 수 있습니다. 이러한 텍스트-코드 파운데이션 모델에는 Anthropic의 Claude, Google의 Codey 및 PaLM 2와 116개 프로그래밍 언어로 훈련된 IBM의 Granite Code 모델 제품군이 포함됩니다.

옵션이 이렇게 많은데, 조직은 AI 개발에 적합한 파운데이션 모델을 어떻게 선택할 수 있을까요? 다음은 도움이 될 수 있는 6단계 AI 모델 선택 프레임워크입니다.

파운데이션 모델의 이점

파운데이션 모델을 기반으로 구축하면 기업의 자동화와 혁신으로 이어질 수 있습니다. 다음은 파운데이션 모델에서 비즈니스가 얻을 수 있는 다른 이점입니다.

가치 실현 시간 및 확장 시간 단축: 기존 모델을 채택하면 개발 및 사전 훈련 단계가 필요하지 않으므로 기업은 미세 조정된 모델을 신속하게 사용자 지정하고 배포할 수 있습니다.

데이터에 대한 액세스: 조직은 수집할 수단이 없는 사전 훈련을 위해 대량의 데이터를 수집할 필요가 없습니다.

기준 정확도 및 성능: 파운데이션 모델은 이미 정확도와 성능에 대한 평가를 거쳤으며, 고품질의 시작점을 제공합니다.

비용 절감: 기업은 파운데이션 모델을 처음부터 만드는 데 필요한 리소스를 지출할 필요가 없습니다.

파운데이션 모델의 과제

다른 AI 모델과 마찬가지로 파운데이션 모델도 여전히 AI의 위험에 맞서 싸우고 있습니다. 이것은 내부 워크플로 또는 상업용 AI 애플리케이션을 지원하는 기술로서 파운데이션 모델을 고려하는 기업이 염두에 두어야 할 요소입니다.

편향: 모델은 훈련 데이터에 존재하는 인간의 편향으로부터 학습할 수 있으며, 이러한 편향은 미세 조정된 모델의 아웃풋으로 흘러내릴 수 있습니다.

컴퓨팅 비용: 기존 파운데이션 모델을 사용하려면 여전히 상당한 메모리, GPU(그래픽 처리 장치)와 같은 고급 하드웨어 및 파운데이션 모델을 미세 조정, 배포 및 유지 관리를 위한 기타 컴퓨팅 리소스가 필요합니다.

데이터 프라이버시 및 지적 재산: 파운데이션 모델은 소유자의 동의나 모르게 얻은 데이터로 학습될 수 있습니다. 알고리즘에 데이터를 입력할 때는 타인의 저작권을 침해하거나 개인 식별 정보 또는 독점적인 비즈니스 정보가 노출되지 않도록 주의하세요.

환경적 피해: 대규모 파운데이션 모델을 훈련하고 운영하는 데는 많은 에너지가 소모되는 계산이 필요하며, 이는 탄소 배출량과 물 소비량을 증가시킵니다.

할루시네이션: AI 파운데이션 모델이 사실적으로 올바른 아웃풋을 생성하는지 확인하려면 AI 파운데이션 모델의 결과를 검증하는 것이 필수적입니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

AI 아카데미

파운데이션 모델이 AI 패러다임의 전환을 가져오는 이유

새로운 수익을 창출하고 비용을 절감하며 생산성을 높일 수 있는, 유연하고 재사용 가능한 새로운 AI 모델을 살펴봅니다. 그다음, 가이드북을 통해 보다 심층적으로 알아봅니다.

관련 솔루션
파운데이션 모델

watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

IBM watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.

watsonx.ai 살펴보기 AI 솔루션 살펴보기
각주

1 On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models and Stanford Institute for Human-Centered Artificial Intelligence, 2021년

2 Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing, Google Research, 2018년 11월 2일

3 BigScience Large Open-science Open-access Multilingual Language Model, Hugging Face, 2022년 7월 6일

4 Med-PaLM, Google Research, 2024년 10월 8일 액세스

5 PaLM-E: An embodied multimodal language model, Google Research, 2023년 3월 10일