사전 학습된 모델은 특정 작업(일반적으로 범용)을 위해 대규모 데이터 세트에 대해 이전에 학습된 머신 러닝 모델로, 다른 관련 작업에 재사용하거나 미세 조정할 수 있습니다. 사전 학습된 모델은 처음부터 모델을 학습하는 것에 비해 개발 팀의 시간, 데이터, 컴퓨팅 리소스를 절약합니다.
광범위한 리소스, 인프라 및 전문 지식이 필요한 사전 학습된 모델은 일반적으로 대형 기술 회사, 교육 기관, 비영리 단체 및 오픈 소스 커뮤니티의 조합에 의해 구축됩니다. 모델에 수백만 개의 매개변수가 필요한 딥 러닝과 같은 분야에서 사전 학습된 모델은 실무자가 머신 러닝 애플리케이션을 구축할 때마다 '바퀴를 다시 발명'하지 않아도 되는 출발점을 제공합니다.
모델 학습은 최종 사용 사례와 관련된 샘플 작업의 데이터 세트에서 성능을 최적화하기 위해 머신 러닝 모델을 '가르칩니다'. 이 학습 데이터는 모델이 처리할 실제 문제와 유사해야 모델이 데이터의 패턴과 관계를 학습하여 새로운 데이터에 대한 정확한 예측을 수행할 수 있습니다.
이 학습 프로세스에는 모델의 매개변수, 기본 머신 러닝 알고리즘을 구성하는 수학적 함수의 가중치 및 편향을 조정하는 작업이 포함됩니다. 이러한 조정은 더 정확한 아웃풋을 얻기 위해 이루어집니다.
이 프로세스의 목표를 수학적으로 말하면 모델 아웃풋의 오류를 정량화하는 손실 함수를 최소화하는 것입니다. 아웃풋이 특정 임곗값 아래로 떨어지면 모델이 '학습된' 것으로 간주됩니다. 강화 학습에서는 목표가 반대로, 모델의 매개변수는 손실 함수를 최소화하기보다는 보상 함수를 최대화하도록 최적화됩니다.
모델 학습은 데이터 수집 및 전처리, 해당 학습 데이터를 모델에 공급, 손실 측정, 매개변수 최적화, 검증 데이터에서 성능 테스트의 주기를 수반합니다. 이 워크플로는 만족스러운 결과를 얻을 때까지 반복됩니다. 훈련을 위해서는 하이퍼매개변수 튜닝이라는 프로세스에서 하이퍼매개변수(학습 과정에 영향을 주지만 그 자체로는 '학습 가능'하지 않은 구조적 선택)를 조정해야 할 수도 있습니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
사전 학습된 모델의 주요 이점은 개발자가 처음부터 시작하지 않고 언어 구조 또는 시각적 모양과 같은 일반적인 기능을 이미 학습한 모델을 사용하며 더 작은 도메인별 데이터 세트에 맞게 미세 조정할 수 있다는 점입니다. 미세 조정은 여러 유형의 전이 학습 중 하나이며, 전이 학습이란 사전 학습된 모델을 새로운 용도에 맞게 조정하는 기술을 포괄적으로 지칭하는 용어입니다.
사전 학습된 모델을 사용하면 개발 속도가 빨라지고 충분한 컴퓨팅, 데이터 또는 인프라에 액세스할 수 없는 스타트업과 같은 소규모 기업도 최첨단 모델을 실험할 수 있습니다. 이는 기성복을 구입한 다음 착용자의 개별 체형에 맞게 맞춤 제작하는 것과 같습니다.
사전 학습된 모델을 사용하면 실무자가 실제 시나리오에서 이미 검증, 벤치마킹 및 테스트된 아키텍처에 액세스할 수 있습니다. 이를 통해 위험을 줄이고 안정성을 확보할 수 있습니다. 널리 사용되는 사전 학습된 모델은 개별 프로젝트에 맞게 모델을 조정하는 데 사용할 수 있는 광범위한 문서, 튜토리얼, 코드와 함께 제공됩니다.
수많은 조직에서 사전 학습된 대규모 언어 모델(LLM)을 사용하여 질문 답변, 감정 분석, 시맨틱 분할, 생성형 AI 등과 같은 자연어처리(NLP) 사용 사례를 발전시키고 있습니다. 이 긴 LLM 목록에는 가장 인기 있는 모델이 다수 포함되어 있습니다. 다른 AI 모델은 객체 감지 및 이미지 분류 모델과 같은 컴퓨팅 비전에 특화되어 있습니다.
이미지 기반 모델 분야에서 가장 초기의 가장 영향력 있는 리소스 중 하나는 컴퓨팅 비전의 업계 벤치마크가 된 대규모 데이터 세트인 ImageNet입니다. ImageNet을 기반으로 학습된 ResNet 및 Inception과 같은 아키텍처는 컴퓨팅 비전 워크플로의 기반이 됩니다. 이러한 모델은 새 이미지를 분류하는 데 유용한 가장자리, 질감, 모양을 식별하는 특징 추출에 탁월합니다.
조직에서 사전 학습된 모델을 호스팅하는 여러 모델 허브와 라이브러리가 있습니다. 가장 두드러진 몇 가지 예는 다음과 같습니다.
PyTorch Hub는 연구 재현성을 용이하게 하고 Python의 PyTorch 에코시스템 내에서 사전 학습된 모델의 사용을 간소화하도록 설계된 사전 학습된 모델 리포지토리입니다.
TensorFlow Hub는 미세 조정이 가능하고 어디에나 배포할 수 있는 훈련된 모델의 저장소입니다. BERT 모델과 Faster R-CNN(콘볼루션 신경망)은 몇 줄의 코드만으로 재사용할 수 있습니다.
Hugging Face Models는 NLP 및 비전 모델에 중점을 두고 있으며, 추론 및 학습을 위한 도구 및 튜토리얼과 함께 BERT, GPT 등과 같은 최첨단 모델에 대한 액세스를 제공합니다. 사전 학습된 모델의 IBM® Granite 제품군은 모두 Hugging Face에서 찾을 수 있습니다. 이러한 모델은 개방적이고 성능이 뛰어나며 신뢰할 수 있을 뿐만 아니라 비즈니스 사용 사례에 최적화되어 있습니다. Granite에는 언어, 비전, 음성, 시계열 등 다양한 애플리케이션에 대한 모델이 포함되어 있습니다.
Kaggle은 데이터 과학 및 머신 러닝을 위한 플랫폼으로, 대회, 데이터 세트, 협업 및 학습 커뮤니티를 위한 공간을 제공합니다.
GitHub는 개발자가 코드를 생성, 저장, 관리, 공유할 수 있는 독점적인 개발자 플랫폼입니다. 많은 연구자와 기업이 코드, 가중치, 문서와 함께 사전 학습된 모델을 GitHub 리포지터리에 릴리스합니다.
NVIDIA NGC Catalog는 컴퓨팅 비전, 의료 영상, 음성 AI를 포함한 GPU 가속에 최적화된 사전 학습된 모델을 제공합니다.
OpenAI Models는 API를 통해 ChatGPT 챗봇, Codex, DALL-E 등 GPT라고도 하는 사전 학습된 생성형 트랜스포머 모델을 제공합니다. OpenAI API나 Azure OpenAI와 같은 플랫폼을 통해 직접 다운로드하는 것이 아니라 클라우드 기반으로 액세스가 이루어집니다.
KerasHub는 간단하고 유연하며 빠른 것을 목표로 하는 사전 학습된 모델 라이브러리로, 널리 사용되는 아키텍처의 Keras 3 구현을 제공합니다.
watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.