업계 뉴스레터
전문가가 전하는 최신 AI 트렌드
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
머신 러닝에서의 모델 선택은 선택한 작업에 가장 적합한 머신 러닝 모델(ML 모델)을 선택하는 프로세스입니다. 선택된 모델은 일반적으로 관련 모델 성능 지표를 가장 성공적으로 충족하면서도, 보이지 않는 데이터를 가장 잘 일반화하는 모델입니다.
ML 모델 선택 프로세스는 후보 풀의 다양한 모델을 비교하는 프로세스입니다. 머신 러닝 전문가는 각 ML 모델의 성능을 평가한 다음, 일련의 평가 지표를 기반으로 최상의 모델을 선택합니다.
대부분의 머신 러닝 작업의 핵심은 데이터의 패턴을 인식하고 이를 기반으로 새로운 데이터를 예측하는 것입니다. 가장 성능이 좋은 예측 모델을 선택하면 예측의 정확도가 높아지고 ML 애플리케이션의 안정성도 높아집니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
AI 모델 선택은 머신 러닝 시스템이 얼마나 잘 작동하는지를 결정하기 때문에 중요합니다. 다양한 모델에는 각각 강점과 약점이 있으며 올바른 모델을 선택하는 것은 프로젝트 성공에 직접적인 영향을 미칩니다. 모델 선택은 ML 모델을 생성하고 배포하기 위한 대규모 머신 러닝 파이프라인의 초기 단계입니다.
일부 작업에는 대규모 데이터 세트의 세부 정보를 캡처할 수 있는 복잡한 모델이 필요하지만, 이러한 모델은 새 데이터에 대한 일반화에 어려움을 겪을 수 있습니다. 컴퓨팅 및 리소스 요구 사항도 높아질 수도 있습니다. 다른 작업은 하나의 특정 목적을 위해 설계된 더 작고 간단한 모델에 더 적합합니다.
작업에 적합한 모델을 선택하면 다음과 같은 이점을 얻을 수 있습니다.
효율성 최적화: 모든 후보 모델 중 가장 강력한 모델은 성능과 일반화 가능성, 복잡성 및 리소스 사용 간의 균형을 맞춥니다.
모델 성능 극대화: 도구의 성능은 적용되는 작업에 따라 결정됩니다. 후보 모델을 테스트하고 평가하면 작업에 가장 적합한 모델을 찾을 수 있으므로, AI 애플리케이션이 실제 실행 가능성을 최대한 활용할 수 있습니다.
프로젝트 성공 촉진: 모델 복잡성은 교육 시간 및 리소스 요구 사항과 결과에 직접적인 영향을 미칩니다. 예측 모델은 단순한 모델에서 복잡한 모델에 이르기까지 다양하게 실행됩니다. 단순한 모델은 학습이 더 빠르고 저렴하지만, 복잡한 모델은 더 많은 데이터, 돈, 시간이 필요합니다.
모델 선택 프로세스는 대상 사용 사례에 맞게 맞춤형으로 설계된 모델을 생성하도록 설계되었습니다. 머신 러닝 전문가는 문제의 개요를 파악하고, 잘 수행될 수 있는 모델 유형 중에서 선택한 다음, 마지막으로 후보 모델을 학습 및 테스트하여 전체적으로 최상의 선택을 파악합니다.
모델 선택 프로세스의 단계에는 일반적으로 다음이 포함됩니다.
ML 과제 설정
후보 모델 선택
모델 평가 지표 결정
모델 학습 및 평가
작업의 특성에 따라 일부 머신 러닝 알고리즘이 다른 알고리즘보다 더 나은 선택이 될 수 있습니다. ML 과제는 일반적으로 다음 세 가지 카테고리 중 하나에 속합니다.
회귀 문제는 입력 특성과 선택된 연속 아웃풋 변수(예: 가격) 간의 관계를 식별하는 모델을 다루는 작업입니다. 회귀 문제의 예로는 급여 벤치마크 또는 기상 조건을 기반으로 자연재해 가능성을 예측하는 것이 있습니다. 모델의 예측은 연도나 인구통계학적 정보와 같은 관련 입력 기능을 기반으로 합니다. 시계열 예측은 시간 경과에 따라 변수 값을 예측하는 일종의 회귀 과제입니다. 시계열 모델은 이 과제에 특화된 컴퓨팅 효율적인 모델 클래스입니다.
분류 문제는 입력 변수 집합을 기반으로 데이터 포인트를 카테고리로 정렬합니다. 분류 문제의 예로는 개체 인식 및 전자 메일 스팸 필터가 있습니다. 학습 세트에는 모델이 입력과 아웃풋 간의 연관성을 학습할 수 있도록, 레이블이 지정된 아웃풋이 있는 데이터 포인트가 포함될 수 있습니다. 이러한 방식을 지도 학습이라고 합니다.
클러스터링 문제는 유사성을 기반으로 데이터 요소를 그룹화합니다. 클러스터링은 데이터 포인트를 알려진 카테고리로 정렬하는 것이 아니라 데이터 포인트 내에서 클러스터를 발견하는 것이 목표라는 점에서 분류와 완전히 동일하지는 않습니다. 모델은 지도되지 않은 학습 환경에서 유사성을 자체적으로 식별해야 합니다. 시장 세분화는 클러스터링의 한 예입니다.
테스트 프로세스는 후보 모델을 비교하고 미리 선택된 평가 성능 지표 세트와 비교하여 지표를 평가합니다. 많은 지표가 존재하지만, 다른 지표보다 특정 유형의 ML 과제에 더 적합한 지표도 있습니다.
분류를 위한 모델 평가 지표는 다음과 같습니다.
정확도: 전체 예측 중 올바른 예측의 백분율입니다.
정밀도: 전체 긍정 예측 중 참 긍정 예측의 비율로, 긍정 예측의 정확도를 측정합니다.
재현율: 모든 실제 긍정 사례 중 참 긍정 예측의 비율로, 긍정 사례를 식별하는 모델의 숙련도를 측정합니다.
F1 점수: 정밀도와 재현율을 결합하여 긍정 사례를 인식하고 정확하게 분류하는 모델의 전반적인 능력을 살펴볼 수 있습니다.
혼동 행렬: 분류기 모델의 성능을 참 긍정, 거짓 긍정, 참 부정, 거짓 부정의 표로 표시하여 요약합니다.
AUC-ROC: 참 긍정 및 거짓 긍정 비율을 ROC(수신자 조작 특성) 곡선으로 나타낸 그래프입니다. 곡선 아래의 면적(AUC)이 모델의 성능을 나타냅니다.
회귀 평가 지표에는 다음이 포함됩니다.
평균 제곱 오차(MSE): 예측 값과 실제 값 간의 차이를 제곱한 값들의 차이를 평균화합니다. MSE는 이상값에 매우 민감하며 큰 오류에 심각한 불이익을 줍니다.
평균 제곱근 오차(RMSE): MSE의 제곱근으로, 오차율을 변수와 동일한 단위로 표시하여 지표의 해석 가능성을 높입니다. MSE는 제곱 단위로 동일한 오류를 표시합니다.
평균 절대 오차(MAE): 목표 변수에 대한 실제 값과 실행 값의 차이의 평균입니다. MAE는 MSE보다 민감도가 낮습니다.
평균 절대 백분율 오차(MAPE): 평균 절대 오차를 예측 변수 단위가 아닌 백분율로 표시하여 모델을 쉽게 비교할 수 있도록 합니다.
결정 계수: 0과 1 사이의 모델 성능에 대한 벤치마크 측정값을 제공합니다. 그러나 더 많은 기능을 추가하면 결정 계수 값이 인위적으로 부풀려질 수 있습니다.
조정된 결정 계수: 관련 없는 기능은 무시하고 모델의 성능을 향상시키는 기능의 기여도를 반영합니다.
데이터 과학자는 사용 가능한 데이터를 여러 세트로 나누어 모델 학습 및 평가를 준비합니다. 데이터 세트는 모델 학습에 사용되며, 이 과정에서 후보 모델은 데이터 포인트의 패턴과 관계를 인식하는 방법을 학습합니다. 그런 다음 데이터 세트의 다른 부분을 사용하여 모델의 성능을 확인합니다.
가장 빠르고 간단한 테스트 형태는 학습-테스트 분할입니다. 데이터 과학자는 데이터 세트를 학습용과 테스트용의 두 부분으로 나눕니다. 모델은 훈련이 끝날 때까지 테스트 분할에 노출되지 않으며, 테스트 세트는 모델이 현실 세계에서 처리하게 될 새 보이지 않는 데이터의 대용품 역할을 합니다.
모델 작성자는 다양한 모델 선택 기법을 사용할 수 있습니다. 일부는 모델의 초기 설정 및 아키텍처와 관련이 있으며, 이는 결과적으로 모델의 동작에 영향을 미칩니다. 다른 기법은 더 섬세하고 엄격한 모델 평가를 제공하거나, 특정 데이터 세트에서 모델이 어떻게 수행될지 예측합니다.
모델 선택 기법에는 다음이 포함됩니다.
초매개변수 조정
교차 검증
부트스트랩핑
정보 기준
하이퍼파라미터 튜닝은 모델의 구조와 동작을 결정하는 외부 설정인 모델의 하이퍼파라미터를 최적화하는 프로세스입니다 모델에는 훈련 중에 실시간으로 업데이트되는 내부 파라미터도 있습니다. 내부 매개변수는 모델이 데이터를 처리하는 방식을 제어합니다. 생성형 AI(GenAI)에 사용되는 것과 같이 복잡한 모델에는 1조 개 이상의 매개변수가 있을 수 있습니다.
하이퍼파라미터 튜닝은 초기 학습 단계(사전 학습이라고 함) 후에 모델을 추가로 학습하거나 조정하는 모델 미세 조정과는 다릅니다.
몇 가지 주목할 만한 하이퍼매개변수 조정 기술은 다음과 같습니다.
그리드 검색: 가능한 모든 하이퍼파라미터 조합을 학습, 테스트, 평가합니다. 철저한 무차별 대입 방법인 그리드 검색은 최상의 단일 하이퍼파라미터 조합을 발견할 가능성이 높지만, 시간과 리소스가 많이 사용됩니다.
무작위 검색: 하이퍼매개변수 조합의 샘플을 무작위로 선택하고, 하위 집합의 각 샘플을 사용하여 모델을 학습하고 테스트합니다. 무작위 검색은 그리드 검색을 실행할 수 없는 경우 그리드 검색의 대안입니다.
베이지안 최적화: 확률적 모델을 사용하여 어떤 하이퍼파라미터 조합이 최상의 모델 성능을 낼 가능성이 가장 높은지 예측합니다. 베이지안 최적화는 각 학습 및 테스트 라운드에서 개선되는 반복적인 방법이며 대규모 하이퍼파라미터 공간에서 잘 작동합니다.
K-폴드 교차 검증 리샘플링 시스템에서 데이터는 K 집합 또는 폴드로 나뉩니다. 학습 데이터는 K-1 하위 집합으로 구성되며 모델은 나머지 집합에 대해 검증됩니다. 이 프로세스는 각 하위 집합이 검증 집합 역할을 하도록 반복됩니다. 데이터 포인트는 교체 없이 샘플링되며, 이는 각 데이터 포인트가 반복당 한 번 나타난다는 것을 의미합니다.
K-폴드 교차 검증은 단일 학습-테스트 분할보다 모델의 성능에 대해 더 전체적인 개요를 제공합니다.
부트스트래핑은 교차 검증과 유사한 리샘플링 기술이지만, 데이터 포인트가 대체를 통해 샘플링된다는 점이 다릅니다. 즉, 샘플링된 데이터 포인트가 여러 폴드로 나타날 수 있습니다.
모델 성능이 모델을 '최고'로 만드는 유일한 요소는 아닙니다. 다른 요소도 모델 선택 결정에 더 중요하지 않더라도 동등하게 영향을 미칠 수 있습니다.
LLM은 AI 에이전트, RAG 기반 질문-답변, 자동 텍스트 생성 기능을 갖춘 고객 서비스 챗봇 등 많은 비즈니스 애플리케이션을 위한 핵심 인공 지능 모델입니다. 자연어 처리(NLP)는 머신 러닝 알고리즘을 사용하여 인간의 언어를 이해하고 생성하는 것이고, LLM은 특정한 유형의 NLP 모델입니다.
주목할 만한 LLM으로는 OpenAI의 GPT 제품군(예: ChatGPT의 일부 모델인 GPT-4o 및 GPT-3.5)과 Anthropic의 Claude, Google의 Gemini, Meta의 Llama 3가 있습니다. 모든 LLM은 복잡한 작업을 처리할 수 있지만, 머신 러닝 프로젝트의 특정 요구 사항이 작업에 적합한 LLM을 결정하는 데 도움이 될 수 있습니다.
올바른 LLM을 선택하는 데는 다음과 같은 다양한 요인이 작용합니다.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.