머신 러닝에서의 모델 선택

작성자

Staff writer

Staff Editor, AI Models

IBM Think

머신 러닝에서 모델 선택이란 무엇인가요?

머신 러닝에서의 모델 선택은 선택한 작업에 가장 적합한 머신 러닝 모델(ML 모델)을 선택하는 프로세스입니다. 선택된 모델은 일반적으로 관련 모델 성능 지표를 가장 성공적으로 충족하면서도, 보이지 않는 데이터를 가장 잘 일반화하는 모델입니다.

ML 모델 선택 프로세스는 후보 풀의 다양한 모델을 비교하는 프로세스입니다. 머신 러닝 전문가는 각 ML 모델의 성능을 평가한 다음, 일련의 평가 지표를 기반으로 최상의 모델을 선택합니다.

대부분의 머신 러닝 작업의 핵심은 데이터의 패턴을 인식하고 이를 기반으로 새로운 데이터를 예측하는 것입니다. 가장 성능이 좋은 예측 모델을 선택하면 예측의 정확도가 높아지고 ML 애플리케이션의 안정성도 높아집니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

모델 선택이 중요한 이유는 무엇인가요?

AI 모델 선택은 머신 러닝 시스템이 얼마나 잘 작동하는지를 결정하기 때문에 중요합니다. 다양한 모델에는 각각 강점과 약점이 있으며 올바른 모델을 선택하는 것은 프로젝트 성공에 직접적인 영향을 미칩니다. 모델 선택은 ML 모델을 생성하고 배포하기 위한 대규모 머신 러닝 파이프라인의 초기 단계입니다.

일부 작업에는 대규모 데이터 세트의 세부 정보를 캡처할 수 있는 복잡한 모델이 필요하지만, 이러한 모델은 새 데이터에 대한 일반화에 어려움을 겪을 수 있습니다. 컴퓨팅 및 리소스 요구 사항도 높아질 수도 있습니다. 다른 작업은 하나의 특정 목적을 위해 설계된 더 작고 간단한 모델에 더 적합합니다.

작업에 적합한 모델을 선택하면 다음과 같은 이점을 얻을 수 있습니다.

효율성 최적화: 모든 후보 모델 중 가장 강력한 모델은 성능과 일반화 가능성, 복잡성 및 리소스 사용 간의 균형을 맞춥니다.
모델 성능 극대화: 도구의 성능은 적용되는 작업에 따라 결정됩니다. 후보 모델을 테스트하고 평가하면 작업에 가장 적합한 모델을 찾을 수 있으므로, AI 애플리케이션이 실제 실행 가능성을 최대한 활용할 수 있습니다.
프로젝트 성공 촉진: 모델 복잡성은 교육 시간 및 리소스 요구 사항과 결과에 직접적인 영향을 미칩니다. 예측 모델은 단순한 모델에서 복잡한 모델에 이르기까지 다양하게 실행됩니다. 단순한 모델은 학습이 더 빠르고 저렴하지만, 복잡한 모델은 더 많은 데이터, 돈, 시간이 필요합니다.

AI 아카데미

AI 전문가 되기

비즈니스 성장을 주도하는 AI 투자의 우선순위를 정할 수 있는 지식을 확보하세요. 지금 바로 무료 AI 아카데미를 시작하고 조직에서 AI의 미래를 주도하세요.

시리즈 보기

모델 선택 프로세스

모델 선택 프로세스는 대상 사용 사례에 맞게 맞춤형으로 설계된 모델을 생성하도록 설계되었습니다. 머신 러닝 전문가는 문제의 개요를 파악하고, 잘 수행될 수 있는 모델 유형 중에서 선택한 다음, 마지막으로 후보 모델을 학습 및 테스트하여 전체적으로 최상의 선택을 파악합니다.

모델 선택 프로세스의 단계에는 일반적으로 다음이 포함됩니다.

ML 과제 설정
후보 모델 선택
모델 평가 지표 결정
모델 학습 및 평가

ML 과제 설정

작업의 특성에 따라 일부 머신 러닝 알고리즘이 다른 알고리즘보다 더 나은 선택이 될 수 있습니다. ML 과제는 일반적으로 다음 세 가지 카테고리 중 하나에 속합니다.

회귀 문제는 입력 특성과 선택된 연속 아웃풋 변수(예: 가격) 간의 관계를 식별하는 모델을 다루는 작업입니다. 회귀 문제의 예로는 급여 벤치마크 또는 기상 조건을 기반으로 자연재해 가능성을 예측하는 것이 있습니다. 모델의 예측은 연도나 인구통계학적 정보와 같은 관련 입력 기능을 기반으로 합니다. 시계열 예측은 시간 경과에 따라 변수 값을 예측하는 일종의 회귀 과제입니다. 시계열 모델은 이 과제에 특화된 컴퓨팅 효율적인 모델 클래스입니다.
분류 문제는 입력 변수 집합을 기반으로 데이터 포인트를 카테고리로 정렬합니다. 분류 문제의 예로는 개체 인식 및 전자 메일 스팸 필터가 있습니다. 학습 세트에는 모델이 입력과 아웃풋 간의 연관성을 학습할 수 있도록, 레이블이 지정된 아웃풋이 있는 데이터 포인트가 포함될 수 있습니다. 이러한 방식을 지도 학습이라고 합니다.
클러스터링 문제는 유사성을 기반으로 데이터 요소를 그룹화합니다. 클러스터링은 데이터 포인트를 알려진 카테고리로 정렬하는 것이 아니라 데이터 포인트 내에서 클러스터를 발견하는 것이 목표라는 점에서 분류와 완전히 동일하지는 않습니다. 모델은 지도되지 않은 학습 환경에서 유사성을 자체적으로 식별해야 합니다. 시장 세분화는 클러스터링의 한 예입니다.

모델 평가 지표 결정

테스트 프로세스는 후보 모델을 비교하고 미리 선택된 평가 성능 지표 세트와 비교하여 지표를 평가합니다. 많은 지표가 존재하지만, 다른 지표보다 특정 유형의 ML 과제에 더 적합한 지표도 있습니다.

분류를 위한 모델 평가 지표는 다음과 같습니다.

정확도: 전체 예측 중 올바른 예측의 백분율입니다.
정밀도: 전체 긍정 예측 중 참 긍정 예측의 비율로, 긍정 예측의 정확도를 측정합니다.
재현율: 모든 실제 긍정 사례 중 참 긍정 예측의 비율로, 긍정 사례를 식별하는 모델의 숙련도를 측정합니다.
F1 점수: 정밀도와 재현율을 결합하여 긍정 사례를 인식하고 정확하게 분류하는 모델의 전반적인 능력을 살펴볼 수 있습니다.
혼동 행렬: 분류기 모델의 성능을 참 긍정, 거짓 긍정, 참 부정, 거짓 부정의 표로 표시하여 요약합니다.
AUC-ROC: 참 긍정 및 거짓 긍정 비율을 ROC(수신자 조작 특성) 곡선으로 나타낸 그래프입니다. 곡선 아래의 면적(AUC)이 모델의 성능을 나타냅니다.

회귀 평가 지표에는 다음이 포함됩니다.

평균 제곱 오차(MSE): 예측 값과 실제 값 간의 차이를 제곱한 값들의 차이를 평균화합니다. MSE는 이상값에 매우 민감하며 큰 오류에 심각한 불이익을 줍니다.
평균 제곱근 오차(RMSE): MSE의 제곱근으로, 오차율을 변수와 동일한 단위로 표시하여 지표의 해석 가능성을 높입니다. MSE는 제곱 단위로 동일한 오류를 표시합니다.
평균 절대 오차(MAE): 목표 변수에 대한 실제 값과 실행 값의 차이의 평균입니다. MAE는 MSE보다 민감도가 낮습니다.
평균 절대 백분율 오차(MAPE): 평균 절대 오차를 예측 변수 단위가 아닌 백분율로 표시하여 모델을 쉽게 비교할 수 있도록 합니다.
결정 계수: 0과 1 사이의 모델 성능에 대한 벤치마크 측정값을 제공합니다. 그러나 더 많은 기능을 추가하면 결정 계수 값이 인위적으로 부풀려질 수 있습니다.
조정된 결정 계수: 관련 없는 기능은 무시하고 모델의 성능을 향상시키는 기능의 기여도를 반영합니다.

모델 학습 및 평가

데이터 과학자는 사용 가능한 데이터를 여러 세트로 나누어 모델 학습 및 평가를 준비합니다. 데이터 세트는 모델 학습에 사용되며, 이 과정에서 후보 모델은 데이터 포인트의 패턴과 관계를 인식하는 방법을 학습합니다. 그런 다음 데이터 세트의 다른 부분을 사용하여 모델의 성능을 확인합니다.

가장 빠르고 간단한 테스트 형태는 학습-테스트 분할입니다. 데이터 과학자는 데이터 세트를 학습용과 테스트용의 두 부분으로 나눕니다. 모델은 훈련이 끝날 때까지 테스트 분할에 노출되지 않으며, 테스트 세트는 모델이 현실 세계에서 처리하게 될 새 보이지 않는 데이터의 대용품 역할을 합니다.

모델 선택 기법

모델 작성자는 다양한 모델 선택 기법을 사용할 수 있습니다. 일부는 모델의 초기 설정 및 아키텍처와 관련이 있으며, 이는 결과적으로 모델의 동작에 영향을 미칩니다. 다른 기법은 더 섬세하고 엄격한 모델 평가를 제공하거나, 특정 데이터 세트에서 모델이 어떻게 수행될지 예측합니다.

모델 선택 기법에는 다음이 포함됩니다.

초매개변수 조정
교차 검증
부트스트랩핑
정보 기준

하이퍼파라미터 튜닝

하이퍼파라미터 튜닝은 모델의 구조와 동작을 결정하는 외부 설정인 모델의 하이퍼파라미터를 최적화하는 프로세스입니다 모델에는 훈련 중에 실시간으로 업데이트되는 내부 파라미터도 있습니다. 내부 매개변수는 모델이 데이터를 처리하는 방식을 제어합니다. 생성형 AI(GenAI)에 사용되는 것과 같이 복잡한 모델에는 1조 개 이상의 매개변수가 있을 수 있습니다.

하이퍼파라미터 튜닝은 초기 학습 단계(사전 학습이라고 함) 후에 모델을 추가로 학습하거나 조정하는 모델 미세 조정과는 다릅니다.

몇 가지 주목할 만한 하이퍼매개변수 조정 기술은 다음과 같습니다.

그리드 검색: 가능한 모든 하이퍼파라미터 조합을 학습, 테스트, 평가합니다. 철저한 무차별 대입 방법인 그리드 검색은 최상의 단일 하이퍼파라미터 조합을 발견할 가능성이 높지만, 시간과 리소스가 많이 사용됩니다.
무작위 검색: 하이퍼매개변수 조합의 샘플을 무작위로 선택하고, 하위 집합의 각 샘플을 사용하여 모델을 학습하고 테스트합니다. 무작위 검색은 그리드 검색을 실행할 수 없는 경우 그리드 검색의 대안입니다.
베이지안 최적화: 확률적 모델을 사용하여 어떤 하이퍼파라미터 조합이 최상의 모델 성능을 낼 가능성이 가장 높은지 예측합니다. 베이지안 최적화는 각 학습 및 테스트 라운드에서 개선되는 반복적인 방법이며 대규모 하이퍼파라미터 공간에서 잘 작동합니다.

교차 검증

K-폴드 교차 검증 리샘플링 시스템에서 데이터는 K 집합 또는 폴드로 나뉩니다. 학습 데이터는 K-1 하위 집합으로 구성되며 모델은 나머지 집합에 대해 검증됩니다. 이 프로세스는 각 하위 집합이 검증 집합 역할을 하도록 반복됩니다. 데이터 포인트는 교체 없이 샘플링되며, 이는 각 데이터 포인트가 반복당 한 번 나타난다는 것을 의미합니다.

K-폴드 교차 검증은 단일 학습-테스트 분할보다 모델의 성능에 대해 더 전체적인 개요를 제공합니다.

부트스트랩핑

부트스트래핑은 교차 검증과 유사한 리샘플링 기술이지만, 데이터 포인트가 대체를 통해 샘플링된다는 점이 다릅니다. 즉, 샘플링된 데이터 포인트가 여러 폴드로 나타날 수 있습니다.

정보 기준

정보 기준은 모델 복잡성의 정도와 데이터 세트의 과적합 또는 과소적합 가능성을 비교합니다. 과적합은 모델이 학습 세트에 너무 가깝게 적응하여 새 데이터로 일반화할 수 없음을 의미합니다. 과소적합은 그 반대의 경우로, 모델이 데이터 포인트 간의 관계를 파악하기에 충분히 복잡하지 않은 경우입니다.

아카이케 정보 기준(AIC)과 베이지안 정보 기준(BIC)는 모두 데이터 세트를 적절하게 처리할 수 있게 복잡성이 가장 낮은 모델을 채택하도록 장려합니다.

모델 선택에 영향을 미치는 요인

모델 성능이 모델을 '최고'로 만드는 유일한 요소는 아닙니다. 다른 요소도 모델 선택 결정에 더 중요하지 않더라도 동등하게 영향을 미칠 수 있습니다.

데이터 복잡성: 데이터 세트가 복잡할수록 이를 처리하는 데 필요한 모델도 복잡해집니다. 그러나 너무 복잡한 모델을 적용하면 과적합이 발생할 수 있습니다. 그리고 너무 단순한 모델은 데이터의 패턴을 적절하게 파악하지 못할 수 있습니다. 적절한 모델은 과적합을 피하면서 데이터를 유능하고 효율적으로 처리할 수 있습니다.
데이터 품질: 데이터 사전 처리 및 기능 선택은 머신 러닝 애플리케이션을 위한 데이터를 준비하는 두 가지 데이터 과학 프로세스입니다. 이상값, 누락된 데이터 및 기타 블로커는 일부 모델에 다른 모델보다 더 많은 영향을 미치지만 합성 데이터, 정규화 및 기타 대응책으로 극복할 수 있습니다.
해석 가능성: 해석 가능성 또는 설명 가능성은 인간 관찰자가 모델의 작동을 이해할 수 있는 정도입니다. '블랙박스' 모델은 해석 가능성이 거의 또는 전혀 없기 때문에 의사 결정 워크플로가 대부분 미스터리입니다. 책임감 있는 AI 사용 지침을 준수하는 조직은 지능형 자동화 및 AI 기반 의사 결정과 같은 민감한 비즈니스 애플리케이션에 대해 해석 가능성을 우선적으로 고려해야 합니다. 의료 및 금융과 같은 특정 산업에는 광범위한 데이터 개인정보 보호 및 기타 규정이 있으므로 명확한 해석 가능성의 필요성이 더욱 강조됩니다.
효율성 및 자원 사용: 컴퓨팅 가용성 및 재정과 같은 현실적인 제한으로 인해 일부 모델은 완전히 배제될 수 있습니다. 심층 신경망을 학습하고 운영하려면 막대한 양의 데이터와 비용이 필요합니다. 이러한 모델이 흥미롭기는 하지만 모든 작업에 적합한 것은 아닙니다. AIC와 BIC는 ML 프로젝트 리더가 정보에 입각한 결정을 내리고 모델 복잡성을 낮추는 데 도움이 될 수 있습니다.

LLM 선택

LLM은 AI 에이전트, RAG 기반 질문-답변, 자동 텍스트 생성 기능을 갖춘 고객 서비스 챗봇 등 많은 비즈니스 애플리케이션을 위한 핵심 인공 지능 모델입니다. 자연어 처리(NLP)는 머신 러닝 알고리즘을 사용하여 인간의 언어를 이해하고 생성하는 것이고, LLM은 특정한 유형의 NLP 모델입니다.

주목할 만한 LLM으로는 OpenAI의 GPT 제품군(예: ChatGPT의 일부 모델인 GPT-4o 및 GPT-3.5)과 Anthropic의 Claude, Google의 Gemini, Meta의 Llama 3가 있습니다. 모든 LLM은 복잡한 작업을 처리할 수 있지만, 머신 러닝 프로젝트의 특정 요구 사항이 작업에 적합한 LLM을 결정하는 데 도움이 될 수 있습니다.

올바른 LLM을 선택하는 데는 다음과 같은 다양한 요인이 작용합니다.

구체적인 사용 사례: 머신 러닝 과제는 LLM 선택 프로세스에 직접적인 영향을 미칩니다. 어떤 LLM은 긴 문서 이해와 요약에 더 좋을 수 있는 반면, 다른 LLM은 도메인별 용도에 맞게 미세 조정하기가 더 쉬울 수 있습니다.
성능: 다른 모델과 마찬가지로 LLM을 서로 벤치마킹하여 성능을 평가할 수 있습니다. LLM 벤치마크에는 추론, 코딩, 수학, 지연 시간, 이해도, 일반 지식에 대한 지표가 포함됩니다. 프로젝트의 요구 사항과 벤치마크 성능을 비교하면 고품질 아웃풋을 위해 선택할 수 있는 최상의 LLM을 결정하는 데 도움이 될 수 있습니다.
오픈 소스와 비공개 소스의 비교: 오픈 소스 모델을 사용하면 관찰자가 모델이 결정에 도달하는 방법을 모니터링할 수 있습니다. 서로 다른 LLM은 실제 결과를 반영하지 않는 예측을 생성하는 등 다양한 방식으로 편향과 할루시네이션에 취약할 수 있습니다. 콘텐츠 조정과 편향 방지가 가장 중요한 경우 선택을 오픈 소스 제공업체로 제한하면 LLM 선택 프로세스를 형성하는 데 도움이 될 수 있습니다.
리소스 사용 및 비용: LLM은 리소스를 많이 사용하는 모델입니다. 많은 LLM은 수십만 개 이상의 그래픽 처리 장치(GPU)로 채워진 하이퍼스케일 데이터센터를 기반으로 구동됩니다. 또한 LLM 공급자는 모델에 대한 API 연결에 대해 서로 다르게 요금을 부과합니다. 모델 및 가격 책정 시스템의 확장성은 프로젝트 범위에 직접적인 영향을 미칩니다.

데이터 리더를 위한 데이터 사이언스 및 MLOps

MLOps 및 신뢰할 수 있는 AI의 3가지 주요 목표인 데이터에 대한 신뢰, 모델에 대한 신뢰, 프로세스에 대한 신뢰에 대해 다른 리더들과 의견을 부합해 보세요.