랜덤 포레스트란 무엇인가요?

소프트웨어 개발 및 디자이너 사무실에서 근무하는 회사 직원들

랜덤 포레스트란 무엇인가요?

랜덤 포레스트는 Leo Breiman과 Adele Cutler의 상표로 널리 사용되는 머신 러닝 알고리즘으로, 여러 Decision Trees의 아웃풋을 결합하여 단일 결과에 도달하는 알고리즘입니다. 분류와 회귀 문제를 모두 처리할 수 있는 사용 편의성과 유연성으로 인해 채택이 촉진되었습니다.

의사결정 트리

랜덤 포레스트 모델은 여러 개의 의사 결정 트리로 구성되어 있으므로 의사 결정 트리 알고리즘을 간략하게 설명하는 것부터 시작하면 도움이 될 것입니다. 의사 결정 트리는 '서핑을 해야 할까요?'와 같은 기본적인 질문으로 시작합니다. 거기에서 '장기간의 파도인가요?' 또는 '바람이 바다에서 불어 오나요?'와 같은 이어지는 질문을 통해 답을 결정할 수 있습니다. 이러한 질문은 트리의 의사 결정 노드를 구성하여 데이터 를 분할하는 수단으로 작동합니다. 각각의 질문은 리프 노드로 표시되는 최종 결정에 도달하는 데 도움이 됩니다. 기준에 맞는 관찰은 '예' 경로를 따라가고, 기준에 맞지 않는 관찰은 다른 경로를 따릅니다. 의사 결정 트리는 데이터를 하위 집합에 가장 적합한 분할을 찾으려고 하며, 일반적으로 분류 및 회귀 트리(CART) 알고리즘을 통해 학습됩니다. 지니 불순도, 정보 이득 또는 평균 제곱 오차(MSE)와 같은 메트릭을 사용하여 분할의 품질을 평가할 수 있습니다.

이 의사 결정 트리는 분류 문제의 예로, 클래스 레이블은 '서핑한다'와 '서핑하지 않는다'입니다.

의사결정 트리는 일반적인 지도 학습 알고리즘이지만, 편향이나 과적합과 같은 문제가 발생하기 쉽습니다. 그러나 여러 의사결정 트리가 랜덤 포레스트 알고리즘에서 하나의 집합체를 이루면 특히 개별 트리가 서로 상관관계가 없을 때 더 정확한 결과를 예측할 수 있습니다.

앙상블 방법

앙상블 학습 방법은 분류기 세트(예: 의사 결정 트리)로 구성됩니다. 가장 인기 있는 결과를 식별하기 위해 예측이 집계됩니다. 가장 잘 알려진 앙상블 방법은 부트스트래핑 집계라고도 하는 배깅과 부스팅입니다. 1996년에 Leo Breiman(ibm.com 외부 링크)이 배깅 방법을 도입했는데, 이 방법에서는 학습 세트의 데이터 샘플을 무작위로 교체하여 개별 데이터 포인트를 두 번 이상 선택할 수 있도록 합니다. 여러 데이터 샘플이 생성된 후 이러한 모델은 독립적으로 학습되며 작업 유형(예: 회귀 또는 분류)에 따라 이러한 예측의 평균 또는 대부분을 통해 더 정확한 추정치를 산출합니다. 이 접근 방식은 일반적으로 노이즈가 있는 데이터 세트 내의 분산을 줄이는 데 사용됩니다.

랜덤 포레스트 알고리즘

배깅과 특징 무작위성을 모두 사용하여 상관관계가 없는 의사 결정 트리의 포레스트를 생성하는 랜덤 포레스트 알고리즘은 배깅 방법의 확장입니다. 특징 배깅 또는 '임의 하위 공간 방법'(ibm.com 외부 링크)이라고도 하는 특징 무작위성은 특징의 임의 하위 집합을 생성하여 의사 결정 트리 간의 상관관계를 낮춥니다. 이것이 의사 결정 트리와 랜덤 포레스트의 주요 차이점입니다. 의사 결정 트리는 가능한 모든 특징 분할을 고려하지만, 랜덤 포레스트는 해당 특징의 하위 집합만 선택합니다.

“서핑을 해야 할까요?"라는 질문의 예로 돌아가면, 예측을 결정하기 위해 내가 던질 수 있는 질문은 다른 사람이 던지는 질문보다 포괄적이지 않을 수 있습니다. 데이터의 모든 잠재적 변동성을 고려하면 과적합, 편향 및 전체 분산 위험을 줄여 보다 정확한 예측을 할 수 있습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

작동 방식

랜덤 포레스트 알고리즘에서는 학습 전에 세 가지 주요 하이퍼매개변수를 설정해야 합니다. 노드 크기, 트리 수, 샘플링된 특징 수가 그것입니다. 그런 다음 랜덤 포레스트 분류기를 사용하여 회귀 또는 분류 문제를 해결할 수 있습니다.

랜덤 포레스트 알고리즘은 의사 결정 트리의 모음으로 구성되며, 앙상블의 각 트리는 부트스트래핑 샘플이라고 하는 대체 학습 세트에서 추출한 데이터 샘플로 구성됩니다. 이 학습 샘플 중 3분의 1은 아웃오브백(OOB) 샘플이라고 하는 테스트 데이터로 따로 보관되는데, 이에 관해서는 나중에 다시 설명하겠습니다. 그런 다음 특징 배깅을 통해 또 다른 무작위성을 주입하여 데이터 세트에 더 많은 다양성을 추가하고 의사 결정 트리 사이의 상관관계를 줄입니다. 예측의 결정은 문제 유형에 따라 달라집니다. 회귀 작업의 경우 개별 의사 결정 트리의 평균을 구하고, 분류 작업의 경우 과반수 투표, 즉 가장 빈번한 카테고리 변수로 예측된 클래스를 산출합니다. 마지막으로 교차 검증에 OOB 샘플을 사용하여 예측을 마무리합니다.

랜덤 포레스트의 이점과 과제

분류 또는 회귀 문제에 랜덤 포레스트 알고리즘을 사용할 때 여러 가지 주요 이점과 문제가 있습니다. 예를 들면 다음과 같습니다.

주요 이점

  • 과적합 위험 감소: 의사결정 트리는 훈련 데이터 내의 모든 샘플을 밀접하게 맞추는 경향이 있기 때문에 과적합의 위험이 있습니다. 그러나 랜덤 포레스트에 의사결정 트리가 충분히 많으면 상관 관계가 없는 트리의 평균이 전체 분산과 예측 오류를 낮추기 때문에 분류기가 모델을 과적합하지 않습니다.
  • 유연성 제공: 랜덤 포레스트는 회귀와 분류 작업을 모두 높은 정확도로 처리할 수 있기 때문에 데이터 과학자들 사이에서 인기 있는 방법입니다. 또한 특징 배깅은 데이터의 일부가 누락된 경우에도 정확도를 유지하므로, 랜덤 포레스트 분류기는 누락된 값을 추정하는 데 효과적입니다.
  • 특징 중요도를 쉽게 결정할 수 있음: 랜덤 포레스트를 사용하면 모델에 대한 변수 중요도 또는 기여도를 쉽게 평가할 수 있습니다. 특징 중요도를 평가하는 방법에는 몇 가지가 있습니다. 지니 중요도 및 평균 불순도 감소(MDI)는 특정 변수를 제외할 때 모델의 정확도가 얼마나 감소하는지 측정하는 데 사용됩니다. 또 다른 중요도 측정법으로는 평균 감소 정확도(MDA)라고도 하는 순열 중요도가 있습니다. MDA는 oob 샘플의 특징 값을 임의로 치환하여 정확도의 평균 감소를 식별합니다.

주요 과제

  • 시간이 오래 걸리는 프로세스: 랜덤 포레스트 알고리즘은 대규모 데이터 세트를 처리할 수 있으므로 더 정확한 예측을 제공할 수 있지만, 각각의 의사결정 트리에 대한 데이터를 계산하기 때문에 데이터 처리 속도가 느릴 수 있습니다.
  • 더 많은 리소스 필요: 랜덤 포레스트는 더 큰 데이터 세트를 처리하므로 해당 데이터를 저장하는 데 더 많은 리소스가 필요합니다.
  • 더 복잡함: 단일 의사결정 트리의 예측은 여러 의사결정 트리의 포레스트와 비교할 때 해석하기가 더 쉽습니다.
Mixture of Experts | 8월 28일, 에피소드 70

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

랜덤 포레스트 적용

랜덤 포레스트 알고리즘은 다양한 산업에 적용되어 더 나은 비즈니스 결정을 내리는 데 도움이 되었습니다. 몇 가지 사용 사례는 다음과 같습니다.

  • 금융: 랜덤 포레스트는 데이터 관리 및 사전 처리 작업에 소요되는 시간을 줄여주기 때문에 다른 알고리즘보다 선호되는 알고리즘입니다. 신용 위험이 높은 고객을 평가하고, 사기 및 옵션 가격 책정 문제를 감지하는 데 사용할 수 있습니다.
  • 의료: 랜덤 포레스트 알고리즘은 컴퓨터 생물학(ibm.com 외부 링크)에 적용되어 의사가 유전자 발현 분류, 바이오마커 발견 및 염기서열 주석과 같은 문제를 해결할 수 있게 지원합니다. 의사들은 이를 활용해 특정 약물에 대한 약물 반응을 추정할 수 있습니다.
  • 전자 상거래: 교차 판매 목적의 추천 엔진에 사용할 수 있습니다.
관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기