랜덤 포레스트란 무엇인가요?

작성자

Business Development + Partnerships

IBM Research

랜덤 포레스트란 무엇인가요?

랜덤 포레스트는 Leo Breiman과 Adele Cutler의 상표로 널리 사용되는 머신 러닝 알고리즘으로, 여러 Decision Trees의 아웃풋을 결합하여 단일 결과에 도달하는 알고리즘입니다. 분류와 회귀 문제를 모두 처리할 수 있는 사용 편의성과 유연성으로 인해 채택이 촉진되었습니다.

의사결정 트리

랜덤 포레스트 모델은 여러 개의 의사 결정 트리로 구성되어 있으므로 의사 결정 트리 알고리즘을 간략하게 설명하는 것부터 시작하면 도움이 될 것입니다. 의사 결정 트리는 '서핑을 해야 할까요?'와 같은 기본적인 질문으로 시작합니다. 거기에서 '장기간의 파도인가요?' 또는 '바람이 바다에서 불어 오나요?'와 같은 이어지는 질문을 통해 답을 결정할 수 있습니다. 이러한 질문은 트리의 의사 결정 노드를 구성하여 데이터 를 분할하는 수단으로 작동합니다. 각각의 질문은 리프 노드로 표시되는 최종 결정에 도달하는 데 도움이 됩니다. 기준에 맞는 관찰은 '예' 경로를 따라가고, 기준에 맞지 않는 관찰은 다른 경로를 따릅니다. 의사 결정 트리는 데이터를 하위 집합에 가장 적합한 분할을 찾으려고 하며, 일반적으로 분류 및 회귀 트리(CART) 알고리즘을 통해 학습됩니다. 지니 불순도, 정보 이득 또는 평균 제곱 오차(MSE)와 같은 메트릭을 사용하여 분할의 품질을 평가할 수 있습니다.

이 의사 결정 트리는 분류 문제의 예로, 클래스 레이블은 '서핑한다'와 '서핑하지 않는다'입니다.

의사결정 트리는 일반적인 지도 학습 알고리즘이지만, 편향이나 과적합과 같은 문제가 발생하기 쉽습니다. 그러나 여러 의사결정 트리가 랜덤 포레스트 알고리즘에서 하나의 집합체를 이루면 특히 개별 트리가 서로 상관관계가 없을 때 더 정확한 결과를 예측할 수 있습니다.

앙상블 방법

앙상블 학습 방법은 분류기 세트(예: 의사결정트리)로 구성됩니다. 가장 인기 있는 결과를 식별하기 위해 예측이 집계됩니다. 가장 잘 알려진 앙상블 방법은 부트스트래핑 집계라고도 하는 배깅과 부스팅입니다. 1996년에 Leo Breiman이 배깅 방법을 도입했는데, 이 방법에서는 학습 세트의 데이터 샘플을 무작위로 교체하여 개별 데이터 포인트를 두 번 이상 선택할 수 있도록 합니다. 여러 데이터 샘플이 생성된 후 이러한 모델은 독립적으로 학습되며 작업 유형(예: 회귀 또는 분류)에 따라 이러한 예측의 평균 또는 대부분을 통해 더 정확한 추정치를 산출합니다. 이 접근 방식은 일반적으로 노이즈가 있는 데이터 세트 내의 분산을 줄이는 데 사용됩니다.

랜덤 포레스트 알고리즘

배깅과 특징 무작위성을 모두 사용하여 상관관계가 없는 의사결정트리의 포레스트를 생성하는 랜덤 포레스트 알고리즘은 배깅 방법의 확장입니다. 특징 배깅 또는 '임의 하위 공간 방법'이라고도 하는 특징 무작위성은 특징의 임의 하위 집합을 생성하여 의사결정트리 간의 상관관계를 낮춥니다. 이것이 의사결정트리와 랜덤 포레스트의 주요 차이점입니다. 의사결정트리는 가능한 모든 특징 분할을 고려하지만, 랜덤 포레스트는 해당 특징의 하위 집합만 선택합니다.

“서핑을 해야 할까요?"라는 질문의 예로 돌아가면, 예측을 결정하기 위해 내가 던질 수 있는 질문은 다른 사람이 던지는 질문보다 포괄적이지 않을 수 있습니다. 데이터의 모든 잠재적 변동성을 고려하면 과적합, 편향 및 전체 분산 위험을 줄여 보다 정확한 예측을 할 수 있습니다.

작동 방식

랜덤 포레스트 알고리즘에서는 학습 전에 세 가지 주요 하이퍼매개변수를 설정해야 합니다. 노드 크기, 트리 수, 샘플링된 특징 수가 그것입니다. 그런 다음 랜덤 포레스트 분류기를 사용하여 회귀 또는 분류 문제를 해결할 수 있습니다.

랜덤 포레스트 알고리즘은 의사 결정 트리의 모음으로 구성되며, 앙상블의 각 트리는 부트스트래핑 샘플이라고 하는 대체 학습 세트에서 추출한 데이터 샘플로 구성됩니다. 이 학습 샘플 중 3분의 1은 아웃오브백(OOB) 샘플이라고 하는 테스트 데이터로 따로 보관되는데, 이에 관해서는 나중에 다시 설명하겠습니다. 그런 다음 특징 배깅을 통해 또 다른 무작위성을 주입하여 데이터 세트에 더 많은 다양성을 추가하고 의사 결정 트리 사이의 상관관계를 줄입니다. 예측의 결정은 문제 유형에 따라 달라집니다. 회귀 작업의 경우 개별 의사 결정 트리의 평균을 구하고, 분류 작업의 경우 과반수 투표, 즉 가장 빈번한 카테고리 변수로 예측된 클래스를 산출합니다. 마지막으로 교차 검증에 OOB 샘플을 사용하여 예측을 마무리합니다.

랜덤 포레스트의 이점과 과제

분류 또는 회귀 문제에 랜덤 포레스트 알고리즘을 사용할 때 여러 가지 주요 이점과 문제가 있습니다. 예를 들면 다음과 같습니다.

주요 이점

과적합 위험 감소: 의사결정 트리는 훈련 데이터 내의 모든 샘플을 밀접하게 맞추는 경향이 있기 때문에 과적합의 위험이 있습니다. 그러나 랜덤 포레스트에 의사결정 트리가 충분히 많으면 상관 관계가 없는 트리의 평균이 전체 분산과 예측 오류를 낮추기 때문에 분류기가 모델을 과적합하지 않습니다.
유연성 제공: 랜덤 포레스트는 회귀와 분류 작업을 모두 높은 정확도로 처리할 수 있기 때문에 데이터 과학자들 사이에서 인기 있는 방법입니다. 또한 특징 배깅은 데이터의 일부가 누락된 경우에도 정확도를 유지하므로, 랜덤 포레스트 분류기는 누락된 값을 추정하는 데 효과적입니다.
특징 중요도를 쉽게 결정할 수 있음: 랜덤 포레스트를 사용하면 모델에 대한 변수 중요도 또는 기여도를 쉽게 평가할 수 있습니다. 특징 중요도를 평가하는 방법에는 몇 가지가 있습니다. 지니 중요도 및 평균 불순도 감소(MDI)는 특정 변수를 제외할 때 모델의 정확도가 얼마나 감소하는지 측정하는 데 사용됩니다. 또 다른 중요도 측정법으로는 평균 감소 정확도(MDA)라고도 하는 순열 중요도가 있습니다. MDA는 oob 샘플의 특징 값을 임의로 치환하여 정확도의 평균 감소를 식별합니다.

주요 과제

시간이 오래 걸리는 프로세스: 랜덤 포레스트 알고리즘은 대규모 데이터 세트를 처리할 수 있으므로 더 정확한 예측을 제공할 수 있지만, 각각의 의사결정 트리에 대한 데이터를 계산하기 때문에 데이터 처리 속도가 느릴 수 있습니다.
더 많은 리소스 필요: 랜덤 포레스트는 더 큰 데이터 세트를 처리하므로 해당 데이터를 저장하는 데 더 많은 리소스가 필요합니다.
더 복잡함: 단일 의사결정 트리의 예측은 여러 의사결정 트리의 포레스트와 비교할 때 해석하기가 더 쉽습니다.

AI 아카데미

고객 서비스에 AI 활용

생성형 AI를 활용하여 더 원활한 경험으로 고객을 만족시키고 셀프 서비스, 인간 상담원, 컨택 센터 운영이라는 세 가지 핵심 영역에서 조직의 생산성을 높이는 방법을 알아보세요.

에피소드로 이동

랜덤 포레스트 적용

랜덤 포레스트 알고리즘은 다양한 산업에 적용되어 더 나은 비즈니스 결정을 내리는 데 도움이 되었습니다. 몇 가지 사용 사례는 다음과 같습니다.

금융: 랜덤 포레스트는 데이터 관리 및 사전 처리 작업에 소요되는 시간을 줄여주기 때문에 다른 알고리즘보다 선호되는 알고리즘입니다. 신용 위험이 높은 고객을 평가하고, 사기 및 옵션 가격 책정 문제를 감지하는 데 사용할 수 있습니다.
의료: 랜덤 포레스트 알고리즘은 컴퓨터 생물학에 적용되어 의사가 유전자 발현 분류, 바이오마커 발견 및 염기서열 주석과 같은 문제를 해결할 수 있게 지원합니다. 의사들은 이를 활용해 특정 약물에 대한 약물 반응을 추정할 수 있습니다.
전자 상거래: 교차 판매 목적의 추천 엔진에 사용할 수 있습니다.

생성형 AI + ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

랜덤 포레스트란 무엇인가요?

작성자

랜덤 포레스트란 무엇인가요?

의사결정 트리

앙상블 방법

랜덤 포레스트 알고리즘

작동 방식

랜덤 포레스트의 이점과 과제

주요 이점

주요 과제

고객 서비스에 AI 활용

랜덤 포레스트 적용

리소스