랜덤 포레스트는 Leo Breiman과 Adele Cutler의 상표로 널리 사용되는 머신 러닝 알고리즘으로, 여러 Decision Trees의 아웃풋을 결합하여 단일 결과에 도달하는 알고리즘입니다. 분류와 회귀 문제를 모두 처리할 수 있는 사용 편의성과 유연성으로 인해 채택이 촉진되었습니다.
랜덤 포레스트 모델은 여러 개의 의사 결정 트리로 구성되어 있으므로 의사 결정 트리 알고리즘을 간략하게 설명하는 것부터 시작하면 도움이 될 것입니다. 의사 결정 트리는 '서핑을 해야 할까요?'와 같은 기본적인 질문으로 시작합니다. 거기에서 '장기간의 파도인가요?' 또는 '바람이 바다에서 불어 오나요?'와 같은 이어지는 질문을 통해 답을 결정할 수 있습니다. 이러한 질문은 트리의 의사 결정 노드를 구성하여 데이터 를 분할하는 수단으로 작동합니다. 각각의 질문은 리프 노드로 표시되는 최종 결정에 도달하는 데 도움이 됩니다. 기준에 맞는 관찰은 '예' 경로를 따라가고, 기준에 맞지 않는 관찰은 다른 경로를 따릅니다. 의사 결정 트리는 데이터를 하위 집합에 가장 적합한 분할을 찾으려고 하며, 일반적으로 분류 및 회귀 트리(CART) 알고리즘을 통해 학습됩니다. 지니 불순도, 정보 이득 또는 평균 제곱 오차(MSE)와 같은 메트릭을 사용하여 분할의 품질을 평가할 수 있습니다.
이 의사 결정 트리는 분류 문제의 예로, 클래스 레이블은 '서핑한다'와 '서핑하지 않는다'입니다.
의사결정 트리는 일반적인 지도 학습 알고리즘이지만, 편향이나 과적합과 같은 문제가 발생하기 쉽습니다. 그러나 여러 의사결정 트리가 랜덤 포레스트 알고리즘에서 하나의 집합체를 이루면 특히 개별 트리가 서로 상관관계가 없을 때 더 정확한 결과를 예측할 수 있습니다.
앙상블 학습 방법은 분류기 세트(예: 의사 결정 트리)로 구성됩니다. 가장 인기 있는 결과를 식별하기 위해 예측이 집계됩니다. 가장 잘 알려진 앙상블 방법은 부트스트래핑 집계라고도 하는 배깅과 부스팅입니다. 1996년에 Leo Breiman(ibm.com 외부 링크)이 배깅 방법을 도입했는데, 이 방법에서는 학습 세트의 데이터 샘플을 무작위로 교체하여 개별 데이터 포인트를 두 번 이상 선택할 수 있도록 합니다. 여러 데이터 샘플이 생성된 후 이러한 모델은 독립적으로 학습되며 작업 유형(예: 회귀 또는 분류)에 따라 이러한 예측의 평균 또는 대부분을 통해 더 정확한 추정치를 산출합니다. 이 접근 방식은 일반적으로 노이즈가 있는 데이터 세트 내의 분산을 줄이는 데 사용됩니다.
배깅과 특징 무작위성을 모두 사용하여 상관관계가 없는 의사 결정 트리의 포레스트를 생성하는 랜덤 포레스트 알고리즘은 배깅 방법의 확장입니다. 특징 배깅 또는 '임의 하위 공간 방법'(ibm.com 외부 링크)이라고도 하는 특징 무작위성은 특징의 임의 하위 집합을 생성하여 의사 결정 트리 간의 상관관계를 낮춥니다. 이것이 의사 결정 트리와 랜덤 포레스트의 주요 차이점입니다. 의사 결정 트리는 가능한 모든 특징 분할을 고려하지만, 랜덤 포레스트는 해당 특징의 하위 집합만 선택합니다.
“서핑을 해야 할까요?"라는 질문의 예로 돌아가면, 예측을 결정하기 위해 내가 던질 수 있는 질문은 다른 사람이 던지는 질문보다 포괄적이지 않을 수 있습니다. 데이터의 모든 잠재적 변동성을 고려하면 과적합, 편향 및 전체 분산 위험을 줄여 보다 정확한 예측을 할 수 있습니다.
랜덤 포레스트 알고리즘에서는 학습 전에 세 가지 주요 하이퍼매개변수를 설정해야 합니다. 노드 크기, 트리 수, 샘플링된 특징 수가 그것입니다. 그런 다음 랜덤 포레스트 분류기를 사용하여 회귀 또는 분류 문제를 해결할 수 있습니다.
랜덤 포레스트 알고리즘은 의사 결정 트리의 모음으로 구성되며, 앙상블의 각 트리는 부트스트래핑 샘플이라고 하는 대체 학습 세트에서 추출한 데이터 샘플로 구성됩니다. 이 학습 샘플 중 3분의 1은 아웃오브백(OOB) 샘플이라고 하는 테스트 데이터로 따로 보관되는데, 이에 관해서는 나중에 다시 설명하겠습니다. 그런 다음 특징 배깅을 통해 또 다른 무작위성을 주입하여 데이터 세트에 더 많은 다양성을 추가하고 의사 결정 트리 사이의 상관관계를 줄입니다. 예측의 결정은 문제 유형에 따라 달라집니다. 회귀 작업의 경우 개별 의사 결정 트리의 평균을 구하고, 분류 작업의 경우 과반수 투표, 즉 가장 빈번한 카테고리 변수로 예측된 클래스를 산출합니다. 마지막으로 교차 검증에 OOB 샘플을 사용하여 예측을 마무리합니다.
분류 또는 회귀 문제에 랜덤 포레스트 알고리즘을 사용할 때 여러 가지 주요 이점과 문제가 있습니다. 예를 들면 다음과 같습니다.
랜덤 포레스트 알고리즘은 다양한 산업에 적용되어 더 나은 비즈니스 결정을 내리는 데 도움이 되었습니다. 몇 가지 사용 사례는 다음과 같습니다.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.