랜덤 포리스트 노드 작성 옵션

작성 옵션 탭에서는 기본 옵션고급 옵션을 포함한 랜덤 포리스트 노드에 대한 작성 옵션을 지정할 수 있습니다. 이러한 옵션에 대한 자세한 정보는 https://scikit-learn.org/stable/modules/ensemble.html#forest의 내용을 참조하십시오.

기본

작성할 트리 수. 포리스트 내의 트리 수를 선택하십시오.

최대 깊이 지정. 선택하지 않으면 모든 리프가 순수하게 될 때까지 또는 모든 리프가 min_samples_split개 미만의 표본을 포함할 때까지 노드가 펼쳐집니다.

최대 깊이. 트리의 최대 깊이입니다.

최소 리프 노드 크기. 리프 노드에 필요한 최소 표본 수입니다.

분할에 사용할 변수 수. 최상의 분할을 검색할 때 고려할 변수의 수입니다.
  • auto인 경우, 분류자에 대해서는 max_features=sqrt(n_features)이고, 회귀분석에 대해서는 max_features=n_features입니다.
  • sqrt인 경우, max_features=sqrt(n_features)입니다.
  • log2인 경우, max_features=log2(n_features)입니다.

고급

트리 작성 시 붓스트랩 표본 사용. 선택하면 트리를 작성할 때 붓스트랩 표본이 사용됩니다.

일반화 정확도를 추정하기 위해 준비된 표본 사용. 선택하면 일반화 정확도를 추정하기 위해 준비된 표본이 사용됩니다.

극단적으로 임의화된 트리 사용. 선택하면 일반 랜덤 포리스트 대신 극단적으로 임의화된 트리가 사용됩니다. 극단적으로 임의화된 트리에서 임의성은 분할이 계산되는 방법보다 한 단계 더 나아갑니다. 랜덤 포리스트에서와 같이 후보 변수의 임의의 세브세트가 사용되나 최상의 판별 임계값을 찾는 대신 각 후보 변수에 대해 임계값이 임의로 추출되고 이러한 임의적으로 생성된 임계값 중 최상이 분할 규칙으로 선택됩니다. 일반적으로 이로 인해 모델의 분산이 약간 감소하고 편향이 약간 증가합니다. 1

결과 복제. 선택하면 모델 작성 프로세스가 복제되어 동일한 스코어링 결과를 얻을 수 있습니다.

난수 시드. 난수 생성기에 사용될 시드를 생성하려면 생성을 클릭하십시오.

하이퍼-모수 최적화(Rbfopt 기준). 모델이 표본에 대해 기대빈도 또는 하한 오차율을 달성할 수 있도록 모수의 최적 조합을 자동으로 검색하는 Rbfopt 기준 하이퍼-모수 최적화를 사용하려면 이 옵션을 선택하십시오. Rbfopt에 대한 세부사항은 http://rbfopt.readthedocs.io/en/latest/rbfopt_settings.html의 내용을 참조하십시오.

목표: 도달하고자 하는 목표 함수 값(표본에 대한 모델의 오차율)이며 예를 들어, 알 수 없는 최적 값이 있습니다. 0.01 등의 허용 가능한 값을 설정하십시오.

최대 반복 수. 모델을 시도하는 최대 반복 수입니다. 기본값은 1000입니다.

최대 평가. 모델을 시도하기 위한 정확한 모드에서 함수 평가의 최대 수입니다. 기본값은 300입니다.

다음 표는 SPSS® Modeler 랜덤 포리스트 노드 대화 상자의 설정과 Python 랜덤 포리스트 라이브러리 매개변수 간의 관계를 보여줍니다.
표 1. Python 라이브러리 모수에 맵핑되는 노드 특성
SPSS Modeler 설정 스크립트 이름(특성 이름) 랜덤 포리스트 매개변수
목표 target
예측변수 inputs
작성할 트리의 수 n_estimators n_estimators
최대 깊이 지정 specify_max_depth specify_max_depth
최대 깊이 max_depth max_depth
최소 리프 노드 크기 min_samples_leaf min_samples_leaf
분할에 사용할 변수의 수 max_features max_features
트리 작성 시 붓스트랩 표본 사용 bootstrap bootstrap
일반화 정확도를 추정하기 위해 준비된 표본 사용 oob_score oob_score
극단적으로 임의화된 트리 사용 extreme
결과 복제 use_random_seed
난수 시드 random_seed random_seed
하이퍼-모수 최적화(Rbfopt 기준) enable_hpo
목표(HPO용) target_objval
최대 반복(HPO용) max_iterations
최대 평가(HPO용) max_evaluations

1L. Breiman, "Random Forests," Machine Learning, 45(1), 5-32, 2001.