군집 모델

군집 모델은 유사한 레코드 그룹을 식별하고 레코드에 이들이 속하는 그룹에 따라 레이블을 붙이는 데 초점을 둡니다. 이는 그룹 및 해당 특성에 대한 사전 지식 없이도 수행됩니다. 실제로는 심지어 얼마나 많은 그룹을 찾을지 정확히 알지 못할 수도 있습니다. 이 점이 바로 군집 모델을 다른 머신 학습 기법과 구별합니다. 예측할 모델에 대한 사전정의된 출력 또는 대상 필드가 없습니다. 이 모델은 모델의 분류 성능을 판단할 외부 표준이 없기 때문에 종종 자율 학습 모델이라 부르기도 합니다. 이 모델에 대한 올바른 또는 잘못된 응답이 없습니다. 이들 값은 데이터에서 관심 있는 집단을 캡처하고 이러한 집단에 대한 유용한 설명을 제공하는 기능으로 판별됩니다.

군집방법은 레코드 간 그리고 군집 간의 거리 측정을 기반으로 합니다. 레코드는 동일한 군집에 속한 레코드 사이의 거리를 최소화하려는 방식으로 군집에 할당됩니다.

다음 군집방법이 제공됩니다.

K-평균 노드는 데이터 세트를 고유 그룹(또는 군집)으로 군집화합니다. 이 방법은 고정된 수의 군집을 정의하고 반복적으로 레코드를 군집에 지정하며, 추가 세분화가 더 이상 모델을 향상시킬 수 없을 때까지 군집중심을 조정합니다. 결과를 예상하는 대신 k-평균은 자율 학습으로 알려진 프로세스를 사용하여 입력 필드 세트의 패턴을 찾아냅니다.
이단계 노드는 2단계 군집방법을 사용합니다. 첫 번째 단계는 원시 입력 데이터를 관리 가능한 하위 군집 세트로 압축하기 위해 데이터를 통한 단일 전달을 수행합니다. 두 번째 단계는 계층적 군집 방법을 사용하여 하위 군집을 점점 더 큰 군집으로 계속해서 병합하는 것입니다. 이단계는 학습 데이터에 대한 최적 군집 수를 자동으로 평가하는 장점이 있습니다. 혼합 필드 유형과 대형 데이터 세트를 효율적으로 처리할 수 있습니다.
코호넨 노드는 데이터 세트를 고유 그룹으로 군집화하는 데 사용할 수 있는 신경망 유형을 생성합니다. 네트워크가 완전히 숙달되면, 유사 레코드는 출력 맵 가까이 있지만, 다른 레코드는 멀리 떨어져 있을 것입니다. 모델 너깃에서 각 단위별로 캡처된 관측값을 살펴 강한 단위를 식별할 수 있습니다. 이것은 적당한 군집 수에 대한 감각을 제공할 것입니다.
Hierarchical Density-Based Spatial Clustering(HDBSCAN)©은 자율 학습을 사용하여 데이터 세트의 군집 또는 밀집된 영역을 찾습니다. SPSS® Modeler의 HDBSCAN 노드에는 HDBSCAN 라이브러리의 핵심 기능과 일반적으로 사용되는 매개변수가 표시됩니다. 이 노드는 Python으로 구현되며, 초기에 그룹이 어떤 그룹인지 모를 때 이 노드를 사용하여 데이터 세트를 구별되는 그룹으로 군집화할 수 있습니다.

군집 모델은 종종 후속 분석의 입력으로 사용되는 군집 또는 세그먼트를 작성하는 데 사용됩니다. 일반적인 예로는 마케터가 전체 시장을 동종의 하위 그룹으로 분할하는 데 사용하는 시장 세그먼트가 있습니다. 각 세그먼트에는 목표를 향한 마케팅 노력의 성공에 영향을 미치는 특수 공정특성 변수가 있습니다. 마케팅 전략을 최적화하기 위해 데이터 마이닝을 사용 중이면 일반적으로 적합한 세그먼트를 식별하고 예측 모델에 세그먼트 정보를 사용해서 모델을 상당히 개선할 수 있습니다.