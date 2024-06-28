다음은 가장 인기 있는 데이터 마이닝의 몇 가지 유형입니다.

연관 규칙: 연관 규칙은 데이터 세트에서 변수 간의 관계를 찾기 위한 if/then, 규칙 기반 방법입니다. 관계의 강점은 지원과 신뢰로 측정됩니다. 신뢰 수준은 if 또는 then 문이 얼마나 자주 참인지에 따라 결정됩니다. 지원 척도는 관련 요소가 데이터에 얼마나 자주 표시되는지를 나타냅니다.

이러한 방법은 장바구니 분석에 자주 사용되며, 기업은 함께 자주 구매하는 제품과 같은 다양한 제품 간의 관계를 더 잘 이해할 수 있습니다. 고객의 습관을 이해하면 기업은 더 나은 교차 판매 전략과 추천 엔진을 개발할 수 있습니다.



분류: 조직의 필요에 따라 객체의 클래스가 미리 정의되고 객체가 공통적으로 가지고 있는 특성이 정의됩니다. 이렇게 하면 기초 데이터를 그룹화하여 더 쉽게 분석할 수 있습니다.

예를 들어, 소비재 회사는 판매 데이터, 재고 통계 및 현재 보유하고 있는 모든 소비자 데이터와 함께 과거 쿠폰 사용 내역을 통해 쿠폰 전략을 검토하여 향후 최적의 캠페인 전략을 찾을 수 있습니다.



클러스터링: 분류와 밀접한 관련이 있는 클러스터링은 유사성을 보고하기도 하지만, 차이점을 기반으로 더 많은 그룹화를 제공합니다. 비누 제조업체의 사전 설정 분류에는 세제, 표백제, 세탁 유연제, 바닥 세정제 및 바닥 왁스가 포함될 수 있으며, 클러스터링을 통해 세탁 제품 및 바닥 관리 제품 등의 그룹을 만들 수 있습니다.



Decision Tree: 이 데이터 마이닝 기법은 분류 또는 회귀 분석을 사용하여 일련의 의사 결정에 따라 잠재적인 결과를 분류하거나 예측합니다. Decision Tree는 이름에서 알 수 있듯이 나무 모양의 시각화를 사용하여 이러한 결정의 잠재적 결과를 나타냅니다.

K-최근접 이웃(KNN): KNN 알고리즘이라고도 하는 K-최근접 이웃은 사용 가능한 다른 데이터와의 근접성 및 연결을 기반으로 데이터 요소를 분류하는 비모수적 알고리즘입니다. 이 알고리즘은 유사한 데이터 포인트가 서로 가까이 있다고 가정합니다. 그 결과, 일반적으로 유클리드 거리를 통해 데이터 포인트 간의 거리를 계산한 다음 가장 빈번한 카테고리 또는 평균을 기준으로 카테고리를 할당합니다.



신경망: 주로 딥 러닝 알고리즘에 사용되는 신경망은 노드 계층을 통해 인간 두뇌의 상호 연결성을 모방하여 학습 데이터를 처리합니다. 각 노드는 입력, 가중치, 편향(임곗값) 및 출력으로 구성됩니다.

해당 출력값이 임곗값을 초과하면 노드를 '실행'하거나 활성화하여 데이터를 네트워크의 다음 계층으로 전달합니다. 신경망은 지도 학습을 통해 이 매핑 함수를 학습하고, 경사하강법(gradient descent) 과정을 통해 손실 함수를 기반으로 조정합니다. 비용 함수가 0에 가깝거나 0에 가까울 때 조직은 모델의 정확도가 정답을 산출한다고 확신할 수 있습니다.

예측 분석: 데이터 마이닝을 통계적 모델링 기술 및 머신 러닝과 결합하면 예측 분석을 사용함으로써 과거 데이터를 분석하여 패턴을 식별하고 미래의 이벤트와 결과를 예측하며 위험과 기회를 식별하는 그래픽 또는 수학적 모델을 만들 수 있습니다.



회귀 분석: 이 기술은 미리 정해진 변수에 따라 결과를 예측하여 데이터 내의 관계를 찾아냅니다. 여기에는 Decision Trees와 다변량 및 선형 회귀가 포함될 수 있습니다. 관계의 근접성을 기준으로 결과의 우선순위를 정하면 어떤 데이터가 가장 중요하거나 덜 중요한지 판단하는 데 도움이 됩니다. 청량음료 제조업체가 무더운 여름 날씨가 예상되기 전에 필요한 음료 재고를 예측하는 것을 예로 들 수 있습니다.