비지도 학습이란?

비지도 머신 러닝이라고도 하는 비지도 학습은 머신 러닝 알고리즘을 사용하여 레이블이 지정되지 않은 데이터 세트를 분석하고 군집화합니다. 이 알고리즘은 인간의 개입 없이도 숨겨진 패턴이나 데이터 그룹핑을 감지합니다. 정보의 유사점과 차이점을 발견하는 이 알고리즘은 탐색형 데이터 분석, 크로스셀 전략, 고객 세분화, 이미지 인식에 매우 적합한 솔루션입니다.

일반적인 비지도 학습 접근 방식

비지도 학습 모델은 세 가지 주요 작업, 즉 군집화, 연관, 차원 축소에 활용됩니다. 아래에서는 각 학습 방법을 정의하고 이를 효과적으로 수행하기 위한 일반적인 알고리즘과 접근 방식을 집중적으로 살펴봅니다.

클러스터링

군집화는 레이블이 지정되지 않은 데이터를 유사점 또는 차이점에 따라 그룹화하는 데이터 마이닝 기술입니다. 군집화 알고리즘은 분류되지 않은 원시 데이터 객체를 정보의 구조 또는 패턴으로 표현되는 그룹으로 처리하는 데 사용됩니다. 군집화 알고리즘은 몇 가지 유형, 특히 배타적, 중첩적, 계층적 및 확률적 유형으로 분류할 수 있습니다.

배타적 및 중첩적 군집화

배타적 군집화는 하나의 군집에 하나의 데이터 요소만 존재하도록 규정한 그룹화의 한 형태입니다. 이를 "하드" 군집화라고도 합니다. K-평균 군집화 알고리즘은 배타적 군집화의 예입니다.

K-평균 군집화는 데이터 요소를 K 그룹으로 할당하는 배타적 군집화 방법의 일반적인 예입니다. 여기서 K는 각 그룹의 중심으로부터의 거리를 기준으로 한 군집 수를 나타냅니다. 특정 중심에 가장 가까운 데이터 요소는 동일한 카테고리로 군집화됩니다. K 값이 크면 더 세부적인 소규모 그룹을 나타내고, K 값이 작으면 덜 세부적인 대규모 그룹을 나타냅니다. K-평균 군집화는 일반적으로 시장 세분화, 문서 군집화, 이미지 세분화 및 이미지 압축에 사용됩니다.

중첩된 군집은 데이터 요소가 별도의 구성원이 있는 여러 군집에 포함되도록 허용한다는 점에서 배타적 군집화와 다릅니다. "소프트" 또는 퍼지 K-평균 군집화는 중첩 군집화의 예입니다.

계층적 군집화

계층적 군집화(계층적 군집 분석(HCA)이라고도 함)는 두 가지 방식, 즉 병합형 군집화 또는 분리형 군집화로 분류할 수 있는 비지도 군집화 알고리즘입니다. 병합형 군집화는 "상향식 접근 방식"으로 간주됩니다. 해당 데이터 요소는 처음에 별도의 그룹으로 분리된 다음 하나의 군집이 형성될 때까지 유사성을 기반으로 반복적으로 함께 병합됩니다. 유사성을 측정하기 위해 일반적으로 네 가지 방법이 사용됩니다.

Ward 연결법: 이 방법에서 두 군집 사이의 거리는 클러스터 병합 후 제곱합의 증가로 정의됩니다.
평균 연결법: 이 방법은 각 군집에서 두 지점 사이의 평균 거리로 정의됩니다.
완전(최장) 연결법: 이 방법은 각 군집에서 두 지점 사이의 최장 거리로 정의됩니다.
단일(최단) 연결법: 이 방법은 각 군집에서 두 지점 사이의 최단 거리로 정의됩니다.

유클리드 거리는 이러한 거리를 계산하는 데 사용되는 가장 일반적인 측정항목입니다. 그러나 맨해튼 거리와 같은 다른 측정항목도 군집화 학습 자료에서 인용됩니다.

분리형 군집화는 병합형 군집화의 반대로 정의할 수 있으며, "하향식" 접근 방식을 사용합니다. 이 경우 단일 데이터 군집은 데이터 지점 간의 차이점을 기준으로 나뉩니다. 분리형 군집화는 흔히 사용되지는 않지만, 계층적 군집화의 맥락에서 여전히 주목할 가치가 있습니다. 이러한 군집화 프로세스는 일반적으로 매번 반복할 때마다 데이터 지점의 병합 또는 분할을 문서화하는 나무 모양의 다이어그램인 계통수를 사용하여 시각화됩니다.

확률적 군집화

확률 모델은 밀도 추정 또는 "소프트" 군집화 문제를 해결하는 데 도움이 되는 비지도 기술입니다. 확률적 군집화에서 데이터 요소는 특정 분포에 속할 가능성을 기준으로 군집화됩니다. 가우스 혼합 모델(GMM)은 가장 일반적으로 사용되는 확률적 군집화 방법 중 하나입니다.

가우스 혼합 모델은 혼합 모델로 분류되며, 이는 불특정 다수의 확률 분포 함수로 구성됩니다. GMM은 주로 특정 데이터 요소가 속한 가우시안 또는 정규 확률 분포를 결정하는 데 활용됩니다. 평균 또는 분산을 알면 특정 데이터 요소가 속한 분포를 결정할 수 있습니다. 그러나 GMM에서는 이러한 변수를 알 수 없으므로 데이터 요소를 적절한 군집에 포함시키는 잠재 변수 또는 숨은 변수가 존재한다고 가정합니다. 기댓값-최대화(EM) 알고리즘을 사용할 필요는 없지만, 일반적으로 특정 데이터 군집에 대한 특정 데이터 요소의 할당 확률을 추정하는 데 사용됩니다.

연관 규칙

연관 규칙은 특정 데이터 세트에서 변수 간의 관계를 발견하기 위한 규칙 기반 학습 방법입니다. 이 방법은 장바구니 분석에 자주 사용되며, 이를 기반으로 기업은 서로 다른 제품 간의 관계를 정확하게 이해할 수 있습니다. 고객의 소비 습관을 이해하는 기업은 크로스셀 전략과 추천 엔진을 개발할 수 있습니다. 이에 대한 예시로 Amazon의 "이 상품을 구매한 고객이 함께 구입한 상품" 또는 Spotify의 "주간 추천" 플레이리스트를 들 수 있습니다. Apriori, Eclat, FP-Growth와 같은 연관 규칙을 생성하는 데 사용되는 몇 가지 다른 알고리즘이 있지만 Apriori 알고리즘이 가장 널리 사용됩니다.

Apriori 알고리즘

Apriori 알고리즘은 장바구니 분석을 통해 대중화되어 음악 플랫폼 및 온라인 소매업체를 위한 다양한 추천 엔진으로 이어졌습니다. 이 알고리즘은 트랜잭션 데이터 세트에서 빈발 항목 집합 또는 항목 모음을 식별하고, 다른 제품의 소비를 고려하여 특정 제품을 소비할 가능성을 식별하는 데 사용됩니다. 예를 들어 Spotify에서 Black Sabbath의 라디오를 틀고 가장 먼저 이들의 노래 "Orchid"를 재생하면 이 채널의 다른 곡 중 하나는 "Over the Hills and Far Away"와 같이 Led Zeppelin의 곡일 가능성이 높습니다. 이는 이용자의 이전 청취 습관과 다른 사람들의 청취 습관을 기반으로 합니다. Apriori 알고리즘은 해시 트리를 사용하여 항목 집합을 계산하고 너비 우선 방식으로 데이터 세트를 탐색합니다.

차원 축소

일반적으로 데이터가 많을수록 더 정확한 결과를 얻을 수 있지만, 머신 러닝 알고리즘의 성능(예: 과적합)에 영향을 미치고 데이터 세트의 시각화가 어려워질 수 있습니다. 차원 축소는 특정 데이터 세트의 기능 또는 차원이 너무 많을 때 사용되는 기법으로, 데이터 입력 횟수를 관리 가능한 크기로 줄이면서 데이터 세트의 무결성을 최대한 보존합니다. 이 기법은 일반적으로 데이터 전처리 단계에서 사용되며, 몇 가지 차원 축소 방법을 사용할 수 있습니다. 예를 들면 다음과 같습니다.

주성분 분석

주성분 분석(PCA)은 중복을 최소화하고 특성 추출을 통해 데이터 세트를 압축하는 데 사용되는 차원 축소 알고리즘의 한 유형입니다. 이 방법은 선형 변환을 사용하여 새로운 데이터 표현을 생성하고, 결과적으로 "주성분" 세트를 생성합니다. 첫 번째 주성분은 데이터 세트의 분산을 최대화하는 방향입니다. 두 번째 주성분도 데이터의 최대 분산을 발견하지만, 첫 번째 주성분과는 서로 완전한 비상관 관계이며 첫 번째 성분과 수직 또는 직교합니다. 이 프로세스는 차원의 수만큼 반복되며, 다음 주성분은 가장 큰 분산의 이전 성분과 직교하는 방향입니다.

비정칙 값 분해

비정칙 값 분해(SVD)는 행렬 A를 3개의 하위 행렬로 분해하는 또 다른 차원 축소 접근 방식입니다. SVD는 공식 "A = USVT"로 표시되는데, 여기서 U와 V는 직교 행렬입니다. S는 대각 행렬이며, S 값은 행렬 A의 비정칙 값으로 간주됩니다. PCA와 마찬가지로, 이 방법은 노이즈를 최소화하고 이미지 파일과 같은 데이터를 압축하는 데 사용됩니다.

오토인코더

오토인코더는 신경망을 활용하여 데이터를 압축한 다음 원본 데이터 입력의 새로운 표현을 재생성합니다. 아래 이미지를 보면 히든 레이어가 특히 출력 레이어를 재구성하기 전에 입력 레이어를 압축하는 병목 레이어 역할을 하는 것을 볼 수 있습니다. 입력 레이어에서 히든 레이어까지의 단계를 "인코딩"이라고 하고, 히든 레이어에서 출력 레이어까지의 단계를 "디코딩"이라고 합니다.

비지도 학습의 사용 사례

머신 러닝 기술은 제품 사용자 경험을 개선하고 품질 보증을 위해 시스템을 테스트하는 일반적인 방법이 되었습니다. 비지도 학습은 데이터를 볼 수 있는 탐색 분석 경로를 제공하므로 기업이 수동 관찰과 비교해 더 빠르게 대량의 데이터에서 패턴을 식별할 수 있습니다. 비지도 학습의 가장 일반적인 사용 사례 중 일부를 소개합니다.

뉴스 섹션: Google 뉴스는 비지도 학습을 사용하여 다양한 온라인 언론 매체에서 동일한 스토리에 대한 기사를 분류합니다. 예를 들어, 대통령 선거 결과는 "미국" 뉴스 레이블로 분류될 수 있습니다.
컴퓨터 비전: 비지도 학습 알고리즘은 객체 인식과 같은 시각적 인식 작업에 사용됩니다.
의료 영상: 비지도 머신 러닝은 환자를 빠르고 정확하게 진단하기 위해 방사선학과 병리학에서 사용되는 이미지 감지, 분류 및 분할과 같은 의료 영상 장치에 필수 특성을 제공합니다.
이상 감지: 비지도 학습 모델은 대규모 데이터를 분석하고 데이터 세트에서 비전형적인 데이터 요소를 발견할 수 있습니다. 이러한 이상치는 장비 결함, 인적 오류 또는 보안 위반에 대한 경각심을 높일 수 있습니다.
고객 페르소나: 고객 페르소나를 정의하면 공통 특성과 비즈니스 고객의 구매 습관을 더 쉽게 이해할 수 있습니다. 비지도 학습을 통해 기업은 더 나은 구매자 페르소나 프로필을 구축하여 조직이 제품 메시지를 보다 적절하게 조정할 수 있도록 합니다.
추천 엔진: 과거 구매 행동 데이터를 사용하는 비지도 학습은 보다 효과적인 크로스셀 전략을 개발하는 데 사용할 수 있는 데이터 트렌드를 발견하는 데 도움이 될 수 있습니다. 이 엔진은 온라인 소매업체의 결제 프로세스 도중 고객들에게 연관된 부가적인 상품을 추천하는 데 사용됩니다.

비지도 학습, 지도 학습 및 반지도 학습

비지도 학습과 지도 학습은 자주 함께 논의됩니다. 비지도 학습 알고리즘과 달리 지도 학습 알고리즘은 레이블이 지정된 데이터를 사용합니다. 해당 데이터에서 미래 결과를 예측하거나 해결하려는 회기 또는 분류 문제를 기반으로 특정 카테고리에 데이터를 할당합니다. 지도 학습 알고리즘은 비지도 학습 모델보다 대체로 더 정확하지만 데이터에 적절하게 레이블을 지정하려면 선행적 인간 개입이 필요합니다. 그러나 레이블이 지정된 데이터 세트를 사용하는 지도 학습 알고리즘은 의도한 결과를 생성하기 위해 대규모 훈련 세트를 사용하지 않아도 되므로 컴퓨팅 복잡성을 피할 수 있습니다. 일반적인 회귀 및 분류 기술에는 선형 및 로지스틱 회귀, 나이브 베이즈, KNN 알고리즘 및 랜덤 포레스트가 있습니다.

비지도 학습은 제공된 입력 데이터의 일부에만 레이블이 지정되었을 때 수행됩니다. 지도 학습에 적합한 데이터에 레이블을 지정하기 위해 도메인 전문 지식을 활용하는 경우 시간과 비용이 많이 들 수 있기 때문에 비지도 및 반지도 학습이 더 매력적인 대안이 될 수 있습니다.

이러한 접근 방식의 차이점을 자세히 알아보려면 "지도 학습과 비지도 학습: 차이점"을 확인하세요.

비지도 학습의 과제

비지도 학습에는 많은 이점이 있지만 머신 러닝 모델이 인간의 개입 없이 실행되도록 허용할 때 몇 가지 문제가 발생할 수 있습니다. 이러한 문제 중 일부는 다음과 같습니다.

많은 양의 훈련 데이터로 인한 컴퓨팅 복잡성
긴 훈련 시간
부정확한 결과의 발생 위험 높음
출력 변수를 검증하기 위한 인간의 개입
데이터의 군집화 기준에 대한 투명성 부족