비지도 머신 러닝이라고도 하는 비지도 학습은 머신 러닝 알고리즘을 사용하여 레이블이 지정되지 않은 데이터 세트를 분석하고 군집화합니다. 이 알고리즘은 인간의 개입 없이도 숨겨진 패턴이나 데이터 그룹핑을 감지합니다. 정보의 유사점과 차이점을 발견하는 이 알고리즘은 탐색형 데이터 분석, 크로스셀 전략, 고객 세분화, 이미지 인식에 매우 적합한 솔루션입니다.
비지도 학습 모델은 세 가지 주요 작업, 즉 군집화, 연관, 차원 축소에 활용됩니다. 아래에서는 각 학습 방법을 정의하고 이를 효과적으로 수행하기 위한 일반적인 알고리즘과 접근 방식을 집중적으로 살펴봅니다.
군집화는 레이블이 지정되지 않은 데이터를 유사점 또는 차이점에 따라 그룹화하는 데이터 마이닝 기술입니다. 군집화 알고리즘은 분류되지 않은 원시 데이터 객체를 정보의 구조 또는 패턴으로 표현되는 그룹으로 처리하는 데 사용됩니다. 군집화 알고리즘은 몇 가지 유형, 특히 배타적, 중첩적, 계층적 및 확률적 유형으로 분류할 수 있습니다.
배타적 군집화는 하나의 군집에 하나의 데이터 요소만 존재하도록 규정한 그룹화의 한 형태입니다. 이를 "하드" 군집화라고도 합니다. K-평균 군집화 알고리즘은 배타적 군집화의 예입니다.
중첩된 군집은 데이터 요소가 별도의 구성원이 있는 여러 군집에 포함되도록 허용한다는 점에서 배타적 군집화와 다릅니다. "소프트" 또는 퍼지 K-평균 군집화는 중첩 군집화의 예입니다.
계층적 군집화(계층적 군집 분석(HCA)이라고도 함)는 두 가지 방식, 즉 병합형 군집화 또는 분리형 군집화로 분류할 수 있는 비지도 군집화 알고리즘입니다. 병합형 군집화는 "상향식 접근 방식"으로 간주됩니다. 해당 데이터 요소는 처음에 별도의 그룹으로 분리된 다음 하나의 군집이 형성될 때까지 유사성을 기반으로 반복적으로 함께 병합됩니다. 유사성을 측정하기 위해 일반적으로 네 가지 방법이 사용됩니다.
유클리드 거리는 이러한 거리를 계산하는 데 사용되는 가장 일반적인 측정항목입니다. 그러나 맨해튼 거리와 같은 다른 측정항목도 군집화 학습 자료에서 인용됩니다.
분리형 군집화는 병합형 군집화의 반대로 정의할 수 있으며, "하향식" 접근 방식을 사용합니다. 이 경우 단일 데이터 군집은 데이터 지점 간의 차이점을 기준으로 나뉩니다. 분리형 군집화는 흔히 사용되지는 않지만, 계층적 군집화의 맥락에서 여전히 주목할 가치가 있습니다. 이러한 군집화 프로세스는 일반적으로 매번 반복할 때마다 데이터 지점의 병합 또는 분할을 문서화하는 나무 모양의 다이어그램인 계통수를 사용하여 시각화됩니다.
확률 모델은 밀도 추정 또는 "소프트" 군집화 문제를 해결하는 데 도움이 되는 비지도 기술입니다. 확률적 군집화에서 데이터 요소는 특정 분포에 속할 가능성을 기준으로 군집화됩니다. 가우스 혼합 모델(GMM)은 가장 일반적으로 사용되는 확률적 군집화 방법 중 하나입니다.
연관 규칙은 특정 데이터 세트에서 변수 간의 관계를 발견하기 위한 규칙 기반 학습 방법입니다. 이 방법은 장바구니 분석에 자주 사용되며, 이를 기반으로 기업은 서로 다른 제품 간의 관계를 정확하게 이해할 수 있습니다. 고객의 소비 습관을 이해하는 기업은 크로스셀 전략과 추천 엔진을 개발할 수 있습니다. 이에 대한 예시로 Amazon의 "이 상품을 구매한 고객이 함께 구입한 상품" 또는 Spotify의 "주간 추천" 플레이리스트를 들 수 있습니다. Apriori, Eclat, FP-Growth와 같은 연관 규칙을 생성하는 데 사용되는 몇 가지 다른 알고리즘이 있지만 Apriori 알고리즘이 가장 널리 사용됩니다.
Apriori 알고리즘은 장바구니 분석을 통해 대중화되어 음악 플랫폼 및 온라인 소매업체를 위한 다양한 추천 엔진으로 이어졌습니다. 이 알고리즘은 트랜잭션 데이터 세트에서 빈발 항목 집합 또는 항목 모음을 식별하고, 다른 제품의 소비를 고려하여 특정 제품을 소비할 가능성을 식별하는 데 사용됩니다. 예를 들어 Spotify에서 Black Sabbath의 라디오를 틀고 가장 먼저 이들의 노래 "Orchid"를 재생하면 이 채널의 다른 곡 중 하나는 "Over the Hills and Far Away"와 같이 Led Zeppelin의 곡일 가능성이 높습니다. 이는 이용자의 이전 청취 습관과 다른 사람들의 청취 습관을 기반으로 합니다. Apriori 알고리즘은 해시 트리를 사용하여 항목 집합을 계산하고 너비 우선 방식으로 데이터 세트를 탐색합니다.
일반적으로 데이터가 많을수록 더 정확한 결과를 얻을 수 있지만, 머신 러닝 알고리즘의 성능(예: 과적합)에 영향을 미치고 데이터 세트의 시각화가 어려워질 수 있습니다. 차원 축소는 특정 데이터 세트의 기능 또는 차원이 너무 많을 때 사용되는 기법으로, 데이터 입력 횟수를 관리 가능한 크기로 줄이면서 데이터 세트의 무결성을 최대한 보존합니다. 이 기법은 일반적으로 데이터 전처리 단계에서 사용되며, 몇 가지 차원 축소 방법을 사용할 수 있습니다. 예를 들면 다음과 같습니다.
주성분 분석(PCA)은 중복을 최소화하고 특성 추출을 통해 데이터 세트를 압축하는 데 사용되는 차원 축소 알고리즘의 한 유형입니다. 이 방법은 선형 변환을 사용하여 새로운 데이터 표현을 생성하고, 결과적으로 "주성분" 세트를 생성합니다. 첫 번째 주성분은 데이터 세트의 분산을 최대화하는 방향입니다. 두 번째 주성분도 데이터의 최대 분산을 발견하지만, 첫 번째 주성분과는 서로 완전한 비상관 관계이며 첫 번째 성분과 수직 또는 직교합니다. 이 프로세스는 차원의 수만큼 반복되며, 다음 주성분은 가장 큰 분산의 이전 성분과 직교하는 방향입니다.
비정칙 값 분해(SVD)는 행렬 A를 3개의 하위 행렬로 분해하는 또 다른 차원 축소 접근 방식입니다. SVD는 공식 "A = USVT"로 표시되는데, 여기서 U와 V는 직교 행렬입니다. S는 대각 행렬이며, S 값은 행렬 A의 비정칙 값으로 간주됩니다. PCA와 마찬가지로, 이 방법은 노이즈를 최소화하고 이미지 파일과 같은 데이터를 압축하는 데 사용됩니다.
오토인코더는 신경망을 활용하여 데이터를 압축한 다음 원본 데이터 입력의 새로운 표현을 재생성합니다. 아래 이미지를 보면 히든 레이어가 특히 출력 레이어를 재구성하기 전에 입력 레이어를 압축하는 병목 레이어 역할을 하는 것을 볼 수 있습니다. 입력 레이어에서 히든 레이어까지의 단계를 "인코딩"이라고 하고, 히든 레이어에서 출력 레이어까지의 단계를 "디코딩"이라고 합니다.
머신 러닝 기술은 제품 사용자 경험을 개선하고 품질 보증을 위해 시스템을 테스트하는 일반적인 방법이 되었습니다. 비지도 학습은 데이터를 볼 수 있는 탐색 분석 경로를 제공하므로 기업이 수동 관찰과 비교해 더 빠르게 대량의 데이터에서 패턴을 식별할 수 있습니다. 비지도 학습의 가장 일반적인 사용 사례 중 일부를 소개합니다.
비지도 학습과 지도 학습은 자주 함께 논의됩니다. 비지도 학습 알고리즘과 달리 지도 학습 알고리즘은 레이블이 지정된 데이터를 사용합니다. 해당 데이터에서 미래 결과를 예측하거나 해결하려는 회기 또는 분류 문제를 기반으로 특정 카테고리에 데이터를 할당합니다. 지도 학습 알고리즘은 비지도 학습 모델보다 대체로 더 정확하지만 데이터에 적절하게 레이블을 지정하려면 선행적 인간 개입이 필요합니다. 그러나 레이블이 지정된 데이터 세트를 사용하는 지도 학습 알고리즘은 의도한 결과를 생성하기 위해 대규모 훈련 세트를 사용하지 않아도 되므로 컴퓨팅 복잡성을 피할 수 있습니다. 일반적인 회귀 및 분류 기술에는 선형 및 로지스틱 회귀, 나이브 베이즈, KNN 알고리즘 및 랜덤 포레스트가 있습니다.
비지도 학습은 제공된 입력 데이터의 일부에만 레이블이 지정되었을 때 수행됩니다. 지도 학습에 적합한 데이터에 레이블을 지정하기 위해 도메인 전문 지식을 활용하는 경우 시간과 비용이 많이 들 수 있기 때문에 비지도 및 반지도 학습이 더 매력적인 대안이 될 수 있습니다.
이러한 접근 방식의 차이점을 자세히 알아보려면 "지도 학습과 비지도 학습: 차이점"을 확인하세요.
비지도 학습에는 많은 이점이 있지만 머신 러닝 모델이 인간의 개입 없이 실행되도록 허용할 때 몇 가지 문제가 발생할 수 있습니다. 이러한 문제 중 일부는 다음과 같습니다.