비지도 학습이란 무엇인가요?

2021년 9월 23일

비지도 학습이란 무엇인가요?

비지도 머신 러닝이라고도 하는 비지도 학습은 머신 러닝(ML) 알고리즘을 사용하여 라벨이 지정되지 않은 데이터 세트를 분석하고 클러스터링합니다. 이러한 알고리즘은 사람의 개입 없이 숨겨진 패턴이나 데이터 그룹을 찾아냅니다.

비지도 학습은 정보의 유사점과 차이점을 스스로 발견할 수 있는 능력 덕분에 탐색적 데이터 분석, 교차 판매 전략, 고객 세분화, 이미지 인식 등에 이상적인 솔루션입니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트

주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

일반적인 비지도 학습 접근 방식

비지도 학습 모델은 클러스터, 연관 및 차원 축소의 세 가지 주요 작업에 활용됩니다. 아래에서는 각 학습 방법을 정의하고 이를 효과적으로 수행하기 위한 일반적인 알고리즘과 접근 방식을 소개합니다.

클러스터링

클러스터는 유사성 또는 차이점을 기반으로 레이블이 지정되지 않은 데이터를 그룹화하는 데이터 마이닝 기술입니다. 클러스터링 알고리즘은 분류되지 않은 원시 데이터 객체를 정보 내의 구조나 패턴으로 표현되는 그룹으로 처리하는 데 사용됩니다. 클러스터링 알고리즘은 배타적, 중복적, 계층적 및 확률적 등 몇 가지 유형으로 분류할 수 있습니다.

배타적 클러스터링 및 중복 클러스터링

독점 클러스터링은 데이터 포인트가 하나의 클러스터에만 존재할 수 있도록 규정하는 그룹화의 한 형태입니다. 이를 "하드" 클러스터링이라고도 합니다. K-평균 클러스터링은 데이터 포인트를 K개의 그룹에 할당하는 배타적 클러스터링 방법의 일반적인 예이며, 여기서 K는 각 그룹의 중심으로부터의 거리를 기반으로 하는 클러스터 수를 나타냅니다. 주어진 중심점에 가장 가까운 데이터 포인트들은 동일한 카테고리로 클러스터링됩니다. 더 큰 K 값은 더 세분화된 작은 그룹을 나타내며, 반대로 더 작은 K 값은 더 큰 그룹과 낮은 세분화를 의미합니다. K-평균 클러스터링은 시장 세분화, 문서 클러스터링, 이미지 분할, 이미지 압축 등에 일반적으로 사용됩니다.

중복 클러스터는 데이터 요소가 별도의 멤버십 등급을 가진 여러 클러스터에 속할 수 있다는 점에서 배타적 클러스터링과 다릅니다. “소프트(soft)” 또는 퍼지(fuzzy) K-평균 클러스터링은 중복 클러스터링의 한 예입니다.

계층적 클러스터링

계층적 클러스터링 또는 계층적 클러스터 분석(HCA)은 비지도 클러스터링 알고리즘으로, 병합형 또는 분할형의 두 가지 방식으로 분류할 수 있습니다.

병합형 클러스터링은 “상향식 접근 방식”으로 간주됩니다. 이 방식에서는 데이터 포인트들이 처음에는 각각 개별 그룹으로 분리되어 있다가, 유사도를 기준으로 반복적으로 병합되어 결국 하나의 클러스터가 될 때까지 진행됩니다. 유사도를 측정하는 데 일반적으로 사용되는 네 가지 방법은 다음과 같습니다.

  1. 워드 연결법: 이 방법은 두 클러스터 간의 거리를, 클러스터를 병합한 후 전체 제곱합이 증가하는 정도로 정의합니다.

  2. 평균 연결법: 이 방법은 각 클러스터에 있는 두 점 사이의 평균 거리를 기준으로 정의됩니다.

  3. 완전 연결법(또는 최대 연결법): 이 방법은 각 클러스터에 있는 두 점 사이의 최대 거리를 기준으로 정의됩니다.

  4. 단일 연결법(또는 최소 연결법): 이 방법은 각 클러스터에 있는 두 점 사이의 최소 거리를 기준으로 정의됩니다.

이러한 거리들을 계산할 때 가장 일반적으로 사용되는 지표는 유클리드 거리이며, 클러스터링 관련 문헌에서는 맨해튼 거리와 같은 다른 지표들도 언급됩니다.

분할형 클러스터링은 병합형 클러스터링의 반대 개념으로 정의될 수 있으며, “하향식” 접근 방식을 취합니다. 이 경우, 하나의 데이터 클러스터가 데이터 포인트 간의 차이를 기반으로 분할됩니다. 분할형 클러스터링은 일반적으로 자주 사용되지는 않지만, 계층적 클러스터링의 맥락에서는 여전히 주목할 가치가 있습니다. 이러한 클러스터링 과정은 일반적으로 덴드로그램을 사용해 시각화되며, 덴드로그램은 각 반복 단계에서 데이터 포인트의 병합 또는 분할 과정을 기록하는 나무 형태의 다이어그램입니다.

확률적 클러스터링

확률 모델은 밀도 추정 또는 “소프트” 클러스터링 문제를 해결하는 데 도움을 주는 비지도 학습 기법입니다. 확률 기반 클러스터링에서는 데이터 포인트가 특정 분포에 속할 확률을 기반으로 클러스터링됩니다. 가우시안 혼합 모델(Gaussian Mixture Model, GMM)은 가장 널리 사용되는 확률 기반 클러스터링 방법 중 하나입니다.

  • 가우시안 혼합 모델은 혼합 모델로 분류되며, 이는 명시되지 않은 개수의 확률 분포 함수들로 구성되어 있다는 것을 의미합니다. GMM은 주로 주어진 데이터 포인트가 어떤 가우시안(또는 정규) 확률 분포에 속하는지를 결정하는 데 사용됩니다. 평균이나 분산이 알려져 있다면, 주어진 데이터 포인트가 어떤 분포에 속하는지를 판단할 수 있습니다. 하지만 GMM에서는 이러한 변수들이 알려져 있지 않기 때문에, 데이터 포인트를 적절히 클러스터링하기 위해 잠재 변수 또는 숨겨진 변수가 존재한다고 가정합니다. 기대 최대화(EM) 알고리즘을 반드시 사용해야 하는 것은 아니지만, 주어진 데이터 포인트가 특정 데이터 클러스터에 속할 확률을 추정하는 데 일반적으로 사용되는 방법입니다.

연결 규칙

연결 규칙은 주어진 데이터 세트에서 변수들 간의 관계를 찾아내기 위한 규칙 기반 방법입니다. 이러한 방법은 마켓 바스켓 분석에 자주 사용되며, 기업이 서로 다른 제품 간의 관계를 더 잘 이해할 수 있도록 도와줍니다. 고객의 소비 습관을 이해하면 기업은 보다 효과적인 교차 판매 전략과 추천 엔진을 개발할 수 있습니다. 이러한 예로는 Amazon의 “이 상품을 구매한 고객은 다음 상품도 구매했습니다” 또는 Spotify의 "Discover Weekly" 플레이리스트가 있습니다. Apriori, Eclat, FP-Growth와 같은 다양한 알고리즘이 연관 규칙을 생성하는 데 사용되지만, 그중에서도 Apriori 알고리즘이 가장 널리 사용됩니다.

Apriori 알고리즘

Apriori 알고리즘은 마켓 바스켓 분석을 통해 널리 알려지게 되었으며, 이를 바탕으로 음악 플랫폼이나 온라인 소매업체에서 다양한 추천 엔진이 개발되었습니다. 이 알고리즘은 거래 데이터 세트 내에서 자주 함께 나타나는 품목 집합을 식별하는 데 사용되며, 한 제품이 소비되었을 때 다른 제품이 소비될 가능성을 파악하는 데 활용됩니다. 예를 들어, Spotify에서 Black Sabbath의 라디오를 “Orchid”라는 곡으로 시작해서 재생하면, 해당 채널의 다른 곡으로 Led Zeppelin의 “Over the Hills and Far Away” 같은 곡이 나올 가능성이 높습니다. 이는 나의 이전 청취 습관뿐만 아니라 다른 사용자들의 청취 습관을 기반으로 합니다. Apriori 알고리즘은 아이템 세트를 계산하기 위해 해시 트리를 사용하며, 데이터 세트를 너비 우선 방식으로 탐색합니다.

차원 축소

더 많은 데이터는 일반적으로 더 정확한 결과를 제공하지만, 과적합과 같은 문제를 일으켜 머신 러닝 알고리즘의 성능에 영향을 줄 수 있으며, 데이터 세트를 시각화하기 어렵게 만들기도 합니다. 차원 축소는 주어진 데이터 세트에서 특성 또는 차원의 수가 너무 많을 때 사용하는 기법입니다. 이 기법은 데이터 입력 수를 관리 가능한 수준으로 줄이면서도, 가능한 한 데이터 세트의 본래 특성을 유지하려고 합니다. 차원 축소는 일반적으로 데이터 전처리 단계에서 사용되며, 사용할 수 있는 다양한 차원 축소 기법들이 있습니다. 예를 들면 다음과 같습니다.

주성분 분석

주성분 분석(PCA)은 차원 축소 알고리즘의 한 종류로, 특성 추출을 통해 데이터 세트의 중복성을 줄이고 압축하는 데 사용됩니다. 이 방법은 선형 변환을 사용하여 새로운 데이터 표현을 만들어내며, 이를 통해 "주성분"이라는 집합을 도출합니다. 첫 번째 주성분은 데이터 세트의 분산을 가장 크게 만드는 방향입니다. 두 번째 주성분 또한 데이터에서 최대 분산을 찾지만, 첫 번째 주성분과는 완전히 상관관계가 없으며, 첫 번째 주성분에 수직, 즉 직교하는 방향을 나타냅니다. 이 과정은 차원의 수에 따라 반복되며, 다음 주성분은 이전 주성분들과 직교하면서 가장 큰 분산을 갖는 방향으로 결정됩니다.

특이값 분해

특이값 분해(SVD)는 또 다른 차원 축소 기법으로, 행렬 A를 세 개의 낮은 순위 행렬로 분해하는 방식입니다. SVD는 A = USVT라는 수식으로 표현되며, 여기서 U와 V는 직교 행렬입니다. S는 대각 행렬이며, S의 값들은 행렬 A의 특이값으로 간주됩니다. PCA와 유사하게, SVD는 노이즈를 줄이거나 이미지 파일과 같은 데이터를 압축하는 데 흔히 사용됩니다.

오토인코더

오토인코더는 신경망을 활용하여 데이터를 압축한 뒤, 원래 데이터 입력의 새로운 표현을 재구성합니다. 아래 이미지에서 볼 수 있듯이, 은닉층은 입력층을 압축하는 병목 역할을 하며, 이후 출력층에서 이를 재구성하는 과정을 거칩니다. 입력층에서 은닉층으로의 단계는 “인코딩”이라 불리며, 은닉층에서 출력층으로의 단계는 “디코딩”이라고 합니다.

비지도 학습 애플리케이션

머신 러닝 기법은 제품의 사용자 경험을 향상시키고 시스템의 품질 보증을 테스트하는 데 있어 일반적인 방법으로 자리 잡고 있습니다. 비지도 학습은 데이터를 탐색적으로 바라볼 수 있는 경로를 제공하며, 수작업으로 관찰하는 것보다 더 빠르게 대규모 데이터에서 패턴을 식별할 수 있도록 기업을 도와줍니다. 비지도 학습의 가장 일반적인 실제 활용 사례로는 다음과 같은 것들이 있습니다.

  • 뉴스 섹션: Google 뉴스는 비지도 학습을 활용해 여러 온라인 뉴스 매체의 동일한 기사들을 하나의 이야기로 분류합니다. 예를 들어, 대통령 선거 결과는 "미국(US)" 뉴스 카테고리 아래로 분류될 수 있습니다.

  • 컴퓨팅 비전: 비지도 학습 알고리즘은 객체 인식과 같은 시각 인식 작업에 사용됩니다.

  • 의료 영상: 비지도 머신 러닝은 의료 영상 장치에 필수적인 기능을 제공하며, 방사선학 및 병리학에서 환자를 빠르고 정확하게 진단하기 위해 이미지 감지, 분류, 분할 등에 활용됩니다.

  • 이상 탐지: 비지도 학습 모델은 대량의 데이터를 탐색하여 데이터 세트 내에서 비정상적인 데이터 포인트를 찾아낼 수 있습니다. 이러한 이상 현상은 결함이 있는 장비, 인적 오류 또는 사이버 보안 위반에 대한 인식을 높일 수 있습니다.

  • 고객 페르소나: 고객 페르소나를 정의하면 공통된 특성과 비즈니스 고객의 구매 습관을 더 쉽게 이해할 수 있습니다. 비지도 학습은 기업이 더 나은 구매자 페르소나 프로필을 구축할 수 있게 하여, 조직이 제품 메시지를 보다 적절하게 조정할 수 있도록 지원합니다.

  • 추천 엔진: 과거 구매 행동 데이터를 활용해 비지도 학습은 보다 효과적인 교차 판매 전략을 개발하는 데 활용할 수 있는 데이터 트렌드를 발견하는 데 도움을 줍니다. 이는 온라인 소매업체에서 고객이 결제를 진행할 때 관련된 추천 상품을 권하는 데 사용됩니다.
Mixture of Experts | 4월 25일, 에피소드 52

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

비지도 학습, 지도 학습, 준지도 학습 비교

지도 학습과 비지도 학습은 종종 함께 논의됩니다. 비지도 학습 알고리즘과 달리, 지도 학습 알고리즘은 라벨이 지정된 데이터를 사용합니다. 이 데이터를 바탕으로, 해결하려는 회귀 또는 분류 문제에 따라 미래 결과를 예측하거나 데이터를 특정 카테고리에 할당합니다.

지도 학습 알고리즘은 비지도 학습 모델보다 일반적으로 더 정확하지만, 데이터를 적절히 라벨링하기 위한 사전 인간 개입이 필요합니다. 하지만 이러한 라벨이 지정된 데이터 세트 덕분에 지도 학습 알고리즘은 의도한 결과를 도출하는 데 큰 학습 데이터 세트가 필요하지 않아 계산 복잡성을 줄일 수 있습니다. 일반적인 회귀 및 분류 기술로는 선형 회귀, 로지스틱 회귀, 나이브 베이즈, KNN 알고리즘, 랜덤 포레스트 등이 있습니다.

준지도 학습은 주어진 입력 데이터의 일부만 라벨이 지정되었을 때 발생합니다. 비지도 및 준지도 학습은 지도 학습에 적합한 데이터 라벨을 지정하기 위해 도메인 전문 지식에 의존하는 데 시간과 비용이 많이 들 수 있으므로 더 매력적인 대안이 될 수 있으며, 일반적인 클러스터링 알고리즘은 계층적, k-평균 및 가우시안 혼합 모델입니다.

이러한 접근 방식의 차이점에 대한 자세한 내용은 '지도 학습과 비지도 학습 비교: 차이점은 무엇인가요?'를 참조하세요.

비지도 학습의 과제

비지도 학습에는 많은 장점이 있지만, 머신 러닝 모델이 인간의 개입 없이 실행될 때 몇 가지 어려움이 발생할 수 있습니다. 이러한 문제에는 다음이 포함될 수 있습니다.

  • 대량의 학습 데이터로 인한 계산 복잡성

  • 학습 시간 연장

  • 부정확한 결과의 위험 증가

  • 아웃풋 변수를 검증하기 위한 사람의 개입

  • 데이터가 클러스터링된 기준에 대한 투명성 부족
관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기