PCA, LDA 및 t-SNE와 같은 차원 축소 기법은 머신 러닝 모델을 개선합니다. 일반화 가능성을 높이기 위해 예측 변수의 수를 줄임으로써 복잡한 데이터 세트의 핵심 특징을 보존합니다.
차원 축소는 소스 데이터의 의미 있는 속성을 그대로 캡처하면서 더 적은 수의 특징(즉,차원)을 사용하여 주어진 데이터 세트를 표현하는 방법입니다.1 이는 더 적은 수의 변수를 갖는 모델을 생성하기 위해 무관하거나 중복된 특징, 또는 단순히 노이즈가 있는 데이터를 제거하는 것을 의미합니다. 차원 축소는 전처리 과정에서 사용되는 다양한 특징 선택 및 데이터 압축 방법을 포괄합니다. 차원 축소 방법은 작동 방식이 다르지만 모두 변수 추출 또는 조합을 통해 고차원 공간을 저차원 공간으로 변환합니다.
머신 러닝에서 차원(또는 특징)은 모델의 아웃풋을 결정하는 예측 변수입니다. 입력 변수라고도 합니다. 고차원 데이터는 많은 수의 예측 변수가 포함된 모든 데이터 세트를 의미합니다. 이러한 데이터 세트는 데이터 포인트(즉,관찰 결과)의 수가 예측 변수의 수보다 많은 생물통계학 및 사회과학 관찰 연구에서 자주 나타날 수 있습니다.
고차원 데이터 세트는 계산 시간 증가, 빅 데이터 저장 공간 등 머신 러닝 알고리즘에 여러 가지 실질적인 문제를 제기합니다. 하지만 가장 큰 문제는 아마도 예측 모델의 정확도 감소일 것입니다. 고차원 데이터 세트로 학습된 통계 및 머신 러닝 모델은 일반화가 제대로 이루어지지 않는 경우가 많습니다.
'차원의 저주'란 모델 차원의 증가와 일반화 가능성 감소 사이의 반비례 관계를 말합니다. 모델 입력 변수의 수가 증가하면 모델의 공간도 증가합니다. 그러나 데이터 포인트의 수가 동일하게 유지되면 데이터가 희소해집니다. 즉, 모델의 특징 공간 대부분이 비어 있는 상태, 즉 관찰 가능한 데이터 포인트가 없는 상태를 의미합니다. 데이터 희소성이 증가함에 따라 데이터 포인트의 유사성이 너무 저하되어 예측 모델이 설명 패턴을 식별하는 데 효과적이기 못하게 됩니다.2
희소 데이터의 패턴을 적절하게 설명하기 위해 모델이 학습 데이터에 과적합될 수 있습니다. 이러한 방식으로 차원이 증가하면 일반화 가능성이 떨어질 수 있습니다. 고차원성은 다중 상관성을 유발하여 모델 해석 가능성을 더욱 저해할 수 있습니다. 모형 변수의 양이 증가함에 따라 일부 변수가 중복되거나 상관될 가능성도 증가합니다.
데이터를 더 많이 수집해 데이터 희소성을 줄이면 차원의 저주를 풀 수 있습니다. 그러나 모델의 차원 수가 증가함에 따라 차원의 저주를 푸는 데는 데 필요한 데이터 포인트의 수가 기하급수적으로 증가합니다.3 더구나 충분한 데이터를 수집하는 것이 항상 가능한 일은 아닙니다. 그래서 데이터 분석을 개선하기 위해 차원 축소가 필요합니다.
차원 축소 기술은 일반적으로 모델의 특징을 추출하거나 결합하여 모델을 더 낮은 차원의 공간으로 축소합니다. 그러나 이러한 기본적인 유사성을 넘어서면 차원 축소 알고리즘은 매우 다양합니다.
가장 일반적인 차원 축소 방법은 아마도 주성분 분석(PCA)일 것입니다. 데이터 세트의 원래 특징을 결합하고 변환하여 주성분이라고 하는 새로운 특징을 생성하는 특징 추출의 한 형태입니다. 기본적으로 PCA는 모델에서 원래 변수 집합에 존재하는 분산의 대부분 또는 전부를 구성하는 변수의 하위 집합을 선택합니다. 그런 다음 PCA는 이 변수 부분 집합으로 정의된 새 공간에 데이터를 프로젝션합니다.10
예를 들어, 뱀에 관한 데이터 세트에 몸 길이(X1), 가장 넓은 지점의 몸 직경(X2), 송곳니 길이(X3), 무게(X4), 나이(X5)의 5개 변수가 포함되어 있다고 생각해보겠습니다. 물론 이 다섯 가지 특징 중 몸 길이, 지름, 무게 등은 서로 연관이 있을 수 있습니다. 이러한 특징 중복은 데이터 희소화와 과적합으로 이어질 수 있으며, 이러한 데이터에서 생성된 모델의 분산(또는 일반화성)을 감소시킬 수 있습니다. PCA는 이 데이터에서 두 개 이상의 변수를 결합하고 데이터 분산을 최대화하는 새로운 변수(PC1)를 계산합니다. PCA는 중복 가능성이 있는 변수를 결합하여 초기 모델보다 변수가 적은 모델을 생성하기도 합니다. 따라서, 이 예시의 데이터 세트는 5개의 변수로 시작했기 때문에(5차원) 축소 모델은 1~4개의 변수(1차원에서 4차원까지)를 가질 수 있습니다. 그런 다음 데이터가 이 새 모델에 매핑됩니다.5
이 새로운 변수는 원래의 다섯 가지 변수가 아니라 소스 데이터의 공분산 행렬을 선형 변환하여 계산한 결합된 특징입니다. 구체적으로, 결합된 주성분은 공분산 행렬에서 가장 큰 고유값에 해당하는 고유 벡터입니다. 다른 변수를 결합해 추가적인 주성분을 생성할 수도 있습니다. 두 번째 주성분은 두 번째로 큰 고유값의 고유벡터입니다.6
선형 판별 분석(LDA)은 데이터를 더 낮은 차원의 새로운 공간에 프로젝션한다는 점에서 PCA와 유사하며, 이 차원은 초기 모델에서 파생됩니다. LDA는 데이터 세트에 분류 레이블을 유지한다는 점에서 PCA와 다릅니다. PCA는 데이터 분산을 최대화하기 위한 새로운 구성 변수를 생성하는 반면, LDA는 데이터의 클래스 차이를 최대화하는 구성 변수를 생성합니다.7
LDA 구현 단계는 PCA 구현 단계와 유사합니다. 가장 큰 차이점은 전자는 분산 행렬을 사용하는 반면, 후자는 공분산 행렬을 사용한다는 점입니다. 그렇지 않으면 PCA에서와 마찬가지로 LDA는 분산 행렬에서 가장 큰 고유값에 해당하는 데이터의 원래 특징을 선형적으로 조합합니다. LDA의 목표 중 하나는 클래스 내 차이를 최소화하면서 클래스 간 차이를 최대화하는 것입니다.8
LDA와 PCA는 선형 차원 축소 알고리즘의 유형입니다. 그러나 T-분산 확률적 이웃 임베딩(t-SNE)은 비선형 차원 축소(또는 매니폴드 학습)의 한 형태입니다. 모델 분산 보존을 목표로 하는 LDA와 PCA는 저차원 표현에서 서로 다른 데이터 포인트 간의 거리를 유지하는 데 중점을 둡니다. 반면, t-SNE는 모델 차원을 줄이면서 로컬 데이터 구조를 보존하는 것을 목표로 합니다. 또한 LDA 및 PCA는 생성된 모델의 차원이 원래 데이터보다 적으면 3차원 이상의 모델을 생성할 수 있다는 점에서도 t-SNE와 다릅니다. t-SNE는 모든 데이터 세트를 3차원 또는 2차원으로 시각화합니다.
비선형 변환 방법인 t-SNE는 데이터 행렬을 사용하지 않습니다. 대신 가우스 커널을 사용하여 데이터 포인트의 쌍별 유사성을 계산합니다. 소스 데이터 세트에서 서로 가까운 점은 멀리 있는 점보다 서로 가까이 있을 확률이 더 높습니다. 그런 다음 t-SNE는 모든 데이터 포인트를 3차원 또는 2차원 공간에 매핑하면서 데이터 쌍을 보존하려고 시도합니다.9
다른 차원 축소 방법으로는 커널 PCA, 요인 분석, 랜덤 포레스트, 특이값 분해(SVD) 등이 있습니다. 가장 널리 사용되고 논의되는 것은 PCA, LDA, t-SNE입니다. 사이킷 학습 등 여러 패키지와 라이브러리에는 이러한 기술을 구현하는 데 필요한 기능이 미리 로드되어 있습니다.
차원 축소는 종종 데이터 시각화를 위해 사용되었습니다.
유전 변수의 양이 관찰 횟수보다 많은 생물학적 연구에서 차원 축소가 종종 발생합니다. 소수의 연구에서 다양한 차원 축소 기법을 비교한 결과 서로 다른 게놈 데이터 세트에 t-SNE와 커널 PCA가 가장 효과적인 것으로 확인했습니다.10 다른 연구에서는 전산 생물학 연구에서 차원 축소 방법을 선택하는 보다 구체적인 기준을 제안합니다.11 최근 연구에서는 편향되지 않은 예측을 얻기 위한 권장 사항과 함께 조상과 관련된 유전자 분석을 위해 수정된 버전의 PCA를 제안합니다.12
잠재 의미 분석(LSA)은 텍스트 문서의 자연어 처리에 적용되는 SVD의 한 형태입니다. LSA는 본질적으로 단어 간의 유사성이 언어의 하위 공간 또는 작은 샘플에서 함께 발생하는 정도에서 나타난다는 원칙에 따라 작동합니다.13 LSA는 최적의 임종 수사적 관행을 주장하기 위해 의료 종사자가 제공하는 정서적 지원의 언어를 비교하는 데 사용됩니다.14 다른 연구에서는 LSA를 다른 머신 러닝 기술이 제공하는 통찰력과 효율성을 확인하기 위한 평가 메트릭으로 사용합니다.15
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
1 Lih-Yuan Deng, Max Garzon, Nirman Kumar, Dimensionality Reduction in Data Science, Springer, 2022년.
2 Ian Goodfellow Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016년.
3 Richard Bellman, Adaptive Control Processes: A Guided Tour, Princeton University Press, 1961년.
4 I.T. Jollife, Principal Component Analysis, Springer, 2002년.
5 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018년.Nikhil Buduma, Fundamentals of Deep Learning, O’Reilley, 2017년.
6 I.T. Joliffe, Principal Component Analysis, Springer, 2002년, Heng Tao Shen, “Principal Component Analysis,” Encyclopedia of Database Systems, Springer, 2018년.
7 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018년.
8 Chris Ding, “Dimension Reduction Techniques for Clustering,” Encyclopedia of Database Systems, Springer, 2018년.
9 Laurens van der Maaten 및 Geoffrey Hinton, “Visualizing Data Using t-SNE,” Journal of Machine Learning Research, vol.9, no.86, 2008년, pp.2579−2605, https://www.jmlr.org/papers/v9/vandermaaten08a.html .
10 Shunbao Li, Po Yang, Vitaveska Lanfranchi, "Examing and Evaluating Dimension Reduction Algorithms for Classifying Alzheimer’s Diseases using Gene Expression Data," 17th International Conference on Mobility, Sensing and Networking (MSN), 2021년, pp.687-693, https://ieeexplore.ieee.org/abstract/document/9751471. Ruizhi Xiang, Wencan Wang, Lei Yang, Shiyuan Wang, Chaohan Xu, Xiaowen Chen, "A Comparison for Dimensionality Reduction Methods of Single-Cell RNA-seq Data," Frontiers in Genetics, vol.12, 2021, https://www.frontiersin.org/journals/genetics/articles/10.3389/fgene.2021.646936/full.
11 Shiquan Sun, Jiaqiang Zhu, Ying Ma, Xiang Zhou, “Accuracy, robustness and scalability of dimensionality reduction methods for single-cell RNA-seq analysis,” Genome Biology, vol. 20, 2019년, https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1898-6. Lan Huong Nguyen 및 Susan Holmes, “Ten quick tips for effective dimensionality reduction,” PLoS Computational Biology, vol. 15, no.6, 2019년, https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006907.
12 Daiwei Zhang, Rounak Dey, Seunggeun Lee, "Fast and robust ancestry prediction using principal component analysis," Bioinformatics, vol.36, no.11, 2020년, pp.3439–3446, https://academic.oup.com/bioinformatics/article/36/11/3439/5810493.
13 Nitin Indurkhya 및 Fred Damerau, Handbook of Natural Language Processing, 2nd edition, CRC Press, 2010년.
14 Lauren Kane, Margaret Clayton, Brian Baucom, Lee Ellington, Maija Reblin, "Measuring Communication Similarity Between Hospice Nurses and Cancer Caregivers Using Latent Semantic Analysis," Cancer Nursing, vol.43, no.6, 2020년, pp.506-513, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6982541/.
15 Daniel Onah, Elaine Pang, Mahmoud El-Haj, "Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling," 2022 IEEE International Conference on Big Data, 2022년, pp.2771-2780, https://ieeexplore.ieee.org/abstract/document/10020259.