차원 축소는 머신 러닝의 전처리 단계에서 사용되는 데이터 과학 기술입니다.6 이 과정에서는 원본 데이터 세트의 관련 정보를 유지하면서 관련성이 없고 중복된 데이터는 제거됩니다.



특징은 데이터 개체의 속성으로 생각할 수 있습니다. 예를 들어 데이터 세트에서는 일부 수치 특징(나이, 키, 체중)과 범주형 특징(색상, 종, 품종)이 예상됩니다. 신경망 추출은 CNN(합성곱 신경망)과 같은 모델의 신경망 아키텍처의 일부입니다.



먼저 모델이 입력 데이터를 가져오고, 그 다음으로 특징 추출기가 특징 추출을 위한 차원 축소 방법을 계산하는 데 사용할 수 있는 수치 표현으로 데이터를 변환합니다. 이러한 표현은 모델이 데이터 축소를 위한 알고리즘을 수행할 수 있도록 특징 벡터에 저장됩니다.

추출 후, 특히 변수의 크기와 규모에 민감한 특정 알고리즘(그라데이션 기반 하강 알고리즘, k-평균 클러스터링)을 사용할 때 특징 정규화를 사용하여 데이터를 표준화해야 하는 경우가 있습니다.



작업에 따라 특정 결과를 얻기 위해 다양한 방법을 따를 수 있습니다. 모든 방법은 가장 중요한 정보를 보존하면서 데이터를 단순화하려고 합니다.



대부분의 현대적인 AI 모델은 자동 특징 추출을 수행하지만, 이를 처리하는 다양한 방법을 이해하는 것은 여전히 유용합니다. 다음은 차원에 사용되는 몇 가지 일반적인 특징 추출 방법입니다.

주성분 분석(PCA): 이 기법은 대규모 데이터 세트의 특징 수를 모델의 분류기가 특정 작업에 사용할 주성분 또는 새로운 특징으로 줄입니다.



PCA는 상관관계가 없는 원본 데이터를 생성할 수 있는 기능(즉 PCA가 생성하는 새로운 차원이 서로 독립적) 때문에 널리 사용됩니다.7 따라서 PCA는 모든 기능이 고유하기 때문에 데이터 중복성이 부족하여 과적합을 위한 효율적인 솔루션이 됩니다.



선형 판별 분석(LDA): 이 기법은 일반적으로 지도 머신 러닝에서 분류 문제를 해결하기 위해 여러 클래스와 기능을 분리하는 데 사용됩니다.



이 기술은 일반적으로 머신 러닝 모델을 최적화하는 데 사용됩니다. 새 데이터 포인트는 베이지안 통계를 사용하여 분류되어 각 클래스에 대한 데이터 분포를 모델링합니다.

T-분산 확률적 이웃 임베딩(t-SNE): 이 머신 러닝 기법은 일반적으로 딥 러닝의 특징 시각화와 같은 작업에 적용됩니다.8 이는 작업이 2D 또는 3D로 고차원 데이터의 시각화를 렌더링하는 경우에 특히 유용합니다.



이 방법은 일반적으로 데이터 과학에서 패턴과 관계를 분석하는 데 사용됩니다. 비선형 특성으로 인해 t-SNE는 많은 계산 비용이 소요되며, 일반적으로 시각화 작업에만 사용됩니다.

용어 빈도-역 문서 빈도(TF-IDF): 이 통계적 방법은 단어가 얼마나 자주 나타나는지에 따라 단어의 중요성을 평가합니다. 컬렉션 또는 말뭉치 내의 모든 문서에서 나타나는 빈도에 따라 특정 문서의 용어 빈도에 가중치가 부여됩니다.9



이 기법은 분류, 클러스터 및 정보 검색을 위해 NLP에서 일반적으로 사용됩니다. Bag of words(BoW)는 비슷한 기법이지만, 용어의 관련성을 고려하는 대신 모든 단어를 효과적으로 동등하게 처리합니다.