PCA 사용

PCA는 강력한 데이터 변환 기술이므로, 사용자는 더 자세한 분석 작업 전에 이를 적용할 수 있습니다. 이 방법은 고차원 데이터 세트가 있는 경우, 특히 텍스트 마이닝, 이미지 분석, 생물학 데이터 분석, 고객 선호도 및 맛 분석(협업 필터링)과 같은 분야에서 유용합니다.

PCA는 선형대수학 계산을 기반으로 하기 때문에 숫자 데이터에 직접 적용할 수 있습니다. 이산 속성을 포함하는 데이터 세트는 전제조건으로서 해당 이산 값의 숫자 인코딩을 필요로 합니다. 모든 속성이 연속인 경우에는 입력 데이터 세트 D를 행렬 A로 표현할 수 있습니다. 이 행렬의 행은 n 속성에 대응하며, 컬럼은 |D| 인스턴스에 대응합니다.

행렬 A의 고유 벡터(주성분)를 얻기 위해, PCA는 몇 가지 행렬 연산을 적용합니다. 이러한 연산은 속성 값 벡터를 피처 벡터라는 새 표현 공간으로 변환하는 것으로 구성되어 있습니다.