PCA の使用方法

PCA は強力なデータ変換手法であるため、この手法を適用してから分析作業をさらに進めることができます。この手法は、高次元データ・セットが生成されるあらゆる分野で役立ちます。特に、テキスト・マイニング、イメージ分析、生物学データ解析、顧客の好みや嗜好の分析 (協調フィルタリング) などの分野で有効です。

PCA は、線形代数計算に基づいているため、数値データにのみ直接適用できます。離散型の属性を含むデータ・セットは、離散型の値を数値でエンコードすることが前提条件として必要になります。すべての属性が連続型である場合、入力データ・セット D は行列 A で表すことができます。この行列は行が n 属性に対応し、列が |D| インスタンスに対応します。

行列 A の固有ベクトル (主成分) を取得するために、PCA は複数の行列演算を適用します。この操作は、属性値ベクトルを新しい表現空間 (特徴ベクトルとも呼ばれます) に変換する処理から構成されます。