ホーム Topics 次元削減 次元削減とは?
watsonx.aiによる次元削減の適用 AI関連の最新情報の購読を申し込む
多次元データ空間の図

公開日:2024年1月5日
寄稿者:Jacob Murel Ph.D.、Eda Kavlakoglu

次元削減とは?

PCA、LDA、t-SNEなどの次元削減技術は、機械学習モデルを強化します。一般化可能性を高めるために予測変数の数を減らすことで、複雑なデータ・セットの重要な特徴を維持します。

次元削減は、特定のデータセットをより少ない数の機能(つまり、ディメンション)を、元のデータの意味のあるプロパティを引き続きキャプチャします。1これは、無関係な特徴や冗長な特徴、あるいは単にノイズの多いデータを取り除き、より少ない変数数のモデルを作成することです。次元削減には、前処理中に使用されるさまざまな特徴選択およびデータ圧縮方法が対象となります。次元削減の手法はオペレーションによって異なりますが、いずれも変数抽出や組み合わせによって高次元空間を低次元空間に変換します。

エンタープライズ向け生成AIとML

生成AIの主なメリットおよび組織が生成AIと機械学習をビジネスに組み込む方法について学びます。

関連コンテンツ

データリーダー向けガイドに登録する

次元削減を活用する理由

機械学習では、次元(または特徴)はモデルのアウトプットを決定する予測変数です。これらは、インプット変数と呼ばれることもあります。高次元データとは、多数の予測変数を含むあらゆるデータ・セットを指します。このようなデータ・セットは、生物統計学や社会科学の観察研究に頻繁に登場し、データポイントの数(つまり、オブザベーション)は予測子変数の数を上回ります。

高次元データ・セットは、計算時間の増加、ビッグデータのストレージスペースなど、機械学習アルゴリズムに関する多くの現実的な懸念を引き起こします。一方最も大きな懸念は予測モデルの精度が低下していることでしょう。高次元のデータ・セットでトレーニングされた統計モデルや機械学習モデルは、一般化が不十分であることが多いのです。

次元の制限

次元の呪いとは、モデルの次元の増加と一般化可能性の低下との間の逆関係を指します。モデルの入力変数の数が増えると、モデルの空間が拡大します。一方で、データ・ポイントの数が変わらないとしたら、データは希薄になります。この場合、モデルの特徴量空間の大部分は空であり、つまり観測可能なデータ・ポイントがありません。データの希薄性が高まると、データ・ポイント間の違いがあまりに大きくなり、予測モデルが説明パターンを効果的に特定できなくなります。2

希薄なデータに含まれるパターンを適切に説明するために、モデルがトレーニング・データに対して過学習となる可能性があります。このように、次元が大きくなると、一般化可能性が低下することが考えられます。高次元性が多重共線性につながって、モデルの解釈可能性がさらに阻害される可能性があります。モデルの変数の量が増えるにつれて、一部の変数が冗長または相関関係となる可能性も高まります。

収集するデータを増やせば、データの希薄性を緩和し、それによって次元の呪いを相殺できます。しかし、モデルの次元の数が増えると、次元の呪いを防ぐために必要なデータ・ポイントの数が指数関数的に増加します。3当然ながら、十分なデータの収集が常に可能であるとは限りません。したがって、データ分析を改善するために、次元削減が必要となります。

次元削減の手法

次元削減の手法では一般に、モデルの特徴量を抽出または組み合わせて、モデルを低次元空間に縮小します。しかし、この基本的な共通点を除けば、次元削減のアルゴリズムはそれぞれ違いがあります。

主要コンポーネント分析

主成分分析(PCA)はおそらく最も一般的な次元削減の手法です。これは特徴量抽出の一種であるため、データ・セットの元の特徴量を組み合わせて変換することで、主成分と呼ばれる新しい特徴量を生成します。基本的にPCAでは、モデルの元の変数セットに存在する分散の大部分またはすべてを構成する変数サブセットをモデルから選択します。PCAでは続いて、この変数サブセットで定義される新しい空間にデータを射影します。4

例えば、ヘビに関するデータ・セットに4つの変数があるとします。体長(X1)、最大部分での体の太さ(X2)、牙の長さ(X3)、体重(X4)、年齢(X5)です。言うまでもなく、これら5つの特徴量のうち、例えば体長、太さ、体重のような特徴量は相関関係にあると考えられます。このような特徴量の冗長性から、データの希薄性や過学習が生じる可能性があり、こうしたデータから生成するモデルの分散(または一般化可能性)が低下することが考えられます。PCAでは、このデータの複数の変数を統合して、データ分散を最大化する新しい変数(PC1)を算出します。またPCAでは、冗長な可能性がある変数を組み合わせて、最初のモデルよりも変数が少ないモデルも作成します。ここでは、最初のデータ・セットの変数は5つ(つまり5次元)だったことから、削減後のモデルの変数は1~4つ(つまり1~4次元)となります。そのうえで、この新しいモデルにデータをマッピングします。5

この新しい変数は、元の5つの変数のいずれでもなく、元のデータの共分散行列の線形変換を通じて計算した合成特徴量です。具体的には、統合した主成分は、共分散行列内の最大の固有値に対応する固有ベクトルです。また、他の変数を組み合わせて追加の主成分を作成することもできます。2番目の主成分は2番目に大きい固有値の固有ベクトルで、その他も同様です。6

線形判別分析

線形判別分析(LDA)は、データを新しい低次元空間に射影するという点でPCAに似ており、その空間の次元は最初のモデルから派生します。LDAはデータ・セットに分類ラベルを保持することに関してPCAと異なります。PCAはデータの分散を最大化するための新しい構成変数を生成するのに対し、LDAはデータのクラスの差異を最大化する構成変数を生成します。7

LDAを実装する手順はPCAと似ています。主な違いは、前者は散布行列を使用するのに対し、後者は共分散行列を使用することです。それ以外の点に関しては、LDAはPCAと同様に、データの元の特徴量のうちで、散布行列の最大の固有値に対応する特徴量の線形結合を計算します。LDAの目標の1つは、クラス間の差異を最大化しつつ、クラス内の差異を最小化することです。8

t分布型確率的近傍埋め込み

LDAとPCAは線形次元削減アルゴリズムです。一方、t分布型確率的近傍埋め込み(t-SNE)は、非線形次元削減(または多様体学習)の一形態です。LDAとPCAは、モデルの分散を基本的に保持することを目標とし、低次元化した表現において、異なるデータ・ポイント間の距離を維持することに重点を置いています。対照的にt-SNEは、低次元化したモデルで局所的なデータ構造を維持することを目標としています。t-SNEとLDAやPCAとの違いはほかにもあります。LDAやPCAは、生成するモデルの次元が元のデータよりも少ないという点を満たしていれば、3次元を超えるモデルを生成する場合もあります。一方t-SNEは、すべてのデータ・セットを3次元または2次元で視覚化します。

t-SNEは非線形変換の手法であり、データ行列を使用しません。代わりにt-SNEはガウス・カーネルを使用して、データ・ポイントのペアワイズ類似度を計算します。元のデータ・セットで距離が近いポイント同士が、離れたポイントよりも近くにある確率が上がるようにします。そのうえでt-SNEは、データ・ペアを保持することを目指しつつ、すべてのデータ・ポイントを3次元または2次元空間にマッピングします。9

次元削減の手法はほかにもいくつかあります。例えばカーネルPCA、因子分析、ランダム・フォレスト、特異値分解(SVD)などです。PCA、LDA、t-SNEは特に広く利用され、論じられています。なお、scikit-learnなど、いくつかのパッケージやライブラリーには、これらの手法を実装するための関数が事前に組み込まれています。

ユースケースの例

次元削減は、データの可視化を目的としてよく使用されています。

生物統計学

次元削減は、遺伝的変数の数が測定データの数を上回る生物学的研究で頻繁に生じます。そこで、いくつかの研究では、さまざまな次元削減手法を比較し、t-SNEとカーネルPCAがさまざまなゲノム・データ・セットに対して最も効果的であると特定しています。10また、計算生物学研究における次元削減手法の選択に関して、より具体的な基準を提示している研究もあります。11最近のある研究では、祖先に関する遺伝子解析向けにPCAの修正バージョンを提案し、偏りのない予測を得るための推奨事項を示しています。12

自然言語処理

潜在意味解析(LSA)はテキスト文書の自然言語処理に適用されるSVDの一種です。LSAは基本的に、単語同士の類似性は言語の部分空間または小規模なサンプルの中で単語が共起する度合いに表れるという原理に基づいて機能します。13ある研究では、医療従事者が精神的支援を行う際の言葉をLSAで比較して、終末期ケアにおける最適な表現手法について論じています。14他の研究では、他の機械学習手法によって得られる洞察と効果を確認するための評価メトリクスとしてLSAを用いています。15

参考情報 教師あり学習と教師なし学習の違いとは

教師あり学習と教師なし学習のコンテキストにおける次元削減について、IBMのブログ記事で説明しています。

PythonでのLDAの実装

分類モデルの性能を向上させるためにPythonでLDAを実装する方法について、IBMのチュートリアルで説明しています。

対照的な潜在変数モデルによる教師なし学習

バックグラウンド・データ・セットと比較してターゲット・データ・セットで強化されるシグナルを発見することを目的とした次元削減のための確率モデルを、IBMの研究者が提案しています。

次のステップ

AIおよびデータの単一のコラボレーティブ・プラットフォームであるIBM watsonxで、ビジネス向けのAI戦略を構築します。AIモデルのトレーニング、検証、チューニング、デプロイを行い、信頼できるデータでビジネス全体にAIのインパクトを拡大して、推進しましょう。

watsonxの詳細はこちら デモの予約
脚注

1 Lih-Yuan Deng, Max Garzon, and Nirman Kumar, Dimensionality Reduction in Data Science, Springer, 2022.

2 Ian Goodfellow Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.

3 Richard Bellman, Adaptive Control Processes: A Guided Tour, Princeton University Press, 1961.

4 I.T. Jollife, Principal Component Analysis, Springer, 2002.

5 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018. Nikhil Buduma, Fundamentals of Deep Learning, O’Reilley, 2017.

6 I.T. Joliffe, Principal Component Analysis, Springer, 2002. Heng Tao Shen, “Principal Component Analysis,” Encyclopedia of Database Systems, Springer, 2018.

7 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018.

8 Chris Ding, “Dimension Reduction Techniques for Clustering,” Encyclopedia of Database Systems, Springer, 2018.

9 Laurens van der Maaten and Geoffrey Hinton, “Visualizing Data Using t-SNE,” Journal of Machine Learning Research, vol. 9, no. 86, 2008, pp. 2579−2605, https://www.jmlr.org/papers/v9/vandermaaten08a.html(ibm.com外部へのリンク).

10 Shunbao Li, Po Yang,  and Vitaveska Lanfranchi, "Examing and Evaluating Dimension Reduction Algorithms for Classifying Alzheimer’s Diseases using Gene Expression Data," 17th International Conference on Mobility, Sensing and Networking (MSN), 2021, pp. 687-693, https://ieeexplore.ieee.org/abstract/document/9751471 (ibm.com外部へのリンク).Ruizhi Xiang, Wencan Wang, Lei Yang, Shiyuan Wang, Chaohan Xu, and Xiaowen Chen, "A Comparison for Dimensionality Reduction Methods of Single-Cell RNA-seq Data," Frontiers in Genetics, vol. 12, 2021, https://www.frontiersin.org/journals/genetics/articles/10.3389/fgene.2021.646936/full (ibm.com外部へのリンク).

11 Shiquan Sun, Jiaqiang Zhu, Ying Ma, and Xiang Zhou, “Accuracy, robustness and scalability of dimensionality reduction methods for single-cell RNA-seq analysis,” Genome Biology, vol. 20, 2019, https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1898-6 (ibm.com外部へのリンク). Lan Huong Nguyen and Susan Holmes, “Ten quick tips for effective dimensionality reduction,” PLoS Computational Biology, vol. 15, no. 6, 2019, https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006907(ibm.com外部へのリンク).

12 Daiwei Zhang, Rounak Dey, and Seunggeun Lee, "Fast and robust ancestry prediction using principal component analysis," Bioinformatics, vol. 36, no. 11, 2020, pp. 3439–3446, https://academic.oup.com/bioinformatics/article/36/11/3439/5810493 (ibm.com外部へのリンク).

13 Nitin Indurkhya and Fred Damerau, Handbook of Natural Language Processing, 2nd edition, CRC Press, 2010.

14 Lauren Kane, Margaret Clayton, Brian Baucom, Lee Ellington, and Maija Reblin, "Measuring Communication Similarity Between Hospice Nurses and Cancer Caregivers Using Latent Semantic Analysis," Cancer Nursing, vol. 43, no. 6, 2020, pp. 506-513, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6982541/ (ibm.com外部へのリンク).

15 Daniel Onah, Elaine Pang, and Mahmoud El-Haj, "Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling," 2022 IEEE International Conference on Big Data, 2022, pp. 2771-2780, https://ieeexplore.ieee.org/abstract/document/10020259 (ibm.com外部へのリンク).