特徴量抽出とは

執筆者

Vanna Winland

AI Advocate & Technology Writer

主要な機能抽出とは何か

特徴量抽出は、データの次元または複雑さを削減して、機械学習(ML)アルゴリズムの性能と効率を向上させる手法です。このプロセスにより、MLタスクが容易になり、データセットが重要な変数または属性のみを含むように簡素化されるため、データ分析が改善されます。

人工知能(AI)モデルの性能は、トレーニング・データの品質に依存します。機械学習モデルは前処理を経て、データが効率的なモデルのトレーニングと性能に適した形式であることを確認します。特徴量抽出は、前処理ワークフローの重要な部分です。

抽出プロセス中に、非構造化データはより構造化された使用可能な形式に変換され、データ品質とモデルの解釈可能性が向上します。特徴量抽出は、モデルの性能を最適化するために未加工データ内で特徴量を作成、変更、選択する広範なプロセスである、特徴量エンジニアリングのサブセットです。

パターン認識の初期調査から、AIを用いてデータセットから最も関連性の高い特徴量を抽出するためのヒューリスティックな手法を採用する新しい手法や技術が研究されてきました1。研究が進むにつれ、特徴量の学習のための次元削減にはオートエンコーダーが伝統的に使用されてきました2

特徴量や共変量の数が独立したデータ・ポイントの数を超えると、データの処理が困難になります。このタイプのデータは、高次元データと見なされます3。特徴量抽出は、次元削減のための手法と考えることができます4

これは、大規模なデータセットや複数のモダリティーのデータセットを扱う場合に非常に重要です。モデルが管理しなければならない抽出された主要な機能が増えるほど、そのモデルの能力とパフォーマンスは低下します5。効率的な主要な機能抽出に依存する一般的なタスクには、画像処理、自然言語処理、信号処理などがあります。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

主要な機能の抽出はどのように機能するか

次元削減は、機械学習の前処理段階で使用されるデータサイエンスの手法です6。このプロセスでは、元のデータセットの関連情報を保持したまま、無関係なデータや冗長なデータが削除されます。

特徴量は、データ・オブジェクトの属性と考えることができます。例えば、動物に関するデータセットでは、いくつかの数値的な特徴量(年齢、体高、体重)とカテゴリー別の特徴量(色、種類、品種)が期待されます。特徴量抽出は、畳み込みニューラル・ネットワーク(CNN)などのモデルのニューラル・ネットワーク・アーキテクチャーの一部です。

まず、モデルが主要な機能のインプットデータを取り込み、次に、主要な機能抽出ツールがそのデータを数値表現に変換し、主要な機能抽出の次元削減方法を計算するために使用できるようにします。これらの表現は、モデルがデータ削減のアルゴリズムを実行するための主要な機能ベクトルに保管されます。

抽出後、特に変数の大きさやスケールに感度の高い特定のアルゴリズム(勾配降下法アルゴリズム、K平均法クラスタリング)を使用する場合は、特徴量の正規化を活用してデータを標準化する必要がある場合があります。

タスクに応じて、特定の結果を達成するためのさまざまな手法を使用できます。すべての方法は、最も価値のある情報を保持しながらデータを簡素化することを目指しています。

最新のAIモデルのほとんどは、自動で特徴量抽出を実行しますが、それを処理する多様な手段を理解することは依然として有用です。ディメンションに使用される一般的な特徴量抽出手法を次にいくつか示します。

主要コンポーネント分析(PCA):この手法では、大規模なデータセット内の特徴量の数を、モデルの分類器が特定のタスクに使用する主要コンポーネントまたは新しい特徴量まで削減します。

PCAは、相関関係のない元のデータを作成できるため、PCAが作成する新しい次元が互いに独立しているため、人気があります7。これにより、すべての特徴量が固有となるため、PCAはデータの冗長性の欠如に起因する過剰適合に対する効率的なソリューションとなります。

線形判別分析(LDA):この手法は、教師あり機械学習で複数のクラスと特徴量を分離して分類に関する問題を解決するためによく使用されます。

この手法は、機械学習モデルを最適化するために一般的に使用されます。新しいデータ・ポイントは、ベイズ統計を使用して分類され、各クラスのデータ分布をモデル化します。

t分布型確率的近傍埋め込み(t-SNE):この機械学習手法は、ディープラーニング(深層学習)における特徴量の可視化などのタスクによく適用されます8。これは、高次元データのビジュアライゼーションを2Dまたは3Dでレンダリングする場合に特に便利です。

これは、データサイエンスでパターンと関係を分析するためによく使用されます。t-SNEは非線形であるため、計算コストが高く、一般的には視覚化のタスクにのみ使用されます。

Term frequency-Inverse document frequency(TF-IDF):この統計手法では、用語の出現頻度に基づいて用語の重要度を評価します。特定のドキュメント内の用語の頻度は、コレクションまたはコーパス内のすべてのドキュメントでその用語が出現する頻度に対して重み付けされます9

この手法は、分類、クラスター、および情報検索のためにNLPで一般的に使用されます。Bag-of-Words(BoW)は同様の手法ですが、用語の関連性を考慮する代わりに、すべての単語を実質的に平等に扱います。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

ユースケース

画像処理とコンピューター・ビジョン: 特徴量抽出プロセスでは、画像やビデオから主要な特徴を特定して抽出します。未加工の画像データ(ピクセル)は特徴量に変換され、そのマシンはアルゴリズムを適用して新しい特徴量のセットを抽出して分類できます。例えば、指向性勾配ヒストグラム(HOG)は、オブジェクトの検知に使用される特徴量抽出アルゴリズムです。

自然言語処理:特徴量抽出は、未加工のテキスト・データを機械学習モデルが処理できるフォーマット構造に変換します。これは、分類、センチメント分析、Named Entity Recognition(NER)などのタスクに有用です。この手法は、チャット・インターフェースや行動保健の分野で活用されるなど、多業種にわたって適用できます。この研究は、特徴量抽出が患者の行動の健全性を監視する際の、マルチモーダルな感情認識に役立つことを示唆しています10

信号処理: この手法は、分類、検知、予測などのタスクを容易にするために、未加工の信号データ(オーディオ、画像、時系列データ)から意味のある情報を分析して抽出するために使用されます。信号処理は従来、音声認識、音声処理、画像分析などの分野に関連するものでしたが、他の多くの領域にも適用できます。例えば、医療の分野では、心電図の測定値などの心理的信号が傾向を検知するために使用されます。11

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約
脚注

1 Minsky, Marvin. "Steps toward artificial intelligence." Proceedings of the IRE 49, no. 1 (1961): 8-30. https://rodsmith.nz/wp-content/uploads/Minsky-steps-towards-artificial-intelligence-1.pdf.

2 Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning (Cambridge, MA: MIT Press, 2016).  https://www.deeplearningbook.org/contents/autoencoders.html.

3 Narisetty, Naveen Naidu. "Bayesian model selection for high-dimensional data." In Handbook of statistics, vol. 43, pp. 207-248. Elsevier, 2020. https://www.sciencedirect.com/science/article/abs/pii/S0169716119300380.  

4 de-la-Bandera, Isabel, David Palacios, Jessica Mendoza, and Raquel Barco. "Feature extraction for dimensionality reduction in cellular networks performance analysis." Sensors 20, no. 23 (2020): 6944. https://pmc.ncbi.nlm.nih.gov/articles/PMC7730729.

5 https://www.sciencedirect.com/topics/computer-science/feature-extraction.

6 Khalid, Samina, Tehmina Khalil, and Shamila Nasreen. "A survey of feature selection and feature extraction techniques in machine learning." In 2014 science and information conference, pp. 372-378. IEEE, 2014. https://ieeexplore.ieee.org/abstract/document/6918213.  

7 Kuhn, Max, and Kjell Johnson. Applied predictive modeling. Vol. 26. New York: Springer, 2013.  

8 Zhou, Yuansheng, and Tatyana O. Sharpee. "Using global t-SNE to preserve intercluster data structure." Neural computation 34, no. 8 (2022): 1637-1651. https://pmc.ncbi.nlm.nih.gov/articles/PMC10010455/.  

9 Sammut, Claude, and Geoffrey I. Webb, eds. Encyclopedia of machine learning. Springer Science & Business Media, 2011.  

10 Minsky, Marvin. "Steps toward artificial intelligence." Proceedings of the IRE 49, no. 1 (1961): 8 30. https://www.sciencedirect.com/science/article/abs/pii/S1566253523005341.  

11 Geetha, A. V., T. Mala, D. Priyanka, and E. Uma. "Multimodal emotion recognition with deep learning: advancements, challenges, and future directions." Information Fusion 105 (2024): 102218. https://www.sciencedirect.com/science/article/abs/pii/S1566253523005341.