「特徴」とは、データポイントの個々の測定可能な特性または特徴を指します。つまり、観測されている現象を説明するのに役立つデータの特定の属性です。住宅に関するデータセットには、「寝室の数」や「建設年」などの特徴がある場合があります。
特徴選択は特徴エンジニアリング・プロセスの一部であり、データサイエンティストがデータを準備し、機械学習アルゴリズム用に特徴セットをキュレートします。特徴選択は、特徴エンジニアリングの一部で、モデルに使用する特徴の選択に関係します。
特徴選択プロセスでは、データセット内で最も重要で影響力のある、冗長ではない特徴を特定することで、モデルが合理化されます。特徴の数を減らすとモデルの効率が向上し、性能が向上します。
特徴選択のメリットは以下のとおりです。
モデルの性能の向上:無関係な特徴はモデルの性能を低下させます。逆に、モデルに適した特徴セットを選択することで、精度、適合率、再現率が向上します。データの特徴は、モデルがトレーニング中に重みをどのように設定するかに影響を与え、それが最終的な性能に直結します。これは、トレーニング前に行われるハイパーパラメーター・チューニングとは異なる工程です。
過学習の抑制:過学習とは、モデルがトレーニング・データに依存しすぎて一般化できなくなる現象です。冗長な特徴を取り除くことで、過学習を抑え、モデルが新しいデータに対してより良く一般化できるようになります。
トレーニング時間の短縮:より少ない特徴のサブセットに絞ることで、アルゴリズムのトレーニングにかかる時間が短縮されます。選択された特徴量が少ないことで、モデル開発者はモデルのテスト、検証、デプロイをより迅速に行うことができます。
計算コストの削減:最適な特徴で構成された小規模なデータセットは、よりシンプルな予測モデルを構築でき、ストレージ容量も少なくて済みます。これらのモデルは、より複雑なモデルに比べて計算リソースの要求も低くなります。
高い解釈性:説明可能なAIは、人間が理解できるモデルの構築を目的としています。モデルが複雑になるほど、その結果を解釈することはますます困難になります。シンプルなモデルであれば、監視や説明が容易になります。
よりスムーズな実装:シンプルで小規模なモデルは、データの可視化などのAIアプリを開発する際に、開発者にとって扱いやすく、実装が容易になります。
特徴とは、データセット内の項目の定義可能な品質です。特徴は、その値が次のデータ・ポイントごとに変化する可能性があるため変数としても知られ、データセット内のデータ・ポイントを特徴付けるため属性としても知られています。さまざまな特徴が、データ・ポイントをさまざまな方法で特徴付けています。
特徴量は、独立変数である場合もあれば、独立変数から値が導かれる従属変数である場合もあります。また、複数の他の特徴量を組み合わせて構成される複合的な属性であることもあります。
特徴選択の目的は、モデルが従属変数を予測するために使用できる最も重要なインプット変数を特定することです。ターゲット変数とは、モデルが予測を担う従属変数のことです。
例えば、従業員データベースでは、インプット特徴として年齢、居住地、給与、役職、パフォーマンス・メトリック、雇用期間などが挙げられます。雇用主はこれらの変数を用いて、従業員がより良い条件を求めて退職する可能性を表すターゲット複合属性を生成することができます。そして、雇用主はこれらの従業員の残留を促す方法を決定することができます。
特徴は数値変数またはカテゴリー変数に大別できます。
数値変数とは、長さ、サイズ、年齢、期間などのように定量的に測定できる変数のことです。
カテゴリー変数とは、名前、職種、所在地などのように数値ではないすべての変数を指します。
特徴選択を行う前に、特徴抽出プロセスにおいて、未加工データを機械学習モデルが使用できる数値的特徴に変換します。特徴抽出によりデータが簡素化され、データの処理に必要なコンピューティング要件が軽減されます。
教師あり学習の特徴選択では、ターゲット変数を使用して最も重要な特徴を決定します。データの特徴は既に特定されているため、タスクは、ターゲット変数に最も直接的な影響を与える入力変数を特定することです。相関関係は、最も重要な特徴を評価する際の主な基準です。
教師あり特徴選択方法には以下のようなものがあります。
フィルター法
ラッパー・メソッド
埋め込み法
2つ以上の教師あり特徴選択方法を組み合わせたハイブリッド法も可能です。
フィルター法は、データ自体のみを対象として、モデルの性能の最適化を直接考慮しない特徴選択法のグループです。インプット変数はターゲット変数に対して独立して評価され、どちらの相関関係が最も高いかを決定します。特徴を1つずつテストする方法は、単変量特徴選択方法として知られています。
データの前処理ツールとしてよく使用されるフィルター・メソッドは、冗長性を下げたり、データセットから無関係な特徴を削除したりすることに優れた高速かつ効率的な特徴選択アルゴリズムです。各インプット変数を相関関係のためにスコアリングするために、さまざまな統計的検定が使用されます。ただし、モデル性能を予測するには、他の方法の方が優れています。
Scikit-Learn(Sklearn)などの一般的な機械学習ライブラリで利用できる一般的なフィルター方法には、以下のようなものがあります。
情報利得:特徴の有無がターゲット変数の決定にどれほど重要かを、エントロピーの減少度によって測定します。
相互情報量:一方の変数から得られる情報によって他方の変数との依存関係を評価します。
カイ二乗検定:観測値と期待値を比較することで、2つのカテゴリー変数間の関係を評価します。
フィッシャーのスコア:導関数を用いて、各特徴がデータを分類するうえでどれだけ重要かを算出します。スコアが高いほど、影響力が大きいことを示します。
ピアソンの相関係数:2つの連続変数間の関係を、-1から1の範囲でスコア化して定量的に表します。
分散のしきい値:分散が最小値を下回るすべての特徴を除外します。分散が大きい特徴ほど有用な情報を含んでいる可能性が高いためです。関連する手法としては、平均絶対偏差(MAD)があります。
欠損値比率:データセット内で特定の特徴が欠損またはヌル値になっているインスタンスの割合を算出します。あまりに多くのインスタンスでその特徴が欠けている場合、その特徴は有用でない可能性があります。
分散比:ある特徴に対する分散を平均値で割った比率です。分散比が高いほど、多くの情報を含んでいることを示します。
ANOVA(分散分析):異なる特徴の値がターゲット変数の値に影響を与えるかどうかを判定します。
ラッパー法では、さまざまな特徴のサブセットを使って機械学習アルゴリズムをトレーニングし、特徴を追加または削除しながら各反復ごとに結果をテストします。すべてのラッパー法の目的は、モデルの性能を最適化する特徴セットを見つけ出すことです。
すべての特徴の組み合わせをテストするラッパー法は、貪欲アルゴリズムとして知られています。最適な特徴セットを見つけるために全体を探索するこの方法は、計算負荷が高く時間もかかるため、特徴量の数が少ないデータセットに適しています。
データサイエンティストは、モデルのパフォーマンスが低下したとき、または目標数の特徴が実行されたときにアルゴリズムを停止するように設定できます。
ラッパー・メソッドには、以下のものがあります。
前向き選択:空の特徴セットから開始し、最適なセットが見つかるまで徐々に新しい特徴を追加していきます。アルゴリズムの性能が特定の反復後に改善されなくなった時点で、モデル選択が行われます。
後向き選択:すべての元の特徴を使ってモデルをトレーニングし、最も重要度の低い特徴を順次特徴セットから削除していきます。
全探索特徴選択:指定された性能メトリクスを最適化することで、すべての特徴の組み合わせをテストし、最も優れた組み合わせを見つけます。ロジスティック回帰モデルにおける全探索特徴選択では、あらゆる特徴数とそのすべての組み合わせをテストします。
再帰的特徴除去(RFE):初期の特徴空間から開始し、各反復ごとに特徴の相対的な重要度に基づいて特徴を削除または追加していく、後向き選択の一種です。
交差検証付き再帰的特徴除去:未見のデータでモデルをテストする交差検証を用いて、最も性能の高い特徴セットを選択する再帰的除去法の一種です。交差検証は、大規模言語モデル(LLM)の評価によく使われる手法です。
組み込み法は、特徴選択をモデルのトレーニング・プロセスに組み込みます。モデルがトレーニングを進める中で、さまざまなメカニズムを用いてパフォーマンスの低い特徴を検知し、今後の反復から除外します。
多くの組み込み手法は、事前設定された係数しきい値に基づいて主要な機能にペナルティを課す正則化を中心に展開されます。モデルはある程度の正確さを犠牲にして、より高い精度を実現します。成果として、モデルのパフォーマンスはわずかに低下しますが、過学習を減らすことでより一般化しやすくなります。
埋め込みメソッドには、以下のものがあります。
LASSO回帰(L1回帰):高い値を持つ相関係数に対して損失関数にペナルティを加え、それらを0に近づけます。係数が0になった特徴は除外されます。ペナルティが大きいほど、多くの特徴が特徴空間から除去されます。効果的なLASSOの活用には、重要な特徴を残しつつ不要な特徴を十分に除去するよう、ペナルティのバランスを取ることが重要です。
ランダム・フォレストの重要度:ランダムに選ばれたデータ・ポイントと特徴を用いて、何百本もの決定木を構築します。データ・ポイントをどの程度適切に分割できるか、つまりジニ不純度や情報利得といった指標に基づいて評価されます。分類の結果が優れているほど、そのツリー内で使用された特徴は、より重要であると見なされます。分類器は、ジニ不純度または情報ゲインによってグループの「不純度」を測定しますが、なお、回帰モデルの場合は、特徴の重要度は分散を用いて評価されます。
勾配ブースティング:予測モデルを順番にアンサンブルに追加し、各反復で前のモデルの誤差を修正していきます。この手法により、どの特徴が最も直接的に最適な結果に結びついているかを特定することができます。
教師なし学習では、モデルがデータの特徴やパターン、関係性を自ら見つけ出します。そのため、既知のターゲット変数に合わせてインプット変数を調整することはできません。教師なし特徴選択法では、別の手法を用いて特徴空間を簡素化・効率化します。
教師なし特徴選択方法の1つが、主要コンポーネント分析(PCA)です。PCAは、潜在的に相関する変数をより小さな変数セットに変換することにより、大規模なデータセットの次元を削減します。これらの主要コンポーネントには、元のデータセットに含まれる情報のほとんどが保持されます。PCAは次元の制限に対抗し、過学習も削減します。
その他の手法には、統計的に独立した個別の成分に多変量データを分離する独立成分分析(ICA)や、オートエンコーダーなどがあります。
Transformerアーキテクチャーで広く使用されているオートエンコーダーは、データを圧縮して再構築することを学習するニューラル・ネットワークの一種です。この際、オートエンコーダーは潜在変数(直接的には観測できないものの、データ分布に大きな影響を与えるもの)を発見します。
使用される特徴選択のタイプは、インプット変数とアウトプット変数の性質によって異なります。これらはまた、分類問題であるか回帰タスクであるかを問わず、機械学習の課題の性質も形成します。
数値のインプット、数値のアウトプット:インプットとアウトプットの両方が数値である場合、これは回帰予測の問題を示します。線形モデルは、連続的な数値予測に対してアウトプットを行い、ターゲット変数として特定の範囲内の数値をアウトプットします。このような場合には、ピアソンの相関係数などの相関係数が、特徴選択手法として理想的です。
数値のインプット、カテゴリーのアウトプット:ロジスティック回帰モデルは、インプットを離散的なカテゴリーのアウトプットに分類します。このような分類問題では、カテゴリー型のターゲット変数に対応した相関ベースの特徴選択手法を使用することができます。これには、線形回帰モデルに対するANOVAや、非線形なタスクに対するケンドールの順位相関係数などが含まれます。
カテゴリーのインプット、数値のアウトプット:このような珍しいタイプの課題も、カテゴリー変数に対応した相関手法を用いることで解決できます。
カテゴリーのインプット、カテゴリーのアウトプット:カテゴリー型の入力と目標変数を持つ分類問題には、カイ二乗検定や情報利得法などの手法が適しています。
考慮すべきその他の要素としては、データセットと特徴空間のサイズ、特徴の複雑さ、モデルの種類などがあります。フィルター・メソッドは、無関係な特徴の大部分を迅速に除去できますが、複雑な特徴の相互作用には対応しにくい場合があります。このような場合には、ラッパー・メソッドや埋め込みメソッドが適している可能性があります。
どの特徴に焦点を当てるかを知ることは、盗聴選択に欠かせない要素です。モデリングに非常に望ましい特徴もあれば、標準以下の成果につながる可能性もあります。特徴の重要度は、ターゲット変数にどのように影響するかに加えて、以下によって決まります。
モデリングのしやすさ:ある特徴がモデリングしやすい場合、機械学習全体のプロセスはよりシンプルかつ高速になり、エラーが発生する可能性も少なくなります。
正則化しやすいこと:正則化が効果的に適用できる特徴は、より効率的に扱うことができます。
因果関係の分離:観測される特徴から因果要因を分離するとは、その特徴に影響を与えている根本的な要因を特定することを意味します。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。