ホーム Topics ダウンサンプリング ダウンサンプリングとは
watsonx.aiによるダウンサンプリングの詳細はこちら AI関連の最新情報の購読を申し込む
データを表す箱と球のピクトグラムのコラージュを使用したイラスト

公開日:2024年6月15日
寄稿者: Jacob Murel Ph.D.

ダウンサンプリングでは、データ・セット内のデータ・サンプルの数が減少します。そうすることで、不均衡なデータを修正し、モデルのパフォーマンスを向上させることを目的としています。

ダウンサンプリングは、データ・セットの不均衡に対処する一般的なデータ処理手法であり、少数派クラスのサイズに一致するように多数派クラスからデータを削除します。これは、少数派クラスのポイントを再サンプリングするアップサンプリングとは対照的です。Python scikit-learnとMatlabには、ダウンサンプリング手法を実装するための組み込み関数が含まれています。

データサイエンスのダウンサンプリングは、デジタル信号処理(DSP)のダウンサンプリングとよく間違われます。しかし確かにその2つの考え方は似ています。デジタル信号処理のダウンサンプリング(デシメーションとも呼ばれる)は、サンプラーの帯域幅とサンプリング・レートを引き下げて、元の信号から元のデータの一部を削除するプロセスです。サンプリング周波数を引き下げるプロセスは、多くの場合、サンプリング・レートを特定の整数因数で削減する(サンプルのn番目のみを残す)ことによって行われます。これは、ローパス・フィルター(アンチエイリアシング・フィルターとも呼ばれる)を使用して、離散時間信号の高周波数/ノイズ成分を前述の整数因数で削減することで実現します。

データ・バランシングのためのダウンサンプリングは、画像処理のためのダウンサンプリングと混同される場合があります。高解像度のMRI画像など、データに多くの特徴が含まれている場合、計算コストが高くなることがあります。そのため、画像処理におけるダウンサンプリングでは、畳み込みによって各データ・ポイントの次元を縮小します。これはデータ・セットのバランスを取ることと同じではなく、後で元のデータに戻すために補間が必要になる最適化手法です。

企業の人工知能を拡大するためにAIガバナンスがビジネス上欠かせない理由

特にAIガバナンスやリスク管理ソリューションの欠如など、AI導入の障壁について学びましょう。

関連コンテンツ

基盤モデルについてのガイドに登録する

ダウンサンプリングを使用する理由

ダウンサンプリングは、データ・セット内の不均衡に対処する効果的な方法です。不均衡なデータ・セットは、1つのクラスが実際の母集団と比較して大幅に過小評価され、意図しないバイアスが生じるデータ・セットと定義されます。例えば、あるモデルが、犬と猫の画像を分類するようにトレーニングされたとします。そして、使用されるデータ・セットが90%は猫、10%は犬で構成されているとします。このシナリオでは猫の画像が過剰であり、すべての回で猫を予測する分類器があるとして、猫の分類に関しては精度は90%になりますが、犬の分類に関しては精度は0%になります。このケースでは不均衡なデータ・セットにより、分類器は多数派クラスの精度を優先し、少数派クラスを犠牲にすることになります。同じ問題は、マルチクラス・データ・セットでも発生する可能性があります1

ダウンサンプリングのプロセスにより、不均衡なデータ・セットによる問題が解消されます。そのプロセスでは、指定された基準に基づいて、多数派クラスから削除するポイントを特定します。この基準は、選択するダウンサンプリング技法によって変更できます。これにより、データ・セットにすべてのクラスにわたって等しい比率のポイントが含まれるようになるまで、過大評価されている多数派クラスのサンプル数を効果的に減らし、データ・セットのバランスが取れるようになります。

各クラスのデータ・ポイントの数をプロットするだけで不均衡を確認できますが、それがモデルに大きな影響を与えるかどうかはわかりません。幸いなことに、パフォーマンス・メトリクスを使用して、ダウンサンプリング手法がクラスの不均衡をどの程度適切に修正できるかを測定できます。これらのメトリクスのほとんどはバイナリー分類用であり、正と負の2つのクラスしか存在しません。通常、正のクラスは少数派クラスであり、負のクラスは多数派クラスです。2つの一般的なメトリクスは、受信者操作特性(ROC)曲線および精度-再現率曲線です1

ダウンサンプリングのメリットとデメリット
メリット
  • ストレージ要件の軽減:例えばクラウド・ストレージなど、ストレージの利用に費用がかかる場合には、コストの上昇を避けるために、アップサンプリングよりもダウンサンプリングが優先されます2
  • トレーニングの高速化:ダウンサンプリングはデータ・セットを縮小し、CPUやGPUのトレーニング負荷を軽減するため、経済的にも環境的にも優しい手法です。
  • 過剰適合しにくい:アップサンプリングによって古いデータから新しいデータを生成すると、モデルが特定のデータに過剰適合する可能性があります。ダウンサンプリングは、逆のプロセス(データの削除)であるため、その問題が生じることはありません2
デメリット
  • 情報の損失:多数派クラスからポイントを削除すると、重要な情報が失われる可能性があります。これは、多数派クラスの分類を正確なものとする必要がある場合に問題となる可能性があります。別の問題は、データ・セットが小さくなりすぎてモデルをトレーニングできなくなることがあるということです2
  • バイアスが入り込む:残った多数派クラスのサンプル・ポイントは、元のデータのバイアスがかかったセットになる可能性があり、分類器の性能に悪影響を与えます。
ダウンサンプリング手法
ランダム・ダウンサンプリング

ランダム・ダウンサンプリングは削除の 1 つの手法であり、多数派クラスのランダムなポイントを置換なしで選択し、多数派クラスのサイズが少数派クラスのサイズに等しくなるまでデータ・セットから削除します。これは、バランスを取るためにデータのサブセットをランダムに削除するという簡単な方法です。ただし、この手法では、多数派クラスの重要なパターンや分布が消失し、分類器のパフォーマンスに悪影響を与える可能性があります2

ニアミス・ダウンサンプリング

ニアミス・ダウンサンプリングは、特定の多数派クラスのサンプルをランダムに排除することによってクラス分布のバランスを取ろうとする手法です。

概念的には、ニアミスは「多数派クラスと少数派クラスは非常に近接した場所にデータを保持すべきである」という原則に基づいて動作します。その場所が、2つのクラスを区別するための重要な情報を提供するものとなるからです3。それらのポイントは一般に、学習が「難しい」データ・ポイントとして知られています。ニアミス・ダウンサンプリングは通常、次の2段階で行われます。

  • ステップ1:すべての多数派クラスと少数度クラスのインスタンス間のペアワイズ距離を計算します。
  • ステップ2:計算した距離に基づいて、少数派ポイントから遠く離れた多数派クラスのインスタンスを削除します。

ニアミス・アルゴリズムには3つのバリエーションがあり、削除する多数派クラスのインスタンスをより限定的に選択することができます。

  • バージョン1:このバージョンは、最も近接しているN個の少数派クラスのインスタンスとの平均距離が最小である多数派クラスのインスタンスを保持します。結果として得られるデータは、潜在的に不均等に分布する可能性があり、一部の多数派クラスのポイントは多くの少数派クラスのポイントに近接しており、他のポイントはごく少数のポイントに近接しているため、精度と再現率の両方が低くなる場合があります4
  • バージョン2:ニアミス・データ・ダウンサンプリングのこのバージョンは、最も遠いN個の少数派クラスのインスタンスとの平均距離が最小である多数派クラスのインスタンスを保持します。バージョン1とは異なり、このバージョンでは、多数派クラスの分布がより均等に作成され、分類器からより良い結果が得られます4
  • バージョン3:このバージョンでは、多数派クラスに最も近い少数派クラスのインスタンスについて、最も多数派クラスのサンプルを保持します。操作は2段階で行われます。まず、各少数派クラスのインスタンスのM個の最も近接した多数派クラスが保持されます。次に、残りの多数派クラスのインスタンスから、最大の平均距離を持つインスタンスが特定され、保持されます。このバージョンでは、多くの少数派クラスのインスタンスに近接した多数派クラスのインスタンスが保持されるため、精度は高くなりますが、再現率は低くなります4
凝縮最近傍ルールのダウンサンプリング

凝縮最近傍(CNN:Condensed Nearest Neighbors、Convolutional Neural Networks混同しないでください)は、モデルのパフォーマンスを損なうことなくトレーニングに使用できるデータ・セットのサブセットを見つけます。これは、データ・セット全体を正しく予測するモデルをトレーニングするために使用できるデータのサブセットを特定することで実現できます。

CNNのダウンサンプリングは、次のいくつかの段階に分けることができます5

  1. 新しいデータ・セットSを作成します。このデータ・セットには、少数派クラスのすべてのインスタンスと、ランダムにサンプリングされた多数派クラスの1つのインスタンスが含まれています。
  2. 新しいデータ・セットSで1-NN分類器をトレーニングします。
  3. Sに含まれないすべての多数派クラスのデータ・ポイントについて、1-NN分類器を使用してラベルを予測します。1-NN分類器がラベルを正しく予測した場合は、そのポイントを破棄します。それ以外の場合は、Sに追加します。

ニアミスと同様に、このプロセスは基本的に決定境界から遠く離れたすべての多数派クラスのインスタンスを削除します。これも、分類が容易なポイントです。また、S内のデータのみを使用して元のデータ・セット内のすべてのデータを正しく予測できることも保証されます。このようにして、決定境界を適切に維持しながら、データ・セットを大幅に縮小することができます。

この画像は、1つの最近傍と21個の最近傍を使用して、凝縮最近傍を2つのデータ・セットに適用する例を示しています。上の2つの画像は凝縮最近傍の適用前のものであり、下の2つは適用後のものです。ご覧のとおり、決定境界は適切に維持されています。

Tomekリンク

Tomekリンクによるダウンサンプリングの前提は、決定境界付近のポイントを削除することでデータ内のノイズを減らし、クラス分離を増やすことです。その仕組みは、「tomekリンク」を特定することです。これは、異なるクラスに属する2つのポイントのペアで、どちらのポイントに対しても最も近い3番目のポイントは存在しないことを指します。2

すべてのtomekリンクで、多数派のクラスに属するポイントが削除されます。少数派のクラスに属するポイントに近接する多数派のクラスに属するポイントを削除することで、クラスの分離が大きくなります。この方法の欠点の 1 つは、多数派のクラスと少数派のクラスに属するポイントの間のすべてのペアワイズ距離を計算する際の計算の複雑さです。2Tomek Linkによるダウンサンプリングは、他の手法と組み合わせることで最も効果を発揮します。

編集済みの最近傍法

編集済みの近傍法(ENN)によるダウンサンプリングは、Tomekリンクによるダウンサンプリングに似ており、その目的は、クラス分離を大きくするために決定境界に近いサンプルを削除することです。一般に、このメソッドでは近傍の大多数のデータ・ポイントからクラスが異なるデータ・ポイントを削除します。2これは、これは、最近傍の大多数が少数派のクラスに属する多数派のクラスのデータポイントを削除し、逆もまた同様に削除するプロセスを意味しますこの手法では、何を多数派とするか自由に定義できます。少なくとも1つの近傍が異なるクラスに属しているか、または異なるクラスに属する近傍の割合が特定のしきい値を超えることを意味することがあります。

ENNによるダウンサンプリングは、以下に示すように、通常、3つの最近傍を用いて行われます。

これは、単一の隣接点ではなく、点の一般的な近傍領域を見るため、より粒度の粗い手法ですが、データ内のノイズを効率的に除去する方法です。ENNダウンサンプリングは、他の手法と組み合わせた場合に最も効果的です。

最近の研究

現在行われているダウンサンプリングの開発は、ディープラーニングの統合を中心に行われています。これは、画像処理や医療データなどの分野で使用されており、ニューラル・ネットワークを使用してデータをダウンサンプリングを行います。6たとえば2層のニューラル・ネットワークを使用するSOM-USが挙げられます。7近年では、データの不均衡による影響を軽減するために、ダウンサンプリングにもアクティブラーニングが応用されています。8実験では、これらのモデルは従来の手法よりも大幅にパフォーマンスが優れていることが示されています。

現在行われているダウンサンプリングに関する研究においても、ダウンサンプリングを他の手法と組み合わせてハイブリッド手法を確立することが中心となっています。1つの組み合わせは、データのダウンサンプリングとアップサンプリングの両方を使用し、両方のメリットを得ることです。例としてSMOTE+Tomek Link、凝集型階層クラスタリング(AHC)、SPIDERが挙げられます。9アルゴリズムレベルの手法では、トレーニングが「よりハードな」データ・ポイントのみに焦点を当てるハード・サンプル・マイニングなど、従来のダウンサンプリング手法のアイデアを組み込むこともあります。2いずれも、各手法を個別に使用するより高いパフォーマンスを発揮します。

参考情報 アップサンプリングとは

アップサンプリングにより、データ・セット内のデータ・サンプルの数が増加します。そうすることで、不均衡なデータを修正し、モデルのパフォーマンスを向上させることを目的としています。

畳み込みニューラル・ネットワークとは

畳み込みニューラル・ネットワークは、イメージ分類や物体認識のタスクに3次元データを使用します。

インスタンス・セグメンテーションとは

インスタンス・セグメンテーションは、画像内の個々のオブジェクト・インスタンスの正確なピクセル単位の境界を予測する、ディープラーニングを用いたコンピューター・ビジョン・タスクです。

次のステップ

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、デプロイしましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiの詳細はこちら デモの予約
脚注

1 Haobo He、Edwardo Garcia、Learning from Imbalanced Data、IEEE、2009年9月、https://ieeexplore.ieee.org/document/5128907(リンクはibm.com外部にあります)。

2Kumar Abhishek、Mounir Abdelaziz、Machine Learning for Imbalanced Data、Packt、2023年11月

3 Ajinkya More、Survey of resampling techniques for improving classification performance in unbalanced dataset、2016年8月22日、 https://arxiv.org/pdf/1608.06048(リンクはibm.com外部にあります)。

4 Jianping Zhang、Inderjeet Mani、kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction、2003 年、 https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf(リンクはibm.com外部にあります)。

5More、Survey of resampling techniques for improving calssification performance in unbalanced datasets、2016年8月22日、 https://arxiv.org/pdf/1608.06048(リンクはibm.com外部にあります)Alberto Fernandez他、Learning from Imbalanced Data Sets、Springer、2018年。

6 Md Adnan Arefeen、Sumaiya Tabassum Nimi、M. Sohel Rahman、「Neural Network-Based Undersampling Techniques」、IEEE、2020年9月2日、 https://ieeexplore.ieee.org/abstract/document/9184909 ?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg(リンクはibm.com外部にあります)。

7 Ajay Kumar、SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem、hrcak、2024 年1月30日、 https://hrcak.srce.hr/clanak/454006(リンクはibm.com外部にあります)。

8 Wonjae Lee、Kangwon Seo、Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning、Science Direct、2022年4月26日、 https://www.sciencedirect.com/science/article/pii/S2214579622000089(リンクはibm.com外部にあります)。

9 Alberto Fernandez他著、Learning from Imbalanced Data Sets、Springer、2018年。