公開日:2024年6月15日
寄稿者: Jacob Murel Ph.D.
ダウンサンプリングでは、データ・セット内のデータ・サンプルの数が減少します。そうすることで、不均衡なデータを修正し、モデルのパフォーマンスを向上させることを目的としています。
ダウンサンプリングは、データ・セットの不均衡に対処する一般的なデータ処理手法であり、少数派クラスのサイズに一致するように多数派クラスからデータを削除します。これは、少数派クラスのポイントを再サンプリングするアップサンプリングとは対照的です。Python scikit-learnとMatlabには、ダウンサンプリング手法を実装するための組み込み関数が含まれています。
データサイエンスのダウンサンプリングは、デジタル信号処理(DSP)のダウンサンプリングとよく間違われます。しかし確かにその2つの考え方は似ています。デジタル信号処理のダウンサンプリング(デシメーションとも呼ばれる)は、サンプラーの帯域幅とサンプリング・レートを引き下げて、元の信号から元のデータの一部を削除するプロセスです。サンプリング周波数を引き下げるプロセスは、多くの場合、サンプリング・レートを特定の整数因数で削減する(サンプルのn番目のみを残す)ことによって行われます。これは、ローパス・フィルター(アンチエイリアシング・フィルターとも呼ばれる)を使用して、離散時間信号の高周波数/ノイズ成分を前述の整数因数で削減することで実現します。
データ・バランシングのためのダウンサンプリングは、画像処理のためのダウンサンプリングと混同される場合があります。高解像度のMRI画像など、データに多くの特徴が含まれている場合、計算コストが高くなることがあります。そのため、画像処理におけるダウンサンプリングでは、畳み込みによって各データ・ポイントの次元を縮小します。これはデータ・セットのバランスを取ることと同じではなく、後で元のデータに戻すために補間が必要になる最適化手法です。
特にAIガバナンスやリスク管理ソリューションの欠如など、AI導入の障壁について学びましょう。
基盤モデルについてのガイドに登録する
ダウンサンプリングは、データ・セット内の不均衡に対処する効果的な方法です。不均衡なデータ・セットは、1つのクラスが実際の母集団と比較して大幅に過小評価され、意図しないバイアスが生じるデータ・セットと定義されます。例えば、あるモデルが、犬と猫の画像を分類するようにトレーニングされたとします。そして、使用されるデータ・セットが90%は猫、10%は犬で構成されているとします。このシナリオでは猫の画像が過剰であり、すべての回で猫を予測する分類器があるとして、猫の分類に関しては精度は90%になりますが、犬の分類に関しては精度は0%になります。このケースでは不均衡なデータ・セットにより、分類器は多数派クラスの精度を優先し、少数派クラスを犠牲にすることになります。同じ問題は、マルチクラス・データ・セットでも発生する可能性があります1。
ダウンサンプリングのプロセスにより、不均衡なデータ・セットによる問題が解消されます。そのプロセスでは、指定された基準に基づいて、多数派クラスから削除するポイントを特定します。この基準は、選択するダウンサンプリング技法によって変更できます。これにより、データ・セットにすべてのクラスにわたって等しい比率のポイントが含まれるようになるまで、過大評価されている多数派クラスのサンプル数を効果的に減らし、データ・セットのバランスが取れるようになります。
各クラスのデータ・ポイントの数をプロットするだけで不均衡を確認できますが、それがモデルに大きな影響を与えるかどうかはわかりません。幸いなことに、パフォーマンス・メトリクスを使用して、ダウンサンプリング手法がクラスの不均衡をどの程度適切に修正できるかを測定できます。これらのメトリクスのほとんどはバイナリー分類用であり、正と負の2つのクラスしか存在しません。通常、正のクラスは少数派クラスであり、負のクラスは多数派クラスです。2つの一般的なメトリクスは、受信者操作特性(ROC)曲線および精度-再現率曲線です1。
ランダム・ダウンサンプリングは削除の 1 つの手法であり、多数派クラスのランダムなポイントを置換なしで選択し、多数派クラスのサイズが少数派クラスのサイズに等しくなるまでデータ・セットから削除します。これは、バランスを取るためにデータのサブセットをランダムに削除するという簡単な方法です。ただし、この手法では、多数派クラスの重要なパターンや分布が消失し、分類器のパフォーマンスに悪影響を与える可能性があります2。
ニアミス・ダウンサンプリングは、特定の多数派クラスのサンプルをランダムに排除することによってクラス分布のバランスを取ろうとする手法です。
概念的には、ニアミスは「多数派クラスと少数派クラスは非常に近接した場所にデータを保持すべきである」という原則に基づいて動作します。その場所が、2つのクラスを区別するための重要な情報を提供するものとなるからです3。それらのポイントは一般に、学習が「難しい」データ・ポイントとして知られています。ニアミス・ダウンサンプリングは通常、次の2段階で行われます。
ニアミス・アルゴリズムには3つのバリエーションがあり、削除する多数派クラスのインスタンスをより限定的に選択することができます。
凝縮最近傍(CNN:Condensed Nearest Neighbors、Convolutional Neural Networksと混同しないでください)は、モデルのパフォーマンスを損なうことなくトレーニングに使用できるデータ・セットのサブセットを見つけます。これは、データ・セット全体を正しく予測するモデルをトレーニングするために使用できるデータのサブセットを特定することで実現できます。
CNNのダウンサンプリングは、次のいくつかの段階に分けることができます5。
ニアミスと同様に、このプロセスは基本的に決定境界から遠く離れたすべての多数派クラスのインスタンスを削除します。これも、分類が容易なポイントです。また、S内のデータのみを使用して元のデータ・セット内のすべてのデータを正しく予測できることも保証されます。このようにして、決定境界を適切に維持しながら、データ・セットを大幅に縮小することができます。
この画像は、1つの最近傍と21個の最近傍を使用して、凝縮最近傍を2つのデータ・セットに適用する例を示しています。上の2つの画像は凝縮最近傍の適用前のものであり、下の2つは適用後のものです。ご覧のとおり、決定境界は適切に維持されています。
Tomekリンクによるダウンサンプリングの前提は、決定境界付近のポイントを削除することでデータ内のノイズを減らし、クラス分離を増やすことです。その仕組みは、「tomekリンク」を特定することです。これは、異なるクラスに属する2つのポイントのペアで、どちらのポイントに対しても最も近い3番目のポイントは存在しないことを指します。2
すべてのtomekリンクで、多数派のクラスに属するポイントが削除されます。少数派のクラスに属するポイントに近接する多数派のクラスに属するポイントを削除することで、クラスの分離が大きくなります。この方法の欠点の 1 つは、多数派のクラスと少数派のクラスに属するポイントの間のすべてのペアワイズ距離を計算する際の計算の複雑さです。2Tomek Linkによるダウンサンプリングは、他の手法と組み合わせることで最も効果を発揮します。
編集済みの近傍法(ENN)によるダウンサンプリングは、Tomekリンクによるダウンサンプリングに似ており、その目的は、クラス分離を大きくするために決定境界に近いサンプルを削除することです。一般に、このメソッドでは近傍の大多数のデータ・ポイントからクラスが異なるデータ・ポイントを削除します。2これは、これは、最近傍の大多数が少数派のクラスに属する多数派のクラスのデータポイントを削除し、逆もまた同様に削除するプロセスを意味しますこの手法では、何を多数派とするか自由に定義できます。少なくとも1つの近傍が異なるクラスに属しているか、または異なるクラスに属する近傍の割合が特定のしきい値を超えることを意味することがあります。
ENNによるダウンサンプリングは、以下に示すように、通常、3つの最近傍を用いて行われます。
これは、単一の隣接点ではなく、点の一般的な近傍領域を見るため、より粒度の粗い手法ですが、データ内のノイズを効率的に除去する方法です。ENNダウンサンプリングは、他の手法と組み合わせた場合に最も効果的です。
現在行われているダウンサンプリングの開発は、ディープラーニングの統合を中心に行われています。これは、画像処理や医療データなどの分野で使用されており、ニューラル・ネットワークを使用してデータをダウンサンプリングを行います。6たとえば2層のニューラル・ネットワークを使用するSOM-USが挙げられます。7近年では、データの不均衡による影響を軽減するために、ダウンサンプリングにもアクティブラーニングが応用されています。8実験では、これらのモデルは従来の手法よりも大幅にパフォーマンスが優れていることが示されています。
現在行われているダウンサンプリングに関する研究においても、ダウンサンプリングを他の手法と組み合わせてハイブリッド手法を確立することが中心となっています。1つの組み合わせは、データのダウンサンプリングとアップサンプリングの両方を使用し、両方のメリットを得ることです。例としてSMOTE+Tomek Link、凝集型階層クラスタリング(AHC)、SPIDERが挙げられます。9アルゴリズムレベルの手法では、トレーニングが「よりハードな」データ・ポイントのみに焦点を当てるハード・サンプル・マイニングなど、従来のダウンサンプリング手法のアイデアを組み込むこともあります。2いずれも、各手法を個別に使用するより高いパフォーマンスを発揮します。
1 Haobo He、Edwardo Garcia、Learning from Imbalanced Data、IEEE、2009年9月、https://ieeexplore.ieee.org/document/5128907(リンクはibm.com外部にあります)。
2Kumar Abhishek、Mounir Abdelaziz、Machine Learning for Imbalanced Data、Packt、2023年11月
3 Ajinkya More、Survey of resampling techniques for improving classification performance in unbalanced dataset、2016年8月22日、 https://arxiv.org/pdf/1608.06048(リンクはibm.com外部にあります)。
4 Jianping Zhang、Inderjeet Mani、kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction、2003 年、 https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf(リンクはibm.com外部にあります)。
5More、Survey of resampling techniques for improving calssification performance in unbalanced datasets、2016年8月22日、 https://arxiv.org/pdf/1608.06048(リンクはibm.com外部にあります)Alberto Fernandez他、Learning from Imbalanced Data Sets、Springer、2018年。
6 Md Adnan Arefeen、Sumaiya Tabassum Nimi、M. Sohel Rahman、「Neural Network-Based Undersampling Techniques」、IEEE、2020年9月2日、 https://ieeexplore.ieee.org/abstract/document/9184909 ?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg(リンクはibm.com外部にあります)。
7 Ajay Kumar、SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem、hrcak、2024 年1月30日、 https://hrcak.srce.hr/clanak/454006(リンクはibm.com外部にあります)。
8 Wonjae Lee、Kangwon Seo、Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning、Science Direct、2022年4月26日、 https://www.sciencedirect.com/science/article/pii/S2214579622000089(リンクはibm.com外部にあります)。
9 Alberto Fernandez他著、Learning from Imbalanced Data Sets、Springer、2018年。