ダウンサンプリングとは

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

ダウンサンプリングとは何か

ダウンサンプリングでは、データ・セット内のデータ・サンプルの数が減少します。そうすることで、不均衡なデータを修正し、モデルのパフォーマンスを向上させることを目的としています。

ダウンサンプリングは、データ・セットの不均衡に対処する一般的なデータ処理手法であり、少数派クラスのサイズに一致するように多数派クラスからデータを削除します。これは、少数派クラスのポイントを再サンプリングするアップサンプリングとは対照的です。Python scikit-learnとMatlabには、ダウンサンプリング手法を実装するための組み込み関数が含まれています。

データサイエンスのダウンサンプリングは、デジタル信号処理（DSP）のダウンサンプリングとよく間違われます。しかし確かにその2つの考え方は似ています。デジタル信号処理のダウンサンプリング（デシメーションとも呼ばれる）は、サンプラーの帯域幅とサンプリング・レートを引き下げて、元の信号から元のデータの一部を削除するプロセスです。サンプリング周波数を引き下げるプロセスは、多くの場合、サンプリング・レートを特定の整数因数で削減する（サンプルのn番目のみを残す）ことによって行われます。これは、ローパス・フィルター（アンチエイリアシング・フィルターとも呼ばれる）を使用して、離散時間信号の高周波数／ノイズ成分を前述の整数因数で削減することで実現します。

データ・バランシングのためのダウンサンプリングは、画像処理のためのダウンサンプリングと混同される場合があります。高解像度のMRI画像など、データに多くの特徴が含まれている場合、計算コストが高くなることがあります。そのため、画像処理におけるダウンサンプリングでは、畳み込みによって各データ・ポイントの次元を縮小します。これはデータ・セットのバランスを取ることと同じではなく、後で元のデータに戻すために補間が必要になる最適化手法です。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ダウンサンプリングを使用する理由

ダウンサンプリングは、データセット内の不均衡に対処する効果的な方法です。不均衡なデータセットは、1つのクラスが実際の母集団と比較して大幅に過小評価され、意図しないバイアスが生じるデータセットと定義されます。例えば、あるモデルが、犬と猫の画像を分類するようにトレーニングされたとします。そして、使用されるデータセットが90%は猫、10%は犬で構成されているとします。このシナリオでは猫の画像が過剰であり、すべての回で猫を予測する分類器があるとして、猫の分類に関しては精度は90%になりますが、犬の分類に関しては精度は0%になります。このケースでは不均衡なデータセットにより、分類器は多数派クラスの精度を優先し、少数派クラスを犠牲にすることになります。同じ問題は、マルチクラス・データセットでも発生する可能性があります¹。

ダウンサンプリングのプロセスにより、不均衡なデータ・セットによる問題が解消されます。そのプロセスでは、指定された基準に基づいて、多数派クラスから削除するポイントを特定します。この基準は、選択するダウンサンプリング技法によって変更できます。これにより、データ・セットにすべてのクラスにわたって等しい比率のポイントが含まれるようになるまで、過大評価されている多数派クラスのサンプル数を効果的に減らし、データ・セットのバランスが取れるようになります。

各クラスのデータ・ポイントの数をプロットするだけで不均衡を確認できますが、それがモデルに大きな影響を与えるかどうかはわかりません。幸いなことに、パフォーマンス・メトリクスを使用して、ダウンサンプリング手法がクラスの不均衡をどの程度適切に修正できるかを測定できます。これらのメトリクスのほとんどはバイナリー分類用であり、正と負の2つのクラスしか存在しません。通常、正のクラスは少数派クラスであり、負のクラスは多数派クラスです。2つの一般的なメトリクスは、受信者操作特性（ROC）曲線および精度-再現率曲線です¹。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

ダウンサンプリングのメリットとデメリット

メリット

ストレージ要件の軽減：クラウド・ストレージのようにストレージの利用に費用がかかる場合は、コストの上昇を避けるために、アップサンプリングよりもダウンサンプリングが優先されます²。
トレーニングの高速化：ダウンサンプリングはデータ・セットを縮小し、CPUやGPUのトレーニング負荷を軽減するため、経済的にも環境的にも優しい手法です。
過剰適合しにくい：アップサンプリングによって古いデータから新しいデータを生成すると、モデルが特定のデータに過剰適合する可能性があります。ダウンサンプリングは、逆のプロセス（データの削除）であるため、その問題が生じることはありません²。

デメリット

情報の損失：多数派クラスからポイントを削除すると、重要な情報が失われる可能性があります。これは、多数派クラスの分類を正確なものとする必要がある場合に問題となる可能性があります。別の問題は、データセットが小さくなりすぎてモデルをトレーニングできなくなる場合がある点です²。
バイアスが入り込む：残った多数派クラスのサンプル・ポイントは、元のデータのバイアスがかかったセットになる可能性があり、分類器の性能に悪影響を与えます。

ダウンサンプリング手法

ランダム・ダウンサンプリング

ランダム・ダウンサンプリングは削除の 1 つの手法であり、多数派クラスのランダムなポイントを置換なしで選択し、多数派クラスのサイズが少数派クラスのサイズに等しくなるまでデータセットから削除します。これは、バランスを取るためにデータのサブセットをランダムに削除するという簡単な方法です。ただし、この手法では、多数派クラスの重要なパターンや分布が消失し、分類器のパフォーマンスに悪影響を与える可能性があります²。

ニアミス・ダウンサンプリング

ニアミス・ダウンサンプリングは、特定の多数派クラスのサンプルをランダムに排除することによってクラス分布のバランスを取ろうとする手法です。

概念的には、ニアミスは「多数派クラスと少数派クラスは非常に近接した場所にデータを保持すべきである」という原則に基づいて動作します。その場所が、2つのクラスを区別するための重要な情報を提供するものとなるからです³。それらのポイントは一般に、学習が「難しい」データ・ポイントとして知られています。ニアミス・ダウンサンプリングは通常、次の2段階で行われます。

ステップ1：すべての多数派クラスと少数度クラスのインスタンス間のペアワイズ距離を計算します。
ステップ2：計算した距離に基づいて、少数派ポイントから遠く離れた多数派クラスのインスタンスを削除します。

ニアミス・アルゴリズムには3つのバリエーションがあり、削除する多数派クラスのインスタンスをより限定的に選択することができます。

バージョン1：このバージョンは、最も近接しているN個の少数派クラスのインスタンスとの平均距離が最小である多数派クラスのインスタンスを保持します。結果として得られるデータは、潜在的に不均等に分布する可能性があり、一部の多数派クラスのポイントは多くの少数派クラスのポイントに近接しており、他のポイントはごく少数のポイントに近接しているため、精度と再現率の両方が低くなる場合があります⁴。

バージョン2：ニアミス・データ・ダウンサンプリングのこのバージョンは、最も遠いN個の少数派クラスのインスタンスとの平均距離が最小である多数派クラスのインスタンスを保持します。バージョン1とは異なり、このバージョンでは、多数派クラスの分布がより均等に作成され、分類器からより良い結果が得られます⁴。

バージョン3：このバージョンでは、多数派クラスに最も近い少数派クラスのインスタンスについて、最も多数派クラスのサンプルを保持します。操作は2段階で行われます。まず、各少数派クラスのインスタンスのM個の最も近接した多数派クラスが保持されます。次に、残りの多数派クラスのインスタンスから、最大の平均距離を持つインスタンスが特定され、保持されます。このバージョンでは、多くの少数派クラスのインスタンスに近接した多数派クラスのインスタンスが保持されるため、精度は高くなりますが、再現率は低くなります⁴。

凝縮最近傍ルールのダウンサンプリング

凝縮最近傍（CNN：Condensed Nearest Neighbors、Convolutional Neural Networksと混同しないでください）は、モデルの性能を損なうことなくトレーニングに使用できるデータセットのサブセットを見つけます。これは、データセット全体を正しく予測するモデルをトレーニングするために使用できるデータのサブセットを特定することで実現できます。

CNNのダウンサンプリングは、次のいくつかの段階に分けることができます⁵。

新しいデータ・セットSを作成します。このデータ・セットには、少数派クラスのすべてのインスタンスと、ランダムにサンプリングされた多数派クラスの1つのインスタンスが含まれています。
新しいデータ・セットSで1-NN分類器をトレーニングします。
Sに含まれないすべての多数派クラスのデータ・ポイントについて、1-NN分類器を使用してラベルを予測します。1-NN分類器がラベルを正しく予測した場合は、そのポイントを破棄します。それ以外の場合は、Sに追加します。

ニアミスと同様に、このプロセスは基本的に決定境界から遠く離れたすべての多数派クラスのインスタンスを削除します。これも、分類が容易なポイントです。また、S内のデータのみを使用して元のデータ・セット内のすべてのデータを正しく予測できることも保証されます。このようにして、決定境界を適切に維持しながら、データ・セットを大幅に縮小することができます。

多数派クラスサンプル、最少数派クラスサンプル、多数派クラスサンプルと最少数派クラス近傍の3つのグラフィックを含む図。

この画像は、1つの最近傍と21個の最近傍を使用して、凝縮最近傍を2つのデータ・セットに適用する例を示しています。上の2つの画像は凝縮最近傍の適用前のものであり、下の2つは適用後のものです。ご覧のとおり、決定境界は適切に維持されています。

Tomekリンク

Tomekリンクによるダウンサンプリングの前提は、決定境界付近のポイントを削除することでデータ内のノイズを減らし、クラス分離を増やすことです。その仕組みは、「Tomekリンク」を特定することです。これは、異なるクラスに属する2つのポイントのペアで、どちらのポイントに対しても最も近い3番目のポイントは存在しないことを指します²。

すべてのTomekリンクで、多数派のクラスに属するポイントが削除されます。少数派のクラスに属するポイントに近接する多数派のクラスに属するポイントを削除することで、クラスの分離が大きくなります。この方法の欠点の1つは、多数派のクラスと少数派のクラスに属するポイントの間のすべてのペアワイズ距離を計算する際の計算の複雑さです²。Tomekリンクによるダウンサンプリングは、他の手法と組み合わせることで最も効果を発揮します。

編集済みの最近傍法

編集済みの近傍法（ENN）によるダウンサンプリングは、Tomekリンクによるダウンサンプリングに似ており、その目的は、クラス分離を大きくするために決定境界に近いサンプルを削除することです。一般に、このメソッドでは近傍の大多数のデータ・ポイントからクラスが異なるデータ・ポイントを削除します²。これは、最近傍の大多数が少数派のクラスに属する多数派のクラスのデータ・ポイントを削除し、逆もまた同様に削除するプロセスを意味します。この手法では、何を多数派とするか自由に定義できます。少なくとも1つの近傍が異なるクラスに属しているか、または異なるクラスに属する近傍の割合が特定のしきい値を超えることを意味することがあります。

ENNによるダウンサンプリングは、以下に示すように、通常、3つの最近傍を用いて行われます。

これは、単一の隣接点ではなく、点の一般的な近傍領域を見るため、より粒度の粗い手法ですが、データ内のノイズを効率的に除去する方法です。ENNダウンサンプリングは、他の手法と組み合わせた場合に最も効果的です。

参考情報

AIの専門知識のレベルアップを図る

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。

AIの活用を本格化：生成AIでROI向上

AIの投資対効果を高めるために、主要な分野で生成AIの活用を拡大することで、どのように革新的な新規ソリューションの構築、提供を支援し、変化をもたらすかを紹介します。

適切な基盤モデルを選ぶ方法

ユースケースに最適なAI基盤モデルを選択する方法について説明します。

IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。

AIの新時代に信頼と自信を持って成功する方法

強力なAIストラテジーの3つの重要な要素である、競争優位性の創出、ビジネス全体へのAIの拡張、信頼できるAIの推進について詳しく説明します。

AI in Actionレポート

2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。

脚注

¹ Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 （ibm.com®外部へのリンク）

² Kumar Abhishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023

³ Ajinkya More, Survey of resampling techniques for improving classification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 （ibm.com®外部へのリンク）

⁴ Jianping Zhang and Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, 2003, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf （ibm.com®外部へのリンク）

⁵ More, Survey of resampling techniques for improving calssification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 （ibm.com®外部へのリンク）Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.

⁶ Md Adnan Arefeen, Sumaiya Tabassum Nimi, and M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 02 September 2020, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg （ibm.com®外部へのリンク）

⁷ Ajay Kumar, SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem, hrcak, 30 January 2024, https://hrcak.srce.hr/clanak/454006 （ibm.com外部へのリンク）

⁸ Wonjae Lee and Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 26 April 2022, https://www.sciencedirect.com/science/article/pii/S2214579622000089 （ibm.com外部へのリンク）

⁹ Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.