ブースティングとは

ブースティングとは

機械学習において、ブースティングは、一連の弱い学習器を1つの強い学習器に組み合わせて、トレーニング・エラーを最小限に抑えるアンサンブル学習の手法です。ブースティング アルゴリズムにより、画像、オブジェクト、主要な機能の識別、感情分析データ マイニングなどの予測能力を向上させることができます。

ブースティングでは、データのランダムなサンプルを選択し、モデルに合わせて準備し、連続的にトレーニングを行います。つまり、各モデルはその前のモデルの弱点を補おうとします。反復するたびに、個々の分類子の弱いルールが組み合わされて、1つの強力な予測ルールが形成されます。

アンサンブル学習の詳細

アンサンブル学習は、1人の専門家の判断よりも大人数による意思決定の方が一般に優れていることを示唆する「群衆の叡智」の考え方に基づいています。アンサンブル学習はこの考えに従い、ベースとなる複数の学習器(モデル)を組み合わせたグループ(アンサンブル)を協調させることで、最終的な予測の精度を高めます。ベース学習器や弱学習器と呼ばれる単一のモデルは、単体では高バリアンスまたは高バイアスとなってうまく機能しない場合があります。しかし、複数の弱学習器を組み合わせると、バイアスやバリアンスが抑えられ、より強力な学習器が得られることから、モデルの性能が向上します。

アンサンブル学習の手法は、説明のために決定木がよく用いられます。決定木が剪定されていない場合には、このアルゴリズムは過学習(高バリアンスかつ低バイアス)を起こしやすくなります。逆に、例えば1レベルの決定木である決定株のように、決定木が非常に小さい場合には、学習不足(低バリアンスかつ高バイアス)となる可能性があります。トレーニング・データ・セットに対する過学習または学習不足が生じたアルゴリズムは、新しいデータ・セットに対して適切に汎用化できません。この問題に対処し、新しいデータ・セットに対するモデルの汎用化を可能にするために、アンサンブル学習の手法を利用します。決定木は高バリアンスまたは高バイアスとなる場合があります。しかし、バイアスとバリアンスのトレードオフにおける「スイート・スポット」を見つけるためにアンサンブル学習を活用するモデリング手法は、決定木だけではないという点に留意する必要があります。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

バギングとブースティングの違い

バギングとブースティングは、アンサンブル学習の主要な2つの手法です。こちらの研究が示すように、この2つの学習手法の主な違いはトレーニング方法にあります。バギングでは、弱学習器のトレーニングを並列的に実行します。一方ブースティングでは、直列的に学習を実行します。つまり、一連のモデルを構築する中で、新しいモデルの学習を反復するごとに、前のモデルで誤分類されたデータに重みを加えます。この重みの再配分は、性能向上の焦点となるパラメーターをアルゴリズムが特定するうえで役立ちます。このタイプの最初のアルゴリズムの1つであるAdaBoostは、最もよく使用されるブースティング・アルゴリズムの1つとなっています。AdaBoostは「アダプティブ・ブースティング・アルゴリズム」の略です。その他のブースティング・アルゴリズムには、XGBoost、GradientBoost、BrownBoostなどがあります。

バギングとブースティングのもう1つの違いは、その使用方法です。例えば、バギングの手法は通常、高バリアンスで低バイアスの弱学習器に対して用います。一方ブースティング手法は、低バリアンスで高バイアスの場合に活用されます。実際にはデータ・セットによって異なりますが、バギングは過学習を回避するために使用でき、ブースティング手法では過学習が発生しやすくなりますただし、パラメーターを調整することで問題を回避できます。

その結果、バギングとブースティングの実際の用途も異なります。バギングはローン承認プロセスや統計ゲノミクスに活用されてきましたが、ブースティングは画像認識アプリや検索エンジンでより多く使用されています。

AI Academy

カスタマー・サービスでAIを活用する

生成AIが、セルフサービス、ヒューマン・エージェント、コンタクト・センターの運用という3つの主要領域で、よりシームレスなエクスペリエンスで顧客を満足させ、組織の生産性を向上させる方法をご覧ください。

ブースティングの種類

ブースティングの手法は、弱学習器を繰り返し組み合わせて、より正確な結果を予測できる強学習器を構築することに重点を置いています。弱学習器は、無作為な推測よりもわずかに適切にデータを分類します。このアプローチは、予測の問題に対して確実な結果をもたらすだけでなく、画像検索などのタスクでニューラル・ネットワークやサポート・ベクター・マシンよりも優れた性能を発揮します。

ブースティング・アルゴリズムは、逐次プロセス中に弱学習器を作成、集約する方法が異なる場合があります。一般的なブースティング手法には次の3つがあります。

  • アダプティブ・ブースティング(AdaBoost):Yoav Freund氏とRobert Schapire氏がAdaBoostアルゴリズムを開発したとされています。この方法は反復的に動作し、誤って分類されたデータポイントを特定し、その重みを調整してトレーニングエラーを最小限に抑えます。モデルは、最も強力な予測子が得られるまで、順次最適化を続けます。

  • 勾配ブースティング:Leo Breiman氏の研究に基づいて、Jerome H. Friedman氏が勾配ブースティングを開発しました。勾配ブースティングは、アンサンブルに予測変数を順次追加し、それぞれが前の予測変数の誤りを修正するというものです。ただし、AdaBoostのようにデータ・ポイントの重みを変更する代わりに、勾配ブースティングでは、以前の予測子の残差に基づいてトレーニングします。勾配降下法アルゴリズムとブースティング手法を組み合わせたことから、勾配ブースティングという名前が使われています。

  • エクストリーム勾配ブースティング(XGBoost):XGBoostは、計算の速度と規模のために設計された勾配ブースティングの処理です。XGBoostはCPU上の複数のコアを活用するため、トレーニング中に学習を並行して行うことができます。

ブースティングのメリットと課題

分類や回帰の問題にブースティングの手法を利用する場合、いくつかの重要なメリットと課題があります。

ブースティングの主要なメリットは次のとおりです。

  • 実装の容易さ:ブースティングは、適合性を向上させるために、いくつかのハイパーパラメーター・チューニング・オプションと併用できます。データの前処理は必要なく、ブースティング・アルゴリズムには、欠損データを処理するためのルーチンが組み込まれています。Pythonでは、アンサンブル・メソッドのscikit-learnライブラリ(sklearn.ensembleとも呼ばれます)を使用すると、AdaBoost、XGBoostなどの一般的なブースティング手法の実装が簡単になります。

  • バイアスの削減:ブースティング・アルゴリズムは、複数の弱学習器を逐次的な手法で組み合わせ、観測を繰り返し改善します。このアプローチは、浅い決定木やロジスティック回帰モデルで一般的に見られる高いバイアスを軽減するのに役立ちます。

  • 計算効率:ブースティング・アルゴリズムは、学習中に予測力を高める特徴のみを選択するため、計算効率を高めるだけでなく、次元を削減するのにも役立ちます。

ブースティングの主な課題は次のとおりです。

  • 過学習:ブースティングが過剰適合を減らすのに役立つかどうかについては、研究で議論があります。過学習が発生した場合、予測を新しいデータ・セットに一般化できないため、これを課題に含めています。

  • 集中的な計算:ブースティングの逐次トレーニングはスケールアップが困難です。各推定器は以前のモデルに基づいて構築されているため、ブースティング・モデルは計算コストが高くなる可能性があります。多数のパラメーターもモデルの動作に影響する可能性があるため、ブースティング・アルゴリズムはバギングに比べてトレーニングに時間がかかる場合があります。

ブースティングの用途

ブースティング・アルゴリズムは、次のような幅広い業界の人工知能プロジェクトに適しています。

  • 医療:ブースティングは、心血管リスク因子やがん患者の生存率の予測など、医療データ予測の誤りを減らすために使用されます。例えば、研究では、アンサンブル法により、心血管疾患の予防的治療の恩恵を受ける可能性のある患者を特定する精度が大幅に向上すると同時に、他の患者への不必要な治療を回避できることが示されています。同様に、別の研究では、複数のゲノミクスプラットフォームにブースト適用することで、がんの生存時間予測を改善できることが判明しました。

 

  • IT:勾配ブースティング回帰木は検索エンジンのページ・ランク付けに使われ、Viola-Jonesブースティング・アルゴリズムは画像検索に使用されています。コーネル大学が指摘しているように、ブースト分類器を使用すると、予測がどの方向に向かうかが明確になったときに、計算を早期に停止できます。つまり、検索エンジンは下位のページの評価を停止できますが、画像スキャナーは実際に目的のオブジェクトを含む画像のみを考慮します。
  • 財務:ブースティングはディープラーニング・モデルと共に使用され、不正検知や価格分析などの重要なタスクを自動化します。例えば、クレジットカード不正アクセス検知や金融商品の料金体系分析におけるブースティング手法は、膨大なデータ・セットの分析精度を向上させ、経済的損失を最小限に抑えることができます。
関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約