ランダム・フォレストとは

ランダム・フォレストは、Leo Breiman氏とAdele Cutler氏によって商標登録された、一般的に使用されている機械学習アルゴリズムであり、複数の決定木の出力を組み合わせて1つの結果に到達します。分類と回帰の両方の問題を処理するランダム・フォレストは、その使いやすさと柔軟性により広く採用されています。

決定木

ランダム・フォレスト・モデルは複数の決定木で構成されるため、まずは決定木のアルゴリズムについて簡単に説明します。決定木は、「サーフィンをすべきか」などの基本的な質問から始まります。そこから、「長い周期のうねりなのか」や「風はオフショアなのか」など、答えを判断するための一連の質問をします。これらの質問は、決定木内の決定ノードを構成し、データを分割する手段として機能します。それぞれの質問は、個人が最終決定に到達するのを支援します。最終決定は、リーフ・ノードによって示されます。基準に合致する観測値は「はい」の分岐をたどり、合致しない観測値は別の分岐をたどります。決定木は、データをサブセット化するための最適な分割を見つけることを目的としており、通常はCART（Classification and Regression Tree）アルゴリズムを使用してトレーニングされます。分割の品質は、ジニ不純度、情報利得、平均二乗誤差（MSE）などの指標を使用して評価できます。

この決定木は、分類問題の例を示しています。クラス・ラベルは、「サーフィンをする」と「サーフィンをしない」です。

決定木は、一般的な教師あり学習アルゴリズムですが、バイアスや過剰適合（オーバーフィッティング）などの問題が起きる傾向があります。しかし、ランダム・フォレスト・アルゴリズムで複数の決定木がアンサンブルを形成すると、特に個々の決定木が互いに無相関である場合、それらの決定木はより精度の高い結果を予測できます。

アンサンブル手法

アンサンブル学習法とは、決定木などの複数の分類器を組み合わせ、それらの予測値を集計して最も一般的な結果を特定するものです。最もよく知られているアンサンブル手法は、ブートストラップ集約とも呼ばれるバギングと、ブースティングです。バギング手法は、1996年に Leo Breiman氏（ibm.com外部へのリンク）（PDF、810 KB）によって発表されました。この手法では、トレーニング・セット内のランダムなデータ・サンプルが置換されながら選択されます。つまり、個々のデータ・ポイントは、複数回選択される可能性があります。いくつかのデータ・サンプルが生成された後、これらのモデルは独立してトレーニングされ、タスクの種類（回帰または分類）に応じて、それらの予測値の平均か多数決によってより精度の高い推定値が得られます。このアプローチは、ノイズの多いデータ・セット内のバリアンスを減らすために一般的に使用されています。

ランダム・フォレスト・アルゴリズム

ランダム・フォレスト・アルゴリズムは、バギング手法を拡張したものであり、バギングと特徴のランダム性の両方を利用して、相関性のない決定木の森（フォレスト）を作ります。特徴のバギングまたは「ランダム・サブスペース手法」（ibm.com外部へのリンク）（PDF、121 KB）とも呼ばれる特徴のランダム性は、特徴をランダムに抽出したサブセットを生成することで、決定木間の相関性を低くします。この点が決定木とランダム・フォレストの大きな違いです。決定木は考えられるすべての特徴の分割を考慮しますが、ランダム・フォレストはそれらの特徴のサブセットのみを選択します。

「サーフィンをすべきか」の例に戻ると、予測を判断するために、ある個人がする質問は、他の個人がする質問ほど包括的ではないかもしれません。データの変動の可能性をすべて考慮することにより、過剰適合、バイアス、全体的なバリアンスのリスクを減らし、より精度の高い予測を行うことができます。

注目の製品

SPSS Modeler

仕組み

ランダム・フォレスト・アルゴリズムには3つの主要なハイパーパラメーターがあり、これらはトレーニングの前に設定する必要があります。これらには、ノード・サイズ、決定木の数、サンプリングされる特徴の数が含まれます。そこから、ランダム・フォレスト分類器を使用して、回帰または分類の問題を解決できます。

ランダム・フォレスト・アルゴリズムは、決定木の集合で構成されます。このアンサンブル内のそれぞれの決定木は、ブートストラップ・サンプルと呼ばれる、置換される、トレーニング・セットからのデータ・サンプルで構成されます。そのトレーニング・サンプルのうち3分の1は、アウトオブバッグ（oob）サンプルと呼ばれるテスト・データとして確保されます（oobサンプルについては、後で説明します）。その後、特徴のバギングによって別のランダム性のインスタンスが注入されることで、データ・セットに多様性が追加され、決定木間の相関性が低くなります。予測値の決定方法は、問題の種類に応じて異なります。回帰タスクの場合は個々の決定木の平均、分類タスクの場合は多数決（最も頻度の高いカテゴリー変数）によって、予測クラスが決定されます。最後に、oobサンプルが相互検証に使用され、その予測値が確定されます。

ランダム・フォレストのメリットと課題

分類や回帰の問題にランダム・フォレスト・アルゴリズムを使用する場合は、いくつかの重要なメリットと課題があります。課題には以下のようなものがあります。

主なメリット

過剰適合のリスクの低減：決定木は、トレーニング・データ内のすべてのサンプルを厳密に適合させる傾向があるため、過剰適合のリスクがあります。ただし、ランダム・フォレスト内の決定木の数が多い場合、相関性のない決定木を平均化すると全体的なバリアンスと予測誤差が低下するため、この分類器がモデルを過剰適合させることはありません。
柔軟性の提供：ランダム・フォレストは、回帰タスクと分類タスクの両方を高い精度で処理できるため、データサイエンティストの間で人気のある手法です。また、データの一部が欠落していても精度を維持する特徴バギングを使用するランダム・フォレスト分類器は、欠落値を推定するための効果的なツールです。
特徴の重要度の簡単な判断：ランダム・フォレストを使用すると、モデルに対する変数の重要度または寄与を簡単に評価できます。特徴の重要度を評価する方法はいくつかあります。ジニ重要度と不純度の平均減少（MDI; Mean Decrease Impurity）は通常、特定の変数が除外されたときにモデルの精度がどれだけ低下するかを測定するために使用されます。精度の平均低下（MDA; Mean Decrease Accuracy）とも呼ばれる順列の重要度は、もう1つの重要度の尺度です。 MDAは、oobサンプルの特徴値をランダムに並べ替えることにより、精度の平均的な低下を特定します。

主な課題

処理に時間がかかる：ランダム・フォレスト・アルゴリズムは、大規模なデータ・セットを処理できるため、精度の高い予測を提供できます。しかし、決定木ごとにデータを計算するため、データの処理に時間がかかる場合があります。
多くのリソースが必要：ランダム・フォレストは、大規模なデータ・セットを処理するため、そのデータを保存するために多くのリソースを必要とします。
より複雑：1つの決定木による予測の方が、複数の決定木（フォレスト）による予測よりも解釈が容易です。

ランダム・フォレストの応用

ランダム・フォレスト・アルゴリズムは、多くの業界で採用されており、より優れたビジネス上の意思決定を可能にしています。いくつかのユースケースを紹介します。

金融：データの管理や前処理にかかる時間を短縮できるため、他のアルゴリズムよりも好まれています。信用リスクの高い顧客の評価、不正の検知、オプション価格付けの問題に使用できます。
医療：ランダム・フォレスト・アルゴリズムは、計算生物学（ibm.com外部へのリンク）（PDF、737 KB）に応用されており、医師が遺伝子発現の分類、バイオマーカーの発見、配列アノテーションなどの問題に対処することを可能にしています。これにより、医師は特定の薬に対する薬物反応を推定することができます。
e-コマース：クロスセル目的のレコメンデーション・エンジンに使用できます。