ランダム・フォレストは、Leo Breiman氏とAdele Cutler氏によって商標登録された、一般的に使用されている機械学習アルゴリズムであり、複数の決定木の出力を組み合わせて1つの結果に到達します。 分類と回帰の両方の問題を処理するランダム・フォレストは、その使いやすさと柔軟性により広く採用されています。
ランダム・フォレスト・モデルは複数の決定木で構成されるため、まずは決定木のアルゴリズムについて簡単に説明します。 決定木は、「サーフィンをすべきか」などの基本的な質問から始まります。 そこから、「長い周期のうねりなのか」や「風はオフショアなのか」など、 答えを判断するための一連の質問をします。 これらの質問は、決定木内の決定ノードを構成し、データを分割する手段として機能します。 それぞれの質問は、個人が最終決定に到達するのを支援します。最終決定は、リーフ・ノードによって示されます。 基準に合致する観測値は「はい」の分岐をたどり、合致しない観測値は別の分岐をたどります。 決定木は、データをサブセット化するための最適な分割を見つけることを目的としており、通常はCART(Classification and Regression Tree)アルゴリズムを使用してトレーニングされます。 分割の品質は、ジニ不純度、情報利得、平均二乗誤差(MSE)などの指標を使用して評価できます。
この決定木は、分類問題の例を示しています。クラス・ラベルは、「サーフィンをする」と「サーフィンをしない」です。
決定木は、一般的な教師あり学習アルゴリズムですが、バイアスや過剰適合(オーバーフィッティング)などの問題が起きる傾向があります。 しかし、ランダム・フォレスト・アルゴリズムで複数の決定木がアンサンブルを形成すると、特に個々の決定木が互いに無相関である場合、それらの決定木はより精度の高い結果を予測できます。
アンサンブル学習法とは、決定木などの複数の分類器を組み合わせ、それらの予測値を集計して最も一般的な結果を特定するものです。 最もよく知られているアンサンブル手法は、ブートストラップ集約とも呼ばれるバギングと、ブースティングです。 バギング手法は、1996年に Leo Breiman氏 (ibm.com外部へのリンク)(PDF、810 KB)によって発表されました。この手法では、トレーニング・セット内のランダムなデータ・サンプルが置換されながら選択されます。つまり、個々のデータ・ポイントは、複数回選択される可能性があります。 いくつかのデータ・サンプルが生成された後、これらのモデルは独立してトレーニングされ、タスクの種類(回帰または分類)に応じて、それらの予測値の平均か多数決によってより精度の高い推定値が得られます。 このアプローチは、ノイズの多いデータ・セット内のバリアンスを減らすために一般的に使用されています。
ランダム・フォレスト・アルゴリズムは、バギング手法を拡張したものであり、バギングと特徴のランダム性の両方を利用して、相関性のない決定木の森(フォレスト)を作ります。 特徴のバギングまたは「ランダム・サブスペース手法」(ibm.com外部へのリンク)(PDF、121 KB)とも呼ばれる特徴のランダム性は、特徴をランダムに抽出したサブセットを生成することで、決定木間の相関性を低くします。 この点が決定木とランダム・フォレストの大きな違いです。 決定木は考えられるすべての特徴の分割を考慮しますが、ランダム・フォレストはそれらの特徴のサブセットのみを選択します。
「サーフィンをすべきか」の例に戻ると、 予測を判断するために、ある個人がする質問は、他の個人がする質問ほど包括的ではないかもしれません。 データの変動の可能性をすべて考慮することにより、過剰適合、バイアス、全体的なバリアンスのリスクを減らし、より精度の高い予測を行うことができます。
SPSS Modeler
ランダム・フォレスト・アルゴリズムには3つの主要なハイパーパラメーターがあり、これらはトレーニングの前に設定する必要があります。 これらには、ノード・サイズ、決定木の数、サンプリングされる特徴の数が含まれます。 そこから、ランダム・フォレスト分類器を使用して、回帰または分類の問題を解決できます。
ランダム・フォレスト・アルゴリズムは、決定木の集合で構成されます。このアンサンブル内のそれぞれの決定木は、ブートストラップ・サンプルと呼ばれる、置換される、トレーニング・セットからのデータ・サンプルで構成されます。 そのトレーニング・サンプルのうち3分の1は、アウトオブバッグ(oob)サンプルと呼ばれるテスト・データとして確保されます(oobサンプルについては、後で説明します)。 その後、特徴のバギングによって別のランダム性のインスタンスが注入されることで、データ・セットに多様性が追加され、決定木間の相関性が低くなります。 予測値の決定方法は、問題の種類に応じて異なります。 回帰タスクの場合は個々の決定木の平均、分類タスクの場合は多数決(最も頻度の高いカテゴリー変数)によって、予測クラスが決定されます。 最後に、oobサンプルが相互検証に使用され、その予測値が確定されます。
分類や回帰の問題にランダム・フォレスト・アルゴリズムを使用する場合は、いくつかの重要なメリットと課題があります。 課題には以下のようなものがあります。
ランダム・フォレスト・アルゴリズムは、多くの業界で採用されており、より優れたビジネス上の意思決定を可能にしています。 いくつかのユースケースを紹介します。