ジニ不純度測定法

ジニ不純度は、分類ツリーの生成に使用される数値データです。 これは、ツリーの精度を報告するために使用される分類精度というよりもむしろ、ノードごとのデータ分布に関する詳細情報を提供します。

分類ツリー・ノードの不純度は、特定のノードに対応するすべてのレコードにわたる各ターゲット・カテゴリーのカウントを使用して計算されます。 ジニ不純度の合計は、1 から減算された、ノードごとのすべてのターゲット・カテゴリーのカウント比率の平方和として計算されます。結果はレコード数で乗算されます。

例えば、ツリー・ノードを分割する場合、アルゴリズムは、親ノードの不純度の合計から減算したすべての子ノード候補の合計の不純度として計算した、不純度の合計が最も改善したフィールドを検索します。