Gini-index

A Gini-index olyan mérőszám, amelyet osztályozási fák előállításához használnak. Több információval szolgál az adatok csomópontonkénti eloszlásáról, mint a fa pontosságának jelentéséhez használt osztályozási pontosság.

Az osztályozási facsomópont tisztátlansága az adott csomópontnak megfelelő összes rekord egyes célkategória számainak felhasználásával kerül kiszámításra. A Gini tisztátlansági index összege a csomópontonkénti összes célkategóriában a darabszámarányok négyzeteinek összege, levonva az 1-ből, és az eredmény megszorozva a rekordok számával.

Facsomópont felosztásakor például az algoritmus a legnagyobb teljes tisztátlansági nyereséget biztosító mezőt keresi, amelyet úgy számít ki, hogy az összes potenciális leszármazott csomópont teljes tisztátlanságát levonja a szülő csomópont teljes tisztátlanságából.