Węzeł C5.0

Ta funkcja jest dostępna w programach SPSS Modeler Professional i SPSS Modeler Premium.

Ten węzeł używa algorytmu C5.0 do utworzenia drzewa decyzyjnego albo zestawu reguł. Działanie modelu C5.0 polega na podziale próby na podstawie zmiennej oferującej największy zysk informacyjny. Każda podpróba zdefiniowana w wyniku pierwszego podziału jest ponownie dzielona, zwykle na podstawie innej zmiennej, a proces powtarzany jest do momentu, aż podprób nie da się już dalej podzielić. Po podziale podpróby na najniższym poziomie są ponownie analizowane, a te z nich, które nie przyczyniają się istotnie do budowania wartości modelu, są usuwane lub przycinane.

Uwaga: Węzeł C5.0 może przewidywać tylko zmienną jakościową. Podczas analizowania danych ze zmiennymi jakościowymi (nominalnymi lub porządkowymi) węzeł z większym prawdopodobieństwem będzie grupował kategorie niż węzeł C5.0 w wersjach wcześniejszych niż 11.0.

Węzeł C5.0 może generować dwa rodzaje modeli. Drzewo decyzyjne jest prostym opisem podziałów znalezionych przez algorytm. Każdy węzeł końcowy („liść”) opisuje konkretny podzbiór danych uczących, a każda obserwacja w danych uczących należy do dokładnie jednego węzła końcowego w drzewie. Innymi słowy dla każdego konkretnego rekordu danych odzwierciedlonego w drzewie decyzyjnym możliwa jest dokładnie jedna predykcja.

Z kolei zestaw reguł jest zbiorem reguł próbujących dokonać predykcji dla poszczególnych rekordów. Zestawy reguł są wywodzone z drzew decyzyjnych i mogą być traktowane jako uproszczone lub wydestylowane wersje informacji obecnych w drzewie decyzyjnym. Zestawy reguł często zachowują większość istotnych informacji z całego drzewa decyzyjnego, ale w postaci mniej złożonego modelu. Ze względu na sposób działania zestawów reguł nie mają one tych samych właściwości, co drzewa decyzyjne. Najważniejszą różnicą dotyczącą zestawu reguł jest to, że do dowolnego rekordu może mieć zastosowanie więcej niż jedna reguła lub może nie mieć zastosowania żadna reguła. Jeśli zastosowanie ma wiele reguł, każda z nich otrzymuje ważony „głos” w oparciu o ufność powiązaną z tą regułą; ostateczna decyzja dotycząca predykcji jest podejmowana poprzez połączenie ważonych głosów ze wszystkich reguł mających zastosowanie do danego rekordu. Jeśli żadna reguła nie ma zastosowania, do rekordu przypisywana jest domyślna predykcja.

Przykład. Załóżmy, że lekarz prowadzący badania naukowe zebrał dane o zbiorze pacjentów cierpiących na tę samą chorobę. W trakcie leczenia każdy pacjent zareagował na jeden z pięciu leków. Można zastosować model C5.0 w połączeniu z innymi węzłami, aby dowiedzieć się, który lek byłby odpowiedni dla przyszłego pacjenta cierpiącego na tę samą chorobę.

Wymagania. Do uczenia modelu C5.0 potrzebna jest jedna jakościowa (tj. nominalna lub porządkowa) zmienna Przewidywana i co najmniej jedna zmienna Wejściowa dowolnego typu. Zmienne o roli Łącznie lub Żadna są ignorowane. Typy zmiennych używanych w modelu muszą być w pełni zrealizowane jako instancje. Można również określić zmienną ważącą.

Mocne strony. Modele C5.0 wykazują się dużą odpornością na takie problemy, jak braki danych i duża liczba predyktorów. Zwykle nie wymagają długiego uczenia, by generować prawidłowe oszacowania. Ponadto modele C5.0 bywają bardziej zrozumiałe niż modele innego typu, ponieważ reguły wywiedzione z modelu dają się bardzo łatwo i bezpośrednio zinterpretować. Modele C5.0 oferują także metodę wzmacniania, która zwiększa dokładność klasyfikacji.

Uwaga: Szybkość budowania modelu C5.0 może zostać zwiększona poprzez aktywowanie przetwarzania równoległego.