Węzeł Analiza — karta Analiza
Karta Analiza umożliwia określenie szczegółów dotyczących analizy.
Macierz zgodności (dla przewidywanych zmiennych symbolicznych lub jakościowych). Przedstawia wzorzec dopasowań pomiędzy każdą wygenerowaną (przewidywaną) zmienną oraz jej zmienną przewidywaną dla przewidywanych zmiennych jakościowych (zmienna typu flaga, nominalna lub porządkowa). W wyświetlanej tabeli wiersze są zdefiniowane przez wartości rzeczywiste, a kolumny przez wartości przewidywane, a liczba rekordów odpowiada liczbie rekordów, w których ten wzorzec znajduje się w każdej komórce. Jest to funkcja przydatna do identyfikowania błędów semantycznych w predykcji. Jeśli istnieje więcej niż jedna wygenerowana zmienna powiązana z tą samą zmienną wynikową, która jednak została utworzona na podstawie innych modeli, zliczane są obserwacje, w których te zmienne są zgodne i niezgodne, a następnie wyświetlane są wartości łączne. W przypadku obserwacji, dla których istnieje zgodność, wyświetlana jest kolejna statystyka typu poprawne/niepoprawne.
Ocena wydajności. Wyświetla statystyki oceny wydajności dla modeli zawierających wyniki jakościowe. Statystyka, utworzona dla każdej kategorii zmiennych wyjściowych, jest miarą średniej możliwej zawartości informacji (w bitach) w modelu dla przewidywania rekordów należących do tej kategorii. Pod uwagę brany jest problem z trudnością sklasyfikowania, dlatego dokładne predykcje dla rzadkich kategorii uzyskają wyższy indeks oceny wydajności niż dokładne predykcje dla często występujących kategorii. Jeśli model jedynie „zgaduje” kategorię, wówczas indeks oceny wydajności dla tej kategorii będzie wynosił 0.
Metryka oceny (AUC i Gini, tylko klasyfikatory binarne). W przypadku klasyfikatorów binarnych ta opcja tworzy raporty dla metryk oceny współczynnika AUC (obszar nad krzywą) i Gini. Obie te metryki oceny są obliczane razem dla każdego modelu binarnego. Wartości metryk są przedstawiane w tabeli w przeglądarce wyników analizy.
Metryka oceny AUC jest obliczana jako obszar pod krzywą ROC (ocena poprawności klasyfikatora) i jest skalarną reprezentacją oczekiwanej wydajności klasyfikatora. Współczynnik AUC zawsze ma wartość z przedziału od 0 do 1, przy czym wyższe wartości reprezentują lepszy klasyfikator. Diagonalna krzywa ROC pomiędzy współrzędnymi (0,0) i (1,1) reprezentuje losowy klasyfikator, a współczynnik AUC wynosi 0,5. Dlatego nie będzie określony realistyczny klasyfikator, a wartość AUC będzie mniejsza niż 0,5.
Metryka oceny współczynnika Gini jest niekiedy używana jako alternatywa dla metryki oceny współczynnika AUC, a obie te miary są ściśle powiązane. Współczynnik Gini jest obliczany jako podwojona powierzchnia pomiędzy krzywą ROC i diagonalną lub jako Gini = 2AUC - 1. Współczynnik Gini zawsze ma wartość z przedziału od 0 do 1, przy czym wyższe wartości reprezentują lepszy klasyfikator. Współczynnik Gini jest ujemny w mało prawdopodobnym przypadku, kiedy krzywa ROC znajduje się poniżej diagonalnej.
Wartości ufności (jeżeli dostępne). W przypadku modeli generujących zmienną ufności ta opcja tworzy raporty dla statystyk wartości ufności i ich relacji z predykcjami. Dla tej opcji dostępne są dwa ustawienia:
- Wartość graniczna dla. Informuje o poziomie ufności, powyżej którego dokładność będzie określoną wartością procentową.
- Poprawa dokładności. Informuje o poziomie ufności, powyżej którego dokładność jest zwiększana przez określony czynnik. Przykładowo, jeśli ogólna dokładność wynosi 90%, a ta opcja zostanie ustawiona na wartość 2,0, zgłoszona wartość będzie ufnością wymaganą dla 95-procentowej dokładności.
Znajdź zmienne predykcyjne i przewidywane, wykorzystując. Określa, w jaki sposób zmienne predykcyjne są dopasowywane do oryginalnej zmiennej przewidywanej.
- Metadane zmiennej wyjściowej modelu. Dopasowuje zmienne predykcyjne do zmiennej przewidywanej na podstawie informacji o zmiennej modelu, zezwalając na dopasowanie, nawet jeśli nazwa zmiennej predykcyjnej została zmieniona. Informacje na temat zmiennej modelu można również uzyskać dla dowolnej zmiennej predykcyjnej za pośrednictwem okna dialogowego Wartości w węźle Typy. Więcej informacji można znaleźć w temacie Użycie okna dialogowego Wartości.
- Format nazwy zmiennej. Dopasowuje zmienne na podstawie konwencji tworzenia nazw. Przykładowo, wartości predykcyjne wygenerowane przez model użytkowy C5.0 dla zmiennej przewidywanej o nazwie response (odpowiedź) muszą znajdować się w zmiennej o nazwie $C-response ($C-odpowiedź).
Rozdziel na podzbiory. Jeśli do podzielenia rekordów na próbę uczenia, testowania i walidacji używana jest zmienna dzieląca na podzbiory, należy wybrać tę opcję, aby wyświetlić wyniki osobno dla każdego podzbioru. Więcej informacji można znaleźć w temacie Węzeł Partycja.
Uwaga: Podczas rozdzielania przez podział na podzbiory rekordy zawierające wartości w zmiennej dzielącej na podzbiory zostaną wykluczone z analizy. Nie będzie to problemem w przypadku użycia węzła Partycja, ponieważ węzły podziału na podzbiory nie generują wartości null.
Analiza definiowana przez użytkownika. Można określić własne obliczenia dla analizy, jakie będą używane podczas przeprowadzania oceny modeli. Wyrażenia CLEM umożliwiają określenie, co powinno zostać obliczone dla każdego rekordu oraz w jaki sposób połączyć oceny z poziomu rekordu, aby uzyskać ocenę ogólną. Korzystając z funkcji @TARGET i @PREDICTED można odpowiednio utworzyć odniesienie do wartości przewidywanej (rzeczywisty wynik) i wartości predykcyjnej.
- Jeżeli. Należy określić wyrażenie warunkowe, jeżeli konieczne jest użycie różnych obliczeń w zależności od niektórych warunków.
- To. Należy określić obliczenie, jakie zostanie wykonane, o ile warunek Jeżeli jest prawdziwy.
- Inaczej. Należy określić obliczenie, jakie zostanie wykonane, o ile warunek Jeżeli jest fałszywy.
- Wykorzystanie. Należy wybrać statystyki do obliczenia ogólnej oceny w oparciu o oceny indywidualne.
Podziel analizę według wartości zmiennych. Wyświetla zmienne jakościowe, jakich można użyć do podziału analizy. Oprócz ogólnej analizy zgłoszone zostaną osobne analizy dla każdej kategorii każdej zmiennej podziału.