Produkt IBM® SPSS® Modeler oferuje szereg metod modelowania zaczerpanych z uczenia maszynowego, sztucznej inteligencji i statystyk. Metody
dostępne na palecie Modelowanie pozwalają na ekstrahowanie
nowych informacji z danych i tworzenie modeli predykcyjnych. Każda
metoda ma określone mocne strony i jest dostosowana do rozwiązywania
określonych problemów.
Program Podręcznik aplikacji produktu IBM SPSS Modeler udostępnia przykłady dla wielu z tych metod wraz z ogólnym wprowadzeniem do procesu modelowania. Ten podręcznik jest dostępny jako samouczek online oraz jako plik w formacie PDF. Więcej informacji.
Metody modelowania dzielą się na niniejsze kategorie:
- Nadzorowane
- Związek
- Segmentacja
Modele nadzorowane
Modele nadzorowane korzystają z wartości jednej lub większej liczby zmiennych wejściowych do przewidywania wartości jednej lub większej liczby zmiennych wyjściowych lub przewidywanych. Niektóre z przykładów takich technik to: drzewa decyzyjne (drzewo C&R, QUEST, CHAID i algorytmy C5.0), regresja (liniowa, logistyczna, uogólniona liniowa oraz algorytmy regresji Coksa), sieci neuronowe, algorytmy SVM oraz sieci Bayesowskie.
Modele nadzorowane pomagają organizacjom przewidywać znany wynik, np. fakt albo rezygnacji z zakupu bądź też dopasowania transakcji do znanego wzorca oszustwa. Techniki modelowania obejmują także uczenie maszynowe, wywodzenie reguł, identyfikację podgrup, metody statystyczne i generowanie wielu modeli.
Węzły nadzorowane
|
|
Węzeł Auto Klasyfikacja tworzy i porównuje różne modele pod kątem wyników binarnych (tak lub nie, odejścia lub brak odejścia itd.), umożliwiając użytkownikowi wybór optymalnego podejścia do danej analizy. Obsługiwana jest pewna liczba algorytmów modelowania, co umożliwia wybór metod, które mają zostać użyte, konkretnych opcji dla każdej z nich oraz kryteriów porównywania wyników. Węzeł generuje zestaw modeli w oparciu o określone opcje i nadaje rangi najlepszym kandydatom wybranym według wskazanych kryteriów. |
|
|
Węzeł Auto Predykcja estymuje i porównuje modele zwracające wyniki w formie ciągłego przedziału liczbowego, korzystając z szeregu różnych metod. Węzeł działa tak samo, jak węzeł Auto Klasyfikacja, umożliwiając użytkownikowi wybór używanych algorytmów oraz eksperymentowanie z wieloma kombinacjami opcji w pojedynczym przebiegu modelowania. Obsługiwane algorytmy obejmują sieci neuronowe, drzewo C&R, CHAID, regresję liniową, uogólnioną regresję liniową oraz algorytmy SVM. Modele można porównywać na podstawie korelacji, błędu względnego lub liczby używanych zmiennych. |
|
|
Węzeł Klasyfikacja i regresja (C&R) generuje drzewo decyzyjne umożliwiające predykcję lub klasyfikację przyszłych obserwacji. W metodzie tej stosowany jest rekursywny podział rekordów na segmenty przez minimalizację zanieczyszczeń w każdym kroku, przy czym węzeł w drzewie jest uważany za „czysty”, jeśli 100% obserwacji w węźle przypada na konkretną kategorię zmiennej przewidywanej. Zmienne przewidywana i wejściowa mogą być zakresami liczbowymi lub jakościowymi (nominalnymi, porządkowymi lub flagami); wszystkie podziały są binarne (tylko dwie podgrupy). |
|
|
Węzeł QUEST oferuje metodę klasyfikacji binarnej służącą do budowania drzew decyzyjnych, zaprojektowaną w celu redukcji czasu przetwarzania analiz dużych drzew decyzyjnych C&R, a jednocześnie w celu redukcji tendencji obecnej w metodach drzew klasyfikacji do preferowania danych wejściowych dopuszczających więcej podziałów. Zmienne wejściowe mogą być zakresami liczbowymi (ciągłymi), lecz zmienna przewidywana musi być jakościowa. Wszystkie podziały są binarne. |
|
|
Węzeł CHAID generuje drzewa decyzyjne, korzystając ze statystyk chi-kwadrat w celu identyfikacji optymalnych podziałów. W odróżnieniu od węzłów drzewa C&R i węzłów QUEST,
CHAID może generować drzewa niebinarne, co oznacza, że niektóre podziały mają więcej niż dwie gałęzie. Zmienne przewidywana i wejściowa mogą być zakresami liczbowymi (ciągłymi) lub jakościowymi. Wyczerpujący CHAID stanowi modyfikację CHAID umożliwiającą dokładniejsze badanie wszystkich możliwych podziałów, lecz obliczenia w jego przypadku zajmują więcej czasu. |
|
|
Węzeł C5.0 tworzy drzewo decyzyjne lub zestaw reguł. Model działa w oparciu o podział próby na podstawie zmiennej oferującej maksimum korzyści z informacji na każdym z poziomów. Zmienna przewidywana musi być jakościowa. Dozwolonych jest wiele podziałów na więcej niż dwie podgrupy. |
|
|
Węzeł Lista decyzyjna identyfikuje podgrupy lub segmenty wskazujące wyższe lub niższe prawdopodobieństwo danego wyniku binarnego względem całej populacji. Można na przykład wyszukać klientów, których prawdopodobieństwo odejścia jest niewielkie, lub którzy z dużym prawdopodobieństwem pozytywnie zareagują na kampanię. Istnieje możliwość zastosowania posiadanej wiedzy biznesowej w modelu przez dodanie własnych, niestandardowych segmentów i przejrzenie modeli alternatywnych jeden obok drugiego w celu porównania wyników. Modele Lista decyzyjna składają się z list reguł, w których każda reguła ma warunek i wynik. Reguły są stosowane w kolejności wprowadzania, a pierwsza reguła spełniona określa wynik. |
|
|
Modele regresji liniowej przewidują docelową wartość ilościową na podstawie liniowych relacji między docelową wartością ilościową a jednym lub większą liczbą predyktorów. |
|
|
Węzeł Redukcja wymiarów udostępnia wydajne techniki redukcji danych pozwalające obniżyć stopień złożoności danych. Analiza głównych składowych (ang. Principal Components Analysis, PCA) znajduje kombinacje liniowe zmiennych wejściowych, które umożliwiają przechwytywanie wariancji w całym zestawie zmiennych, pod warunkiem że składowe są zlokalizowane ortogonalnie (prostopadle) do siebie. Analiza czynnikowa próbuje zidentyfikować współczynniki objaśniające wzory korelacji występujące w ramach zbiorów obserwowanych zmiennych. W przypadku obu podejść celem jest znalezienie niewielkiej liczby zmiennych wyliczanych w efektywny sposób podsumowującej informacje w oryginalnym zestawie zmiennych. |
|
|
Węzeł Dobór predyktorów przegląda zmienne wejściowe do usunięcia w oparciu o zbiór kryteriów (takich jak procent braków danych); następnie nadaje rangę istotności pozostałych danych wejściowych względem określonej zmiennej przewidywanej. Na przykład, jeśli mamy zbiór danych z setkami potencjalnych danych wejściowych, to które z nich z dużym prawdopodobieństwem okażą się użyteczne w modelowaniu wyników leczenia pacjenta? |
|
|
Analiza dyskryminacyjna opiera się na ściślejszych założeniach niż regresja logistyczna, lecz może stanowić wartościową alternatywę lub uzupełnienie analizy metodą regresji logistycznej w przypadku spełnienia tych założeń. |
|
|
Regresja logistyczna to technika statystyczna umożliwiająca klasyfikację rekordów na podstawie wartości zmiennych wejściowych. Jest ona analogiczna do regresji liniowej, lecz bazuje na przewidywanej zmiennej jakościowej zamiast na rozstępie liczbowym. |
|
|
Procedura ogólnych modeli liniowych rozszerza ogólny model liniowy w taki sposób, że zmienna zależna jest liniowo powiązana z czynnikami i współzmiennymi za pośrednictwem określonej funkcji łączenia. Model pozwala ponadto, aby zmienna zależna nie miała rozkładu normalnego. Obejmuje ona funkcjonalność dużej liczby modeli statystycznych, m.in. regresji liniowej, regresji logistycznej, modeli logarytmiczno-liniowych dla danych o liczebności. |
|
|
Uogólniony liniowy model mieszany (GLMM) stanowi rozszerzenie modelu liniowego, w taki sposób, że przewidywany model może nie mieć standardowego rozłożenia w sposób umożliwiający liniowe powiązanie z czynnikami i współzmiennymi za pośrednictwem określonej funkcji łączenia, a także skorelowanie obserwacji. Uogólnione liniowe modele mieszane obejmują szeroki wachlarz modeli, począwszy od prostych modeli regresji liniowej, aż po złożone wielopoziomowe modele dla danych z obserwacji długofalowych nieposiadających rozkładu normalnego. |
|
|
Węzeł regresji Coksa umożliwia utworzenie modelu przeżycia dla danych określających czasy do wystąpienia zdarzeń i zawierających ocenzurowane rekordy. Model tworzy funkcję przeżycia, która prognozuje prawdopodobieństwo wystąpienia zdarzenia w danym momencie (T) dla podanych wartości zmiennych wejściowych. |
|
|
Węzeł Algorytm SVM umożliwia szybką klasyfikację danych do jednej lub dwu grup bez przeuczenia. Algorytm SVM działa prawidłowo dla szerokiego zbioru danych, na przykład takiego o bardzo dużej liczbie zmiennych wejściowych. |
|
|
Węzeł Sieć Bayesowska umożliwia utworzenie modelu prawdopodobieństwa przez połączenie zaobserwowanych i zarejestrowanych dowodów z wiedzą rzeczywistą w celu ustanowienia prawdopodobieństwa występowania. Węzeł koncentruje się na sieciach Tree Augmented Naïve Bayes (TAN) i Markov Blanket, używanych głównie podczas klasyfikacji. |
|
|
Węzeł Model odpowiedzi samonauczania (SLRM) umożliwia utworzenie modelu, w którym pojedyncza nowa obserwacja lub niewielka liczba nowych obserwacji może zostać użyta do ponownej oceny modelu bez konieczności ponownego uczenia modelu z wykorzystaniem wszystkich danych. |
|
|
Węzeł Szereg czasowy umożliwia estymację modelu wygładzania wykładniczego, modelu autoregresyjnej zintegrowanej średniej ruchomej (ARIMA) jednej zmiennej oraz modelu ARIMA wielu zmiennych (lub funkcji przenoszenia) dla danych szeregów czasowych i generuje prognozy przyszłych wyników. Ten węzeł szeregów czasowych jest podobny do poprzedniego węzła szeregów czasowych, który stał się nieaktualny w produkcie SPSS Modeler w wersji 18. Jednak ten nowszy węzeł szeregów czasowych ma za zadanie wykorzystać moc produktu IBM SPSS Analytic Server do przetwarzania dużych ilości danych i wyświetlić model wynikowy w przeglądarce wyników, która została dodana w programie SPSS Modeler w wersji 17. |
|
|
Węzeł k-najbliższego sąsiedztwa (KNN) wiąże nową obserwację z kategorią lub wartością k (gdzie k jest liczbą całkowitą) najbliższych obiektów w przestrzeni predyktora. Podobne obserwacje znajdują się blisko siebie, a niepodobne — daleko. |
|
|
Węzeł predykcji przestrzenno-czasowej używa danych zawierających informacje o lokalizacji, zmiennych wejściowych predykcji (predyktorów), zmiennej czasu i zmiennej przewidywanej. W danych z każdą lokalizacją powiązany jest szereg wierszy, które odzwierciedlają wartości predyktorów w różnych punktach w czasie. Po przeanalizowaniu danych mogą być one używane do przewidywania wartości w dowolnej lokalizacji w danych kształtu używanych w analizie. |
Modele asocjacyjne
Modele asocjacyjne znajdują wzorce w danych, w których jeden lub więcej obiektów (takich jak zdarzenia, zakupy czy atrybuty) jest powiązanych z jednym lub większą liczbą z pozostałych obiektów. Modele te tworzą zestawy reguł definiujące relacje. W tym miejscu zmienne w ramach danych pełnią rolę zarówno danych wejściowych, jak i docelowych. Związki te można znaleźć również ręcznie, lecz algorytmy reguł asocjacyjnych pozwalają wykonać te operacje znacznie szybciej i umożliwiają eksplorację bardziej złożonych wzorców. Modele Apriori i Carma stanowią przykłady użycia takich algorytmów. Jednym z kolejnych typów modeli asocjacyjnych jest model wykrywania kolejności, który znajduje wzorce sekwencyjne w danych ustrukturyzowanych względem czasu.
Modele asocjacji są najbardziej przydatne przy przewidywaniu wielu wyników – na przykład klienci, którzy zakupili produkt X, kupili również produkty Y i Z. Modele asocjacji kojarzą konkretne wnioski (takie jak decyzja o zakupie czegoś) z zestawem warunków. Przewagą algorytmów reguł asocjacyjnych wobec bardziej standardowych algorytmów drzew decyzyjnych (C5.0 i C&RT) jest fakt, że dozwolone są w nich związki między dowolnymi atrybutami. Algorytm drzewa decyzyjnego pozwala utworzyć reguły z tylko jednym wnioskiem, podczas gdy algorytmy powiązań próbują znaleźć wiele reguł, z których każda może mieć inny wniosek.
Węzły powiązań
|
|
Węzeł Apriori pozwala wyodrębnić zestaw reguł na podstawie danych, pobierając reguły o najwyższej możliwej zawartości informacji. Apriori oferuje pięć różnych metod wybierania reguł i korzysta ze złożonego schematu indeksowania do efektywnego przetwarzania dużych zbiorów danych. W przypadku dużych problemów czas uczenia Apriori jest zwykle krótszy. Brak jest arbitralnego limitu co do liczby reguł do utrzymania, możliwa jest obsługa reguł z maksymalnie 32 predykcjami. Apriori wymaga, aby wszystkie zmienne wejściowe i wyjściowe były zmiennymi jakościowymi, lecz oferuje wyższą wydajność z uwagi na optymalizację pod kątem tego typu danych. |
|
|
Model CARMA pozwala wyodrębnić zestaw reguł na podstawie danych bez konieczności określania zmiennych wejściowych lub przewidywanych. W przeciwieństwie do Apriori, węzeł CARMA oferuje ustawienia budowania dla obsługi reguł (obsługa zarówno poprzedników, jak i następników), a nie tylko poprzedników. Oznacza to, że wygenerowane reguły mogą być używane w szerszym spektrum zastosowań — na przykład w celu znalezienia listy produktów lub usług (poprzedników), z których wynikać będzie decyzja o promowaniu konkretnego produktu (następnika) w tegorocznym sezonie świątecznym. |
|
|
Węzeł Sekwencje wykrywa reguły asocjacyjne w danych sekwencyjnych lub zorientowanych czasowo. Sekwencja to lista zbiorów elementów z tendencją do występowania w przewidywalnej kolejności. Na przykład klient dokonujący zakupu brzytwy i balsamu po goleniu przy następnej wizycie w sklepie może dokonać zakupu kremu po goleniu. Węzeł Sekwencje bazuje na algorytmie reguł asocjacyjnych CARMA, który korzysta z efektywnej metody dwu przejść do znajdowania sekwencji. |
|
|
Węzeł Reguły asocjacyjne jest podobny do węzła Apriori; jednak inaczej niż w przypadku Apriori, węzeł Reguły asocjacyjne umożliwia przetwarzanie danych w postaci listy. Ponadto węzeł Reguły asocjacji może być używany razem z produktem IBM SPSS Analytic Server do przetwarzania dużych danych i do korzystania z szybszego przetwarzania równoległego. |
Modele segmentacji
Modele segmentacji dzielą dane na segmenty lub grupy rekordów o podobnych wzorcach zmiennych wejściowych. Ponieważ modele segmentacji przetwarzają jedynie zmienne wejściowe, nie mają one żadnych informacji na temat zmiennych wyjściowych ani przewidywanych. Przykłady modeli segmentacji to sieci Kohonen, grupowanie K-średnich, grupowanie dwustopniowe i wykrywanie anomalii.
Modele segmentacji (zwane również „modelami grupowania”) są szczególnie przydatne w przypadkach, gdzie konkretny wynik jest nieznany (na przykład, przy identyfikacji nowych wzorców oszustw lub identyfikacji będących potencjalnie przedmiotem zainteresowania grup w bazie danych klientów). Modele grupowania koncentrują się na identyfikacji grup o podobnych rekordach i oznaczania rekordów etykietami zgodnie z grupą, do której należą. Jest to realizowane mimo braku wstępnej wiedzy o grupach i ich charakterystykach, i pozwala odróżnić modele grupowania od innych technik modelowania, w których brak wstępnie zdefiniowanego wyniku czy zmiennej docelowej dla modelu objętego predykcją. W przypadku tych modeli nie ma poprawnych czy niepoprawnych odpowiedzi. Ich wartość określana jest przez zdolność do przechwytywania interesujących skupień w danych i oferowania użytecznych opisów tych skupień. Modele grupowania są często używane do tworzenia grup lub segmentów, które są następnie często używane jako dane wejściowe w kolejnych analizach (na przykład dzięki segmentacji potencjalnych klientów w jednorodne podgrupy).
Węzły segmentacji
|
|
Węzeł Autogrupowanie szacuje i porównuje modele skupień identyfikujące grupy rekordów o podobnej charakterystyce. Węzeł działa tak samo, jak pozostałe zautomatyzowane węzły modelowania, umożliwiając eksperymentowanie z wieloma kombinacjami opcji w pojedynczym przebiegu modelowania. Modele można porównywać, korzystając z miar bazowych, które pozwalają podejmować próby filtrowania i oceny przydatności modelu skupień oraz udostępniają miary bazujące na istotności poszczególnych zmiennych. |
|
|
Węzeł K-średnie grupuje zbiór danych w osobne grupy (lub skupienia). Metoda ta definiuje stałą liczbę skupień, w sposób iteracyjny przypisuje rekordy do skupień i dopasowuje centra skupień do chwili, gdy dalsze pokrycie nie będzie miało wpływu na ulepszenie modelu. Zamiast prób predykcji danych wynikowych k-średnia korzysta z procesu znanego jako nienadzorowane uczenie w celu ujawnienia wzorców w zbiorze zmiennych wejściowych. |
|
|
Węzeł Kohonen generuje typ sieci neuronowej, którą można wykorzystać do grupowania zbioru danych w osobne grupy. Po pełnym przeszkoleniu sieci rekordy podobne do siebie powinny znajdować się blisko siebie na mapie wyników, podczas gdy rekordy różne od siebie powinny znajdować się daleko od siebie. Na podstawie liczby obserwacji przechwyconych przez każdą jednostkę w modelu użytkowym można rozpoznać silne jednostki. Może to dać pojęcie o odpowiedniej liczbie skupień. |
|
|
Węzeł Dwustopniowa korzysta z dwustopniowej metody grupowania. Pierwszy krok stanowi pojedynczy przebieg danych z myślą o kompresji surowych danych wejściowych w łatwy w zarządzaniu zestaw podgrup. Drugi krok korzysta z hierarchicznej metody grupowania w celu progresywnego scalania podgrup w coraz większe grupy. Metoda Dwustopniowa oferuje korzyści wynikające z automatycznego szacowania optymalnej liczby grup na potrzeby danych szkoleniowych. Pozwala ona skutecznie obsługiwać mieszane typy zmiennych i duże zbiory danych. |
|
|
Węzeł Wykrywanie anomalii umożliwia identyfikację nietypowych obserwacji lub wartości odstających, które są niezgodne z wzorcami dla „normalnych” danych. Korzystając z tego węzła, można zidentyfikować wartości odstające nawet, jeśli nie pasują one do żadnego z wcześniej znanych wzorców oraz jeśli brak pewności co do charakteru poszukiwanych danych. |
Modele eksploracji w bazie danych
Produkt IBM SPSS Modeler obsługuje integrację z narzędziami do eksploracji danych i modelowania, które są dostępne od dostawców baz danych, w tym produktu Oracle Data Miner i Microsoft Analysis Services. Modele można budować, oceniać i zapisywać w bazie danych-wszystkie z nich są dostępne w aplikacji IBM SPSS Modeler . Szczegółowe informacje na ten temat zawiera publikacja IBM SPSS Modeler In-Database Mining Guide.
Modele IBM SPSS Statistics
Jeśli na komputerze jest zainstalowana kopia produktu IBM SPSS Statistics i jest ona licencjonowana, można uzyskać dostęp do pewnych procedur IBM SPSS Statistics z poziomu produktu IBM SPSS Modeler i uruchomić je w celu budowania i oceny modeli.