Węzły Python

SPSS Modeler oferuje węzły umożliwiające korzystanie z algorytmów zapisanych bezpośrednio w języku Python. Karta Python na palecie węzłów zawiera następujące węzły umożliwiające uruchamianie algorytmów w języku Python. Węzły te są obsługiwane na platformach Windows 64, Linux64 i Mac.

Węzeł SMOTE (Synthetic Minority Over-sampling Technique — generowanie próbek syntetycznych z klasy mniejszościowej) realizuje algorytm nadpróbkowania przydatny w pracy z niezrównoważonymi zbiorami danych. Udostępnia on zaawansowaną metodę równoważenia danych. Węzeł procesowy SMOTE w programie SPSS Modeler jest zaimplementowany w języku Python i wymaga biblioteki Python imbalanced-learn©.

XGBoost Linear© to zaawansowana implementacja algorytmu wzmacniania gradientowego, który jako model bazowy wykorzystuje model liniowy. Algorytmy wzmacniania iteracyjnie ucząc się, wyznaczają słabe klasyfikatory i dodają je do ostatecznego silnego klasyfikatora. Węzeł Liniowy XGBoost w programie SPSS Modeler jest zaimplementowany w języku Python.

XGBoost Tree© to zaawansowana implementacja algorytmu wzmacniania gradientowego, który jako model bazowy wykorzystuje model drzewa. Algorytmy wzmacniania iteracyjnie ucząc się, wyznaczają słabe klasyfikatory i dodają je do ostatecznego silnego klasyfikatora. XGBoost Tree jest algorytmem bardzo elastycznym i oferuje liczne parametry, które mogą być trudne do praktycznego wykorzystania przez użytkowników. Dlatego węzeł Drzewo XGBoost w programie SPSS Modeler eksponuje tylko funkcje podstawowe i najczęściej używane parametry. Węzeł jest zaimplementowany w języku Python.

Stochastyczna metoda porządkowania sąsiadów w oparciu o rozkład t (t-SNE — t-Distributed Stochastic Neighbor Embedding) to narzędzie do wizualizacji danych wysokowymiarowych. Przekształca ono powinowactwa punktów danych w prawdopodobieństwa. Węzeł t-SNE w programie SPSS Modeler został zaimplementowany w języku Python i wymaga biblioteki Python scikit-learn©.

Model mieszanin rozkładów Gaussa — Gaussian Mixture© — to model probabilistyczny, w którym zakłada się, że punkty danych generowane są na podstawie mieszaniny skończonej liczby rozkładów Gaussa o nieznanych parametrach. Modele mieszanin można opisać jako uogólnienie grupowania metodą k-średnich z uwzględnieniem informacji o strukturze kowariancji danych oraz środkach ukrytych rozkładów Gaussa. Węzeł Mieszanina rozkładów Gaussa w produkcie SPSS Modeler eksponuje podstawowe funkcje i często używane parametry biblioteki Gaussian Mixture. Węzeł jest zaimplementowany w języku Python.

Jądrowy estymator gęstości — Kernel Density Estimation (KDE)© — używa algorytmów Ball Tree lub KD Tree do efektywnej obsługi zapytań i integruje techniki uczenia nienadzorowanego, generowania cech (feature enginnering) i modelowania danych. Do najpopularniejszych i najbardziej użytecznych technik estymacji gęstości należą metody oparte na analizie sąsiedztwa, takie jak KDE. Węzły Modelowanie KDE i Symulacja KDE w produkcie SPSS Modeler eksponują podstawowe funkcje i często używane parametry biblioteki KDE. Węzły są zaimplementowane w języku Python.

Węzeł Las losowy korzysta z zaawansowanej implementacji algorytmu agregacji (bagging), która jako model bazowy wykorzystuje model drzewa. Węzeł modelowania Las losowy w programie SPSS Modeler został zaimplementowany w języku Python i wymaga biblioteki Python scikit-learn©.

Węzeł SVM z jedną klasą korzysta z algorytmu uczenia nienadzorowanego. Węzeł ten można wykorzystać do wykrywania nowości. Wykryje on miękką granicę danego zbioru próbek, a następnie sklasyfikuje nowe punkty jako należące do tego zbioru albo do niego nienależące. Węzeł modelowania SVM z jedną klasą w programie SPSS Modeler został zaimplementowany w języku Python i wymaga biblioteki Python scikit-learn©.