Przygotowywanie danych

W przypadku stosowania podczas modelowania algorytmów Naive Bayes, Adaptive Bayes i SVM, które są dostępne wśród algorytmów Oracle Data Mining, użyteczne są dwa rodzaje przygotowań danych:

  • Kategoryzacja, czyli przekształcenie zmiennych będących ciągłymi przedziałami liczbowymi na kategorie dla algorytmów, które nie mogą akceptować danych ciągłych.
  • Normalizacja, czyli transformacje stosowane względem zakresów liczbowych, dzięki którym zakresy mają podobne średnie i odchylenia standardowe.

Kategoryzacja

Węzeł kategoryzacji w produkcie IBM® SPSS Modeler oferuje szereg technik przeznaczonych do wykonywania operacji kategoryzacji. Zdefiniowana jest operacja kategoryzacji, którą można zastosować względem co najmniej jednej zmiennej. Wykonanie operacji kategoryzacji względem zestawu danych powoduje utworzenie progów i umożliwia utworzenie węzła wyliczeń w produkcie IBM SPSS Modeler. Operację wyliczeń można przekształcić na kod SQL i zastosować przed budowaniem i oceną modelu. Takie podejście powoduje powstanie zależności między modelem a węzłem wyliczeń, który realizuje kategoryzację, ale pozwala na ponowne użycie specyfikacji kategoryzacji w wielu zadaniach modelowania.

Normalizacja

Zmienne ciągłe (zakres liczbowy), które są używane jako dane wejściowe dla modeli SVM, powinny być znormalizowane przed budowaniem modelu. W przypadku modeli regresji normalizacja musi również zostać odwrócona w celu rekonstrukcji oceny z danych wyjściowych modelu. Ustawienia modelu SVM umożliwiają wybór opcji Statystyki z, Min.-Maks. lub Brak. Współczynniki normalizacji są konstruowane przez Oracle jako etap procesu budowania modelu, a następnie współczynniki są wprowadzane do produktu IBM SPSS Modeler i zapisywane w modelu. Po zastosowaniu współczynniki są przekształcane na wyrażenia wyliczeń w produkcie IBM SPSS Modeler i używane w celu przygotowania danych do oceny przed przekazaniem danych do modelu. W tym przypadku normalizacja jest ściśle powiązana z zadaniem modelowania.