Ustawianie opcji optymalizacji strumieni

Ustawienia Optymalizacja umożliwiają optymalizację wydajności strumienia. Należy zwrócić uwagę na fakt, że ustawienia wydajności i optymalizacji na serwerze IBM® SPSS Modeler Server (jeśli jest on używany) zastępują odpowiadające im ustawienia w komputerze klienckim. Jeśli te ustawienia są wyłączone na serwerze, wówczas nie ma możliwości włączenia ich z komputera klienckiego. Z kolei, jeśli są one włączone na serwerze, istnieje możliwość wyłączenia ich na komputerze klienckim.

Uwaga: Modelowanie bazy danych i optymalizacja SQL wymagają włączenia na komputerze z programem IBM SPSS Modeler możliwości połączenia z serwerem IBM SPSS Modeler Server. Po włączeniu tej opcji można uzyskać dostęp do algorytmów baz danych, wstawić SQL do kolejki bezpośrednio z programu IBM SPSS Modeler i uzyskać dostęp do programu IBM SPSS Modeler Server. W celu sprawdzenia bieżącego statusu licencji należy wybrać z menu programu IBM SPSS Modeler następujące opcje.

Pomoc > Informacje o programie > Dodatkowe szczegóły

Po włączeniu możliwości połączenia na karcie Status licencji widoczna jest opcja Aktywacja serwera.

Więcej informacji zawiera temat Łączenie się z serwerem.

Uwaga: Obsługa funkcji analiz wstępnych SQL oraz optymalizacji zależy od rodzaju używanej bazy danych. W celu uzyskania najnowszych informacji na temat obsługiwanych i przetestowanych pod kątem współpracy z produktem IBM SPSS Modeler baz danych i sterowników ODBC należy odwiedzić korporacyjny serwis wsparcia pod adresem http://www.ibm.com/support.

Zezwalaj na przepisywanie strumienia w celu optymalizacji. Tę opcję należy wybrać, aby zezwolić na przepisywanie strumienia w produkcie IBM SPSS Modeler. Dostępne są cztery rodzaje przepisywania, z których można wybrać co najmniej jeden. Przepisywanie strumienia zmienia kolejność węzłów w strumieniu w tle, podnosząc efektywność przetwarzania bez modyfikowania semantyki strumienia.

Optymalizuj operacje generujące kod SQL. Ta opcja umożliwia zmianę kolejności węzłów w strumieniu tak, aby możliwe było przygotowanie kodu SQL do wykonania w bazie danych większej liczby operacji. W przypadku znalezienia węzła, którego nie można wyrazić w formie kodu SQL, optymalizator będzie antycypować obecność kolejnych węzłów dających się wyrazić w języku SQL i bezpiecznie przenieść przed węzeł z problemem bez wpływu na semantykę strumienia. Baza danych wykonuje operacje bardziej efektywnie niż program IBM SPSS Modeler wykonywanie operacji, a ponadto wstępne przekształcenie węzła do postaci kodu SQL ogranicza objętość danych zwracanych do programu IBM SPSS Modeler celem przetwarzania. To zaś może spowodować zmniejszenie ruchu w sieci i przyspieszenie operacji na strumieniach. Należy zwrócić uwagę na fakt, że pole wyboru Generuj kod SQL musi być zaznaczone, aby optymalizacja SQL dała jakikolwiek efekt.
Optymalizuj wyrażenie CLEM. Ta opcja umożliwia wyszukiwanie wyrażeń CLEM przez optymalizator, tak aby mogły być one przetworzone wstępnie przed uruchomieniem strumienia w celu zwiększenia prędkości przetwarzania. A oto prosty przykład: w przypadku wyrażenia takiego jak log(wynagrodzenie) optymalizator oblicza rzeczywistą wartość wynagrodzenia i przekazuje ją to dalszego przetwarzania. Umożliwia to zarówno poprawę analiz wstępnych SQL jak i optymalizację wydajności programu IBM SPSS Modeler Server.
Optymalizuj wykonywanie komend. Ta metoda przepisywania strumienia zwiększa efektywność operacji obejmujących więcej niż jeden węzeł zawierający komendy IBM SPSS Statistics. Optymalizacja odbywa się przez połączenie komend w pojedynczą operację zamiast uruchomienia każdej z nich jako osobnej operacji.
Optymalizuj inne wykonywane operacje. Ta metoda przepisywania strumienia zwiększa efektywność operacji, których nie można przekazać do bazy danych. Optymalizację osiąga się, redukując ilość danych w strumieniu tak szybko, jak to tylko możliwe. Strumień jest przepisywany (z zachowaniem integralności danych), co pozwala na zbliżenie operacji do źródła danych, a to z kolei umożliwia ograniczenie ilości danych podlegających kosztownym operacjom, takim jak łączenia, w dalszych węzłach.

Włącz przetwarzanie równoległe. W przypadku korzystania z komputera wieloprocesorowego opcja ta pozwala na zrównoważenie obciążenia tych procesorów, co może skutkować jego szybszym działaniem. Przetwarzanie równoległe może okazać się korzystne w przypadku używania wielu węzłów lub używania następujących pojedynczych węzłów: C5.0, Łączenie (wg klucza), Sortowanie, Kategoria (metody rangi i N-tyla) oraz Agregacja (z użyciem jednej lub większej liczby zmiennych kluczowych).

Generuj kod SQL. Wybierz tę opcję, aby włączyć przekształcanie węzłów w kod SQL, który następnie będzie przekazywany do bazy danych celem wykonania z większą wydajnością. W celu dalszego zwiększenia wydajności można także wybrać opcję Optymalizuj generowanie kodu SQL w celu zmaksymalizowania liczby operacji kierowanych z powrotem do bazy danych. Gdy operacje na węźle zostały skierowane do bazy danych, węzeł ten zostanie podświetlony na purpurowo po uruchomieniu strumienia.

Buforowanie w bazie danych. W przypadku strumieni generujących kod SQL do wykonania w bazie danych dane mogą być buforowane na bieżąco w tabeli tymczasowej w bazie danych zamiast w systemie plików. W przypadku połączenia z optymalizacją SQL może to skutkować znaczącymi korzyściami, jeśli chodzi o wydajność. Na przykład dane wynikowe ze strumienia scalającego wiele tabel z myślą o stworzeniu widoku eksploracji bazy danych mogą zostać zbuforowane i wykorzystane ponownie w razie potrzeby. Jeśli włączono buforowanie w bazie danych, należy po prostu kliknąć prawym przyciskiem myszy dowolny węzeł niebędący węzłem końcowym w celu zbuforowania danych w tym punkcie. Spowoduje to automatyczne utworzenie pamięci podręcznej bezpośrednio w bazie danych przy następnym uruchomieniu strumienia. Umożliwia to wygenerowanie kodu SQL dla wszystkich kolejnych węzłów, co dodatkowo zwiększa wydajność. Alternatywnie tę opcję można w razie potrzeby wyłączyć — na przykład w sytuacji, gdy polityki lub uprawnienia wykluczają zapisywanie danych w bazie danych. Jeśli nie włączono buforowania bazy danych lub optymalizacji SQL, wówczas pamięć podręczna zostanie zapisana w systemie plików. Więcej informacji można znaleźć w temacie Opcje buforowania węzłów.
Użyj swobodnego przekształcenia formatów. Ta opcja umożliwia przekształcenie danych z łańcuchów na liczby lub z liczb na łańcuchy, o ile są one zapisywane w odpowiednim formacie. Na przykład, jeśli dane są przechowywane w bazie danych jako łańcuchy, lecz w rzeczywistości zawierają znaczącą liczbę, wówczas można przekształcić je w celu ich wykorzystania podczas wstawiania do kolejki.

Uwaga: Z powodu niewielkich różnic dotyczących wdrażania kodu SQL strumienie uruchamiane w bazie danych mogą zwracać nieznacznie inne wyniki niż te zwracane podczas uruchamiania w programie IBM SPSS Modeler. Z podobnych przyczyn różnice te mogą się również występować w zależności od dostawcy bazy danych.

Zapisz jako domyślne. Określone opcje dotyczą tylko bieżącego strumienia. Kliknij ten przycisk, aby określić wybrane opcje jako ustawienia domyślne wszystkich strumieni.