Konfiguration von Datasets

Erfahren Sie, wie Sie die zu analysierenden Datensätze konfigurieren.

Beispiele für Datasets

Standard-Data-Mining-Datensätze werden im Netezza Performance Server Analytics-Dokumentensatz verwendet, um Beispiele dafür zu liefern, wie verschiedene Funktionen und gespeicherte Prozeduren im Normalbetrieb funktionieren. Die Datensätze geben auch Aufschluss darüber, wie die verschiedenen Komponenten des Produkts in realen Szenarien eingesetzt werden könnten.

Die folgenden Beispieldatensätze, die in der Dokumentation verwendet werden, sind nicht in Netezza Performance Server Analytics enthalten und müssen aus dem Internet heruntergeladen und von einem Administrator auf Netezza Performance Server installiert werden, bevor sie verwendet werden können. Die Daten können nicht direkt aus den heruntergeladenen Datensatzdateien verwendet werden. Daher wurde ein Skript bereitgestellt, das die Tabellen erstellt, die für die Daten benötigt werden, die heruntergeladenen Daten bearbeitet und die Daten zur Verwendung im System lädt. Um die Dokumentationsbeispiele verwenden zu können, müssen die folgenden Datensätze erworben werden, obwohl dies nicht erforderlich ist:
Datensatzname URL und Dateien für den Download
Einzelhandel

URL: fimi.ua.ac.be/data/

Datei: ' retail.dat.gz (klicken Sie auf den .gz-Link)

CensusIncome

URL: archive.ics.uci.edu/ml/databases/census-income/

Datei: ' census.tar.gz

WineQuality

URL: archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/

Datei: ' winequality-white.csv

Erwachsener

URL: archive.ics.uci.edu/ml/machine-learning-databases/adult

Datei: ' adult.data

Soybean

URL: archive.ics.uci.edu/ml/machine-learning-databases/soybean

Dateien: soybean-large.data und ' soybean-large.test

Iris

URL: archive.ics.uci.edu/ml/machine-learning-databases/iris/

Datei: ' iris.data

Beispieldatasets installieren

  1. Laden Sie jede Datasetdatei auf eine lokale Maschine herunter. Wenn eine Datei gepackt ist (z. B. eine Datei mit der Erweiterung .gz), müssen Sie sie nicht entpacken.
  2. Melden Sie sich beim Host als Benutzer " nz an.
  3. Erstellen Sie ein Verzeichnis, in dem die heruntergeladenen Dateien gespeichert werden sollen, z. B.:
    /nz/export/ae/utilities/bin/testData
  4. Übertragen Sie die Datasetdateien in das neu erstellte Verzeichnis. Ändern Sie die Dateinamen nicht.
  5. Navigieren Sie zum folgenden Verzeichnis:
    /nz/export/ae/utilities/bin
  6. Führen Sie das Installationsscript aus, indem Sie einen der folgenden Befehle eingeben:
    • Wenn sich die Beispieldatasetdateien im Verzeichnis /nz/export/ae/utilities/bin/testData befinden:
      ./loadTestTables.sh
    • Wenn sich die Beispieldatasetdateien in einem anderen Verzeichnis befinden:
      ./loadTestTables.sh path_to_directory
      Aufgrund der großen Datenmengen, die die Dateien enthalten, nimmt die Ausführung des Scripts möglicherweise mehrere Minuten in Anspruch. Dies ist normal.
    • Wenn das Script beendet wurde, werden die vom Script erstellten temporären Dateien automatisch gelöscht. Die heruntergeladenen Datendateien und die Protokolldateien werden jedoch nicht gelöscht, sondern verbleiben auf dem Host. Wenn Sie sie nicht beibehalten wollen, löschen Sie sie manuell.

Wenn das Script erneut ausgeführt wird, werden alle Beispieldaten aus der Datenbank gelöscht und die entsprechenden Tabellen werden gelöscht. Anschließend werden die Tabellen erneut erstellt und die ursprünglichen Beispieldaten werden erneut eingefügt.

Netezza Performance Server Cartridge Manager (nzcm)

Die Cartridge-Verwaltung für Netezza Performance Server Analytics erfolgt über das Dienstprogramm Netezza Performance Server Cartridge Manager (nzcm). Verwenden Sie nzcm zum Installieren, Deinstallieren, Registrieren, Deregistrieren und Verwalten von Cartridges.

NPS Cartridge Manager (nzcm) installieren

Netezza Performance Server Analytics wird als eine Sammlung von Cartridges in Form von .nzc-Dateien verteilt. Sie müssen diese Dateien aus dem vollständigen Netezza Performance Server Analytics-Paket extrahieren. Sie können die Cartridges und den Netezza Performance Server Cartridge Manager (nzcm) über das Netezza Performance Server Analytics Installationsprogramm extrahieren und darauf zugreifen.

Führen Sie auf dem Appliance-Host die folgenden Schritte aus:
  1. Melden Sie sich beim Host als Benutzer " nz an.
  2. Wechseln Sie in das Verzeichnis, das die folgende Datei enthält:
    nz-analytics-vversion.zip
  3. Führen Sie den folgenden Befehl aus:
    unzip nz-analytics-vversion.zip
    Zum Extrahieren der Datei muss das Dienstprogramm " unzip verwendet werden; " gunzip kann nicht verwendet werden. Mit diesem Befehl wird ein Verzeichnis mit dem Namen nzcmrepo unter dem Verzeichnis erstellt, in dem die Dateien extrahiert wurden.
  4. Wechseln Sie in das Unterverzeichnis nzcmrepo, normalerweise /nz/var/inza/nzcmrepo/var/inza/nzcmrepo.
  5. Suchen Sie die Datei " nzcm, um die Versionsnummer zu ermitteln. Die Datei wird in der Form " nzcm-<version> benannt.
  6. Dekomprimieren Sie die Datei.
    tar -xf nzcm-<version>
  7. Wechseln Sie nach dem Dekomprimieren in das Verzeichnis " nzcm:
    cd /nz/var/inza/nzcmrepo/nzcm-<<version>
  8. Installieren Sie ' nzcm:
    ./install.sh

    Das Skript installiert " nzcm in das Verzeichnis " /nz/var/nzcm und das Repository wird automatisch konfiguriert.

  9. Führen Sie das Skript " install.sh " aus, wie es die Ausgabe vorgibt:
    source ~/.bashrc
  10. Geben Sie den folgenden Befehl aus, um in das Zielverzeichnis zu wechseln:
    cd /nz/var/inza/nzcmrepo
  11. Stellen Sie sicher, dass das Zielverzeichnis leer ist.
  12. Dekomprimieren Sie die Cartridges und Gruppendateien:
    cp -f *.nzc /nz/var/nzcm/nzcmrepo/
    cp -f *.grp /nz/var/nzcm/nzcmrepo/
    Dadurch wird " nzcm installiert.