データ・セット構成

分析するデータセットの設定方法を学ぶ。

サンプル・データ・セット

Netezza Performance ServerAnalyticsドキュメントセットでは、標準的なデータマイニングデータセットを使用して、さまざまな関数とストアドプロシージャが通常操作でどのように動作するかの例を示します。 データセットはまた、製品のさまざまなコンポーネントが実際のシナリオでどのように使用されるかについての洞察としても使用される。

このドキュメントで使用している以下のサンプル データセットはNetezza Performance ServerAnalyticsに含まれていないため、使用するには管理者がインターネットからダウンロードしてNetezza Performance Serverにインストールする必要があります。 ダウンロードしたデータセットファイルから直接データを使用することはできないため、データを格納するために必要なテーブルを作成し、ダウンロードしたデータを操作し、システムで使用するためにデータをロードするスクリプトが提供されている。 必要ではないが、ドキュメントの例を使用するには、以下のデータセットを取得する必要がある:
データ・セット名 ダウンロードする URL およびファイル
小売

URL: fimi.ua.ac.be/data/

ファイル: 'retail.dat.gz(.gzリンクをクリックしてください。)

CensusIncome

URL: archive.ics.uci.edu/ml/databases/census-income/

ファイル: census.tar.gz

WineQuality

URL: archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/

ファイル: winequality-white.csv

大人

URL: archive.ics.uci.edu/ml/machine-learning-databases/adult

ファイル: adult.data

大豆

URL: archive.ics.uci.edu/ml/machine-learning-databases/soybean

ファイル soybean-large.dataと 'soybean-large.test

Iris

URL: archive.ics.uci.edu/ml/machine-learning-databases/iris/

ファイル: iris.data

サンプル・データ・セットのインストール

  1. 各データ・セット・ファイルをローカル・マシンにダウンロードします。 ファイルが圧縮されている場合 (例えば、拡張子が .gz のファイルは圧縮されています) は、解凍しないでください。
  2. ユーザー「nz」としてホストにログインする。
  3. ダウンロードしたデータ・セットを保管するディレクトリーを作成します。以下に例を示します。
    /nz/export/ae/utilities/bin/testData
  4. データ・セット・ファイルを新しく作成したディレクトリーに転送します。 ファイル名は変更しないでください。
  5. 次のディレクトリーにナビゲートします。
    /nz/export/ae/utilities/bin
  6. 以下のいずれかのコマンドを入力して、インストール・スクリプトを実行します。
    • サンプル・データ・セット・ファイルがディレクトリー /nz/export/ae/utilities/bin/testData にある場合は、次のようになります。
      ./loadTestTables.sh
    • サンプル・データ・セットが別のディレクトリーにある場合は、次のようになります。
      ./loadTestTables.sh path_to_directory
      ファイルに含まれる大量のデータが原因で、スクリプトの実行に数分かかる場合があります。 それは正常です。
    • スクリプトが終了すると、スクリプトによって作成された一時ファイルは自動的に削除されます。 しかし、ダウンロードされたデータファイルとログファイルは削除されず、ホスト上に残る。 これらのファイルを残さない場合は、手動で削除します。

スクリプトを再実行すると、すべてのサンプル・データがデータベースから削除され、対応する表がドロップされます。 その後、表が再作成され、元のサンプル・データが再挿入されます。

Netezza Performance Server(nzcm)

Netezza Performance ServerAnalyticsのカートリッジ管理には、Netezza Performance ServerCartridge Manager (nzcm) ユーティリティを使用します。 nzcmを使用して、カートリッジのインストール、アンインストール、登録、登録解除、その他の管理を行う。

nzcm のインストール

Netezza Performance ServerAnalyticsは、.nzcファイル形式のカートリッジのコレクションとして配布されます。 これらのファイルはNetezza Performance ServerAnalyticsパッケージ全体から抽出する必要があります。 Netezza Performance ServerAnalyticsインストール・ユーティリティを使用して、カートリッジとNetezza Performance ServerCartridge Manager (nzcm) を抽出してアクセスできます。

アプライアンス・ホストで、以下の手順を実行します。
  1. ユーザー「nz」としてホストにログインする。
  2. 以下のファイルがあるディレクトリに移動する:
    nz-analytics-vversion.zip
  3. 以下のコマンドを実行します。
    unzip nz-analytics-vversion.zip
    The unzip utility must be used to extract the file; gunzip cannot be used. このコマンドにより、ファイルが抽出されたディレクトリーの下に、nzcmrepo という名前のディレクトリーが作成されます。
  4. nzcmrepoサブディレクトリ(通常は/nz/var/inza/nzcmrepo)に移動する/var/inza/nzcmrepo.
  5. nzcmファイルを探してリリース番号を確認する。 ファイル名は「nzcm-<version>である。
  6. ファイルを解凍する。
    tar -xf nzcm-<version>
  7. 解凍したら、「nzcmディレクトリに行く:
    cd /nz/var/inza/nzcmrepo/nzcm-<<version>
  8. インストール 'nzcm
    ./install.sh

    スクリプトは'nzcmを'/nz/var/nzcmディレクトリにインストールし、リポジトリは自動的に設定される。

  9. install.shスクリプトの出力の指示に従い、実行する:
    source ~/.bashrc
  10. 以下のコマンドを発行して、ターゲット・ディレクトリーに移動します。
    cd /nz/var/inza/nzcmrepo
  11. ターゲット・ディレクトリーが空であることを確認します。
  12. カートリッジとグループファイルを解凍する:
    cp -f *.nzc /nz/var/nzcm/nzcmrepo/
    cp -f *.grp /nz/var/nzcm/nzcmrepo/
    これは「nzcmインストールする。