Configuración del conjunto de datos

Aprenda a configurar los conjuntos de datos que se van a analizar.

Conjuntos de datos de ejemplo

Los conjuntos de datos de minería de datos estándar se utilizan en el conjunto de documentos de Netezza Performance Server Analytics para proporcionar ejemplos de cómo diversas funciones y procedimientos almacenados funcionan en condiciones normales. Los conjuntos de datos también sirven para comprender cómo podrían utilizarse los distintos componentes del producto en situaciones reales.

Los siguientes conjuntos de datos de muestra utilizados por la documentación no se incluyen con ' Netezza Performance Server Analítica y deben ser descargados de Internet e instalados en ' Netezza Performance Server ' por un administrador antes de que puedan ser utilizados. Los datos no pueden utilizarse directamente a partir de los archivos de conjuntos de datos descargados, por lo que se ha proporcionado un script para crear las tablas necesarias para contener los datos, manipular los datos descargados y cargar los datos para su uso en el sistema. Aunque no es necesario, para utilizar los ejemplos de la documentación deben adquirirse los siguientes conjuntos de datos:
Nombre de conjunto de datos URL y archivos a descargar
Distribución

URL: fimi.ua.ac.be/data/

Archivo: ' retail.dat.gz (haga clic en el enlace .gz)

CensusIncome

URL: archive.ics.uci.edu/ml/databases/census-income/

Fichero: ' census.tar.gz

WineQuality

URL: archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/

Fichero: ' winequality-white.csv

Adult

URL: archive.ics.uci.edu/ml/machine-learning-databases/adult

Fichero: ' adult.data

Soybean

URL: archive.ics.uci.edu/ml/machine-learning-databases/soybean

Archivos: soybean-large.data y ' soybean-large.test'

Iris

URL: archive.ics.uci.edu/ml/machine-learning-databases/iris/

Fichero: ' iris.data

Instalación de los conjuntos de datos de ejemplo

  1. Descargue cada archivo de conjunto de datos en una máquina local. Si un archivo está empaquetado (por ejemplo, un archivo con la extensión .gz está empaquetado), no lo desempaquete.
  2. Inicie sesión en el host como usuario ' nz.
  3. Cree un directorio en el que almacenar los conjuntos de datos descargados, por ejemplo:
    /nz/export/ae/utilities/bin/testData
  4. Transfiera los archivos del conjunto de datos al directorio recién creado. No cambie los nombres de archivo.
  5. Acceda al directorio siguiente:
    /nz/export/ae/utilities/bin
  6. Ejecute el script de instalación especificando uno de los mandatos siguientes:
    • Si los archivos del conjunto de datos de ejemplo están en el directorio /nz/export/ae/utilities/bin/testData:
      ./loadTestTables.sh
    • Si los archivos del conjunto de datos de ejemplo están en un directorio diferente:
      ./loadTestTables.sh path_to_directory
      Debido a las grandes cantidades de datos que contienen los archivos, el script puede tardar varios minutos en ejecutarse. Este comportamiento es normal.
    • Una vez finalizado el script, los archivos temporales creados por el script se suprimen automáticamente. Sin embargo, los archivos de datos descargados y los archivos de registro no se eliminan y permanecen en el host. Si no quiere conservarlos, suprímalos manualmente.

Si se vuelve a ejecutar el script, se suprimen todos los datos de ejemplo de la base de datos y se descartan las tablas correspondientes. A continuación, se vuelven a crear las tablas y se insertan otra vez los datos de ejemplo originales.

Administrador de cartuchos Netezza Performance Server (nzcm)

La gestión de cartuchos para ' Netezza Performance Server Analítica ' se realiza mediante la utilidad Cartridge Manager de ' Netezza Performance Server (nzcm). Utilice nzcm para instalar, desinstalar, registrar, anular el registro y administrar de cualquier otro modo los cartuchos.

Instalación de nzcm

Netezza Performance Server Analytics se distribuye como una colección de cartuchos en forma de archivos .nzc. Debe extraer estos archivos del paquete completo de Netezza Performance Server Analytics. You can extract and access the cartridges and the Netezza Performance Server Cartridge Manager (nzcm) through the Netezza Performance Server Analítica installation utility.

En el host del dispositivo, siga estos pasos:
  1. Inicie sesión en el host como usuario ' nz.
  2. Vaya al directorio que contiene el siguiente archivo:
    nz-analytics-vversion.zip
  3. Ejecute el mandato siguiente:
    unzip nz-analytics-vversion.zip
    Para extraer el archivo debe utilizarse la utilidad " unzip "; no puede utilizarse " gunzip. Este comando crea un directorio con el nombre nzcmrepo bajo el directorio en el que se han extraído los archivos.
  4. Vaya al subdirectorio nzcmrepo, normalmente /nz/var/inza/nzcmrepo/var/inza/nzcmrepo.
  5. Localice el archivo ' nzcm ' para determinar el número de versión. El archivo se denomina " nzcm-<version>.
  6. Descomprime el archivo.
    tar -xf nzcm-<version>
  7. Una vez descomprimido, vaya al directorio ' nzcm ':
    cd /nz/var/inza/nzcmrepo/nzcm-<<version>
  8. Instalar ' nzcm:
    ./install.sh

    El script instala ' nzcm en el directorio ' /nz/var/nzcm ' y el repositorio se configura automáticamente.

  9. Siguiendo las instrucciones de la salida del script ' install.sh ', ejecute:
    source ~/.bashrc
  10. Emita el siguiente mandato para cambiar al directorio de destino:
    cd /nz/var/inza/nzcmrepo
  11. Confirme que el directorio de destino está vacío.
  12. Descomprime los cartuchos y los archivos de grupo:
    cp -f *.nzc /nz/var/nzcm/nzcmrepo/
    cp -f *.grp /nz/var/nzcm/nzcmrepo/
    Esto instala ' nzcm.