Biblioteca Netezza Analytics para R

El paquete Netezza Analytics Library for R es un paquete R estándar de estilo CRAN. En esta sección, se revisan las funciones básicas para utilizar análisis en la base de datos directamente desde el cliente R.

Requisitos previos del sistema e instalación

Para utilizar el paquete Netezza Analytics Library for R, R debe estar disponible en el equipo cliente y Netezza Analytics debe estar instalado y registrado en el sistema Netezza.

Introducción

El entorno R ofrece un gran número de funciones para el análisis de datos, la validación de modelos, la visualización de modelos y el preprocesamiento de datos. Sin embargo, en la instalación base de R fuera del entorno Netezza, podrían producirse los siguientes cuellos de botella al procesar grandes conjuntos de datos:
Límite de memoria
En la instalación base de R de 32 bits, los usuarios están limitados a 4 GB o 2GB de RAM, dependiendo del sistema operativo.
velocidad de proceso
En la instalación base, sólo se permite un hilo. Como resultado, incluso si R está trabajando en una máquina multinúcleo, los pasos que consumen tiempo no se realizan a toda velocidad. Aunque existen bibliotecas que permiten el cálculo paralelo, requieren una configuración sofisticada.
Método de acceso a grandes conjuntos de datos
En las bases de datos de más de varios terabytes, los conjuntos de datos se almacenan en un conjunto de discos virtualizados. Importar el conjunto de datos a R en trozos y procesarlo paso a paso no es lo óptimo. En la mayoría de los casos, es mucho más rápido ejecutar las rutinas analíticas más cerca de los datos en lugar de llevar los datos al cliente R para su análisis.
Esta sección describe cómo utilizar Netezza Analytics para realizar análisis de grandes conjuntos de datos en R.
  • Netezza Analytics contiene varias rutinas analíticas integradas para algoritmos estadísticos y de minería de datos. Como estos algoritmos se registran y ejecutan desde la base de datos, son rápidos y trabajan cerca de los datos. Los resultados de estos procedimientos, como los modelos ajustados, los predictores del modelo, etc., se descargan de la base de datos a R. A continuación, los resultados se transforman en clases R y se hacen accesibles en R para pasos posteriores, como el procesamiento o la visualización.
  • Netezza Analytics contiene rutinas para calcular agregados de datos en la base de datos. Estos agregados, que suelen ser mucho más pequeños que los datos de los que proceden, pueden calcularse en la base de datos y luego descargarse a R, donde se realiza el resto del cálculo. Para muchos algoritmos, este método de precalcular ciertas estadísticas suficientes en la base de datos, transferirlas después a R y realizar el resto del cálculo en R, aumenta enormemente la eficiencia.