Biblioteca de Netezza Analytics para R
O pacote Netezza Analytics Library for R é um pacote R padrão no estilo CRAN. Nesta seção, são analisadas as funções básicas para usar a análise no banco de dados diretamente do cliente R.
Pré-requisitos e instalação do sistema
Para usar o pacote Netezza Analytics Library for R, o R deve estar disponível no computador do cliente e Netezza Analytics deve estar instalado e registrado no sistema Netezza.
Introdução
O ambiente R oferece um grande número de funções para análise de dados, validação de modelos, visualização de modelos e pré-processamento de dados. No entanto, na instalação básica do R fora do ambiente Netezza, os seguintes gargalos podem ocorrer ao processar grandes conjuntos de dados:
- Limite de memória
- Na instalação básica do R de 32 bits, os usuários estão limitados a 4 GB ou 2GB de RAM, dependendo do sistema operacional.
- Velocidade de processamento
- Na instalação básica, somente um thread é permitido. Como resultado, mesmo que o R esteja funcionando em uma máquina com vários núcleos, as etapas demoradas não são realizadas em velocidade máxima. Embora existam bibliotecas que permitem a computação paralela, elas exigem uma configuração sofisticada.
- Método de acesso a grandes conjuntos de dados
- Em bancos de dados com mais de vários terabytes, os conjuntos de dados são armazenados em um conjunto de discos virtualizados. Importar o conjunto de dados para o R em partes e processá-lo passo a passo não é o ideal. Na maioria dos casos, é muito mais rápido executar as rotinas analíticas mais perto dos dados, em vez de trazer os dados para o cliente R para análise.
Esta seção descreve como usar Netezza Analytics para fazer análises de grandes conjuntos de dados em R.
- Netezza Analytics contém várias rotinas analíticas integradas para algoritmos estatísticos e de mineração de dados. Como esses algoritmos são registrados e executáveis a partir do banco de dados, eles são rápidos e trabalham próximos aos dados. Os resultados desses procedimentos, como modelos ajustados, preditores de modelos e assim por diante, são então baixados do banco de dados para o R. Em seguida, os resultados são transformados em classes R e disponibilizados no R para etapas subsequentes, como processamento ou visualização.
- Netezza Analytics contém rotinas para computar agregados de dados no banco de dados. Esses agregados, que geralmente são muito menores do que os dados dos quais se originam, podem ser calculados no banco de dados e, em seguida, baixados para o R, onde o restante do cálculo é feito. Para muitos algoritmos, esse método de pré-computar determinadas estatísticas suficientes no banco de dados, transferi-las para o R e executar o cálculo restante no R aumenta muito a eficiência.