Netezza Analytics Library pour R
Le package Netezza Analytics Library for R est un package R standard de type CRAN. Dans cette section, les fonctions de base permettant d'utiliser l'analyse dans la base de données directement à partir du client R sont passées en revue.
Conditions préalables et installation du système
Pour utiliser le package Netezza Analytics Library for R, R doit être disponible sur la machine cliente et Netezza Analytics doit être installé et enregistré sur le système Netezza.
Présentation
L'environnement R offre un grand nombre de fonctions pour l'analyse des données, la validation des modèles, la visualisation des modèles et le prétraitement des données. Cependant, dans l'installation de base de R en dehors de l'environnement Netezza, les goulots d'étranglement suivants peuvent se produire lors du traitement de grands ensembles de données :
- Limite de mémoire
- Dans l'installation de base de R 32 bits, les utilisateurs sont limités à 4 Go ou 2GB RAM, selon le système d'exploitation.
- Vitesse de traitement
- Dans l'installation de base, un seul fil est autorisé. Par conséquent, même si R fonctionne sur une machine multicœur, les étapes qui prennent du temps ne sont pas effectuées à pleine vitesse. Bien qu'il existe des bibliothèques permettant le calcul parallèle, elles nécessitent une configuration sophistiquée.
- Méthode d'accès aux grands ensembles de données
- Dans les bases de données de plus de plusieurs téraoctets, les ensembles de données sont stockés dans un ensemble de disques virtualisés. Importer l'ensemble des données dans R par morceaux et les traiter étape par étape n'est pas optimal. Dans la plupart des cas, il est beaucoup plus rapide d'exécuter les routines analytiques à proximité des données plutôt que d'apporter les données au client R pour l'analyse.
Cette section décrit comment utiliser Netezza Analytics pour effectuer des analyses sur de grands ensembles de données en R.
- Netezza Analytics contient plusieurs routines analytiques intégrées pour les algorithmes statistiques et de data mining. Comme ces algorithmes sont enregistrés et exécutables à partir de la base de données, ils sont rapides et travaillent à proximité des données. Les résultats de ces procédures, tels que les modèles ajustés, les prédicteurs de modèles, etc., sont ensuite téléchargés de la base de données vers R. Ensuite, les résultats sont transformés en classes R et rendus accessibles dans R pour les étapes suivantes, telles que le traitement ou la visualisation.
- Netezza Analytics contient des routines pour calculer les agrégats de données dans la base de données. Ces agrégats, qui sont généralement beaucoup plus petits que les données dont ils sont issus, peuvent être calculés dans la base de données, puis téléchargés dans R, où le reste du calcul est effectué. Pour de nombreux algorithmes, cette méthode consistant à calculer à l'avance certaines statistiques suffisantes dans la base de données, puis à les transférer dans R et à effectuer le reste des calculs dans R, augmente considérablement l'efficacité.