Netezza Analytics für R

Das Netezza Analytics Library for R-Paket ist ein Standard-R-Paket im CRAN-Stil. In diesem Abschnitt werden die grundlegenden Funktionen für die Verwendung von datenbankinternen Analysen direkt vom R-Client aus erläutert.

Systemvoraussetzungen und Installation

Um das Netezza Analytics Library for R-Paket zu verwenden, muss R auf dem Client-Rechner verfügbar sein und Netezza Analytics muss auf dem Netezza installiert und registriert sein.

Einführung

Die R-Umgebung bietet eine große Anzahl von Funktionen für die Datenanalyse, Modellvalidierung, Modellvisualisierung und Datenvorverarbeitung. In der R-Basisinstallation außerhalb der Netezza kann es jedoch bei der Verarbeitung großer Datensätze zu den folgenden Engpässen kommen:
Speicherbegrenzung
Bei der 32-Bit-Basisinstallation von R sind die Benutzer je nach Betriebssystem auf 4 GB oder 2GB RAM beschränkt.
Verarbeitungsgeschwindigkeit
In der Basisinstallation ist nur ein Gewinde erlaubt. Das hat zur Folge, dass selbst wenn R auf einem Mehrkernrechner läuft, die zeitaufwändigen Schritte nicht mit voller Geschwindigkeit ausgeführt werden. Es gibt zwar Bibliotheken, die parallele Berechnungen ermöglichen, aber sie müssen aufwändig konfiguriert werden.
Methode für den Zugriff auf große Datensätze
Bei Datenbanken, die größer als mehrere Terabyte sind, werden die Datensätze auf einer Reihe von virtualisierten Festplatten gespeichert. Es ist nicht optimal, den Datensatz stückweise in R zu importieren und Schritt für Schritt zu verarbeiten. In den meisten Fällen ist es viel schneller, die Analyseroutinen näher an den Daten auszuführen, anstatt die Daten zur Analyse zum R-Client zu bringen.
In diesem Abschnitt wird beschrieben, wie Netezza Analytics verwendet wird, um Analysen für große Datensätze in R durchzuführen.
  • Netezza Analytics enthält mehrere integrierte Analyseroutinen für statistische und Data-Mining-Algorithmen. Da diese Algorithmen in der Datenbank registriert und ausführbar sind, sind sie schnell und arbeiten nahe an den Daten. Die Ergebnisse dieser Verfahren, wie z. B. angepasste Modelle, Modellprädiktoren usw., werden dann aus der Datenbank in R heruntergeladen. Anschließend werden die Ergebnisse in R-Klassen umgewandelt und in R für weitere Schritte wie die Verarbeitung oder Visualisierung zugänglich gemacht.
  • Netezza Analytics enthält Routinen zur Berechnung von Datenaggregaten in der Datenbank. Diese Aggregate, die in der Regel viel kleiner sind als die Daten, aus denen sie stammen, können in der Datenbank berechnet und dann in R heruntergeladen werden, wo der Rest der Berechnungen durchgeführt wird. Für viele Algorithmen steigert diese Methode der Vorberechnung bestimmter ausreichender Statistiken in der Datenbank, der anschließenden Übertragung nach R und der Durchführung der restlichen Berechnungen in R die Effizienz erheblich.