Laden von Daten aus der Cloud: Azure Blob Storage

Bereitstellungsoptionen: Netezza Performance Server für Cloud Pak for Data SystemNetezza Performance Server für Cloud Pak for Data

Sie können Daten aus externen Tabellen in der Cloud in eine Netezza Performance Server auf einem Netezza Performance Server laden.

Vorbereitende Schritte

  • Wenn die Datenbanktabelle nur die Datensätze aus der externen Tabelle enthalten soll, müssen Sie sicherstellen, dass die Datenbanktabelle leer ist, bevor Sie die Daten laden.
  • Wenn Sie Daten aus einer externen Tabelle in eine nicht leere Datenbanktabelle laden, ist der Ladevorgang zwar erfolgreich, aber die neuen Datensätze werden an die vorhandenen Datensätze angehängt.

Informationen zu dieser Task

Sie können Daten aus Azure Blob Storage laden. Sie können alle Datentypen (einschließlich Unicode) und Dateitypen (dekomprimierte und komprimierte Formate) laden.

Um eine externe Tabelle zu erstellen, müssen Sie der Benutzer mit Administratorberechtigung sein oder die Administratorberechtigung CREATE EXTERNAL TABLE haben. Sie müssen auch über die Berechtigung zum Lesen aus dem Pfad des Datenobjekts verfügen.

Vorgehensweise

  1. Erstellen Sie eine externe Tabelle, indem Sie den Befehl CREATE EXTERNAL TABLE mit der Option REMOTESOURCE eingeben.
    CREATE EXTERNAL TABLE TABLE SAMEAS TABLE USING (
    DATAOBJECT DATAOBJECT
    REMOTESOURCE REMOTESOURCE
    DELIM DELIM
    UNIQUEID UNIQUEID
    AZACCOUNT AZACCOUNT
    AZKEY AZKEY
    AZREGION AZREGION
    AZCONTAINER AZCONTAINER
    AZBLOCKSIZEMB AZBLOCKSIZEMB
    AZMAXBLOCKS AZMAXBLOCKS
    AZLOGLEVEL AZLOGLEVEL 
    );
    Beispiel:
    CREATE EXTERNAL TABLE emp_backup SAMEAS emp USING (
    DATAOBJECT ('/tmp/emp.dat')
    REMOTESOURCE 'AZURE'
    DELIM '|'
    UNIQUEID 'samplebackup'
    AZACCOUNT 'xxxxx'
    AZKEY 'xxxxx'
    AZREGION 'eastus2'
    AZCONTAINER' myContainer'
    AZBLOCKSIZEMB '50'
    AZMAXBLOCKS '1000'
    AZLOGLEVEL 'DEBUG’ 
    );
    Die Dateispezifikation DATAOBJECT muss auf eine gültige Datei auf der Cloudplattform verweisen. Für die Option REMOTESOURCE verwenden Sie AZURE.

    Wenn Sie keine Remote-Quelle angeben, sucht das System nach einer Quelldatei auf dem Appliance-Host.

    In dieser Tabelle sind alle zusätzlichen Parameter aufgeführt, die notwendig sind, wenn Sie die Option REMOTESOURCE AZURE verwenden möchten.

    Option Verteilung Beschreibung
    uniqueId Optionale Der Namensraum, der zur Gruppierung der Daten im Cloud-Bucket verwendet wird.
    AZACCOUNT Obligatorisch Der Name des Azure.
    AZKEY Obligatorisch Der Azure für den Zugriff auf Ihr Konto.
    AZCONTAINER Obligatorisch Der Name des Azure.
    AZREGION Obligatorisch für 11.2.2.X

    Nicht unterstützt unter 11.2.1.X

    Der Name der Region Ihres Azure. Um eine Liste Ihrer Regionen zu erhalten, führen Sie folgenden Befehl aus:
    az account list-locations --query [].[name] -o table
    AZMAXBLOCKS Optionale Gibt die maximale Anzahl von Blöcken an, die in einem Blockblob erlaubt sind. Der Standardwert ist 10000.
    AZBLOCKSIZEMB Optionale Der Standardwert ist 25, der Höchstwert 100. Dieser Wert wird in MB angegeben. Gibt die Größe eines Blocks an. Die Daten werden blockweise in die Cloud geschrieben. Blöcke werden zu einem Blob zusammengefügt.
    AZLOGLEVEL Optionale Der Standardwert ist INFO. Dies ist eine Protokollierungsstufe zur Steuerung der Ausführlichkeit der Protokollierung. Andere gültige Werte sind DEBUG, WARNING und ERROR.
  2. Fügen Sie Daten aus der externen Tabelle in die Tabelle auf dem Netezza Performance Server ein.
    INSERT INTO TABLE SELECT * FROM TABLE;
    Beispiel:
    INSERT INTO emp SELECT * FROM emp_backup;