Eingabedetails zur Batchbereitstellung für SPSS-Modelle

Befolgen Sie diese Regeln, wenn Sie Eingabedetails für die Batch-Bereitstellung von SPSS Modellen angeben.

Übersichtstabelle für Datentypen:

Akzeptierte Datentypen und Dateiformate
Daten Beschreibung
Typ Datenverweise, inline
Dateiformate CSV

Datenquellen

Eingabe- oder Ausgabedatenreferenzen:

Hinweise:

  • Für Cloud-Speicherverbindungen wie müssen Sie den Zugriffsschlüssel und Cloud Object Storage den geheimen Schlüssel konfigurieren, auch bekannt als HMAC-Anmeldedaten.
  • Für SPSS Bereitstellungen entsprechen diese Datenquellen nicht dem Federal Information Processing Standard (FIPS):
    • Cloud Object Storage
    • Cloud Object Storage (infrastructure)
    • Speicherdatenträger
  • Tabellennamen, die in Eingabe- und Ausgabedatenreferenzen angegeben sind, werden ignoriert. Die Tabellennamen, auf die im SPSS Modell verwiesen wird, werden während der Batch-Bereitstellung verwendet.
  • Verwenden Sie SQL, um SQL-Anweisungen PushBack für IBMSPSS Modeler Operationen zu generieren, die zur Verbesserung der Leistung in die Datenbank „zurückgeschoben“ oder dort ausgeführt werden können. SQL Pushback wird nur unterstützt von:
    • Db2
    • SQL Server
    • Netezza Performance Server
    • PosgreSQL
    • Oracle
    • Snowflake
    • Exasol

Verwendung verbundener Daten oder Verbindungsressourcen für eine Batch-Bereitstellung

Ein SPSS Modeler Flow kann mehrere Import- und Exportknoten für Daten haben. Wenn die Knoten Datenbankverbindungen verwenden, müssen sie mit den Tabellennamen in den Datenquellen und -zielen konfiguriert werden. Diese Tabellennamen werden später für Batch-Jobs verwendet. Verwenden Sie Daten-Asset-Knoten zum Importieren von Daten und Daten-Asset-Export-Knoten zum Exportieren von Daten. Wählen Sie bei der Konfiguration der Knoten den Tabellennamen aus „Verbindungen“ aus. Wählen Sie kein Datenelement aus Ihrem Projekt aus. Legen Sie die Knoten und Tabellennamen fest, bevor Sie Watson Machine Learning das Modell speichern und bereitstellen.

Wenn Sie das Modell in einem Bereitstellungsbereich bereitstellen, überprüfen Sie, ob die Knoten mit einer unterstützten Datenbank im Bereitstellungsbereich verbunden sind. Bei einer Batch-Bereitstellung des Modells werden die Verbindungsdetails aus den Eingabe- und Ausgabedatenreferenzen ausgewählt, die Namen der Eingabe- und Ausgabetabellen jedoch aus dem SPSS Modeler Modell. Die Namen der Eingabe- und Ausgabetabellen, die in den verbundenen Datenreferenzen angegeben sind, werden ignoriert.

Für die Batch-Bereitstellung eines SPSS Modells, das eine Cloud Object Storage Verbindung verwendet, stellen Sie sicher, dass das SPSS Modell über einen einzigen Eingabe- und Ausgabedaten-Asset-Knoten verfügt.

Unterstützte Kombinationen von Eingabe- und Ausgabequellen

Sie müssen kompatible Datenquellen und -ziele für die Eingabe und Ausgabe des Batch-Jobs angeben. Wenn Sie inkompatible Datenquellen und -ziele angeben, erhalten Sie eine Fehlermeldung, wenn Sie versuchen, den Batch-Job auszuführen.

Die folgenden Kombinationen werden für Batch-Jobs unterstützt:

Unterstützte Kombinationen für Batch-Jobs
SPSS Modell-Eingabe/Ausgabe Eingabe für Batchbereitstellungsjobs Ausgabe des Batchbereitstellungsjobs 
Datei Lokale, verwaltete oder referenzierte Datenressource oder Verbindungsressource (Datei) Ferne Datenasset-oder -verbindungsanlage (Datei) oder Name
Datenbank Ferne Datenasset-oder Verbindungsanlage (Datenbank) Ferne Datenasset-oder Verbindungsanlage (Datenbank)

Weitere Informationen finden Sie unter „Daten zu einem Projekt hinzufügen “.

Mehrere Eingaben angeben

Wenn Sie mehrere Eingaben für eine SPSS Modellbereitstellung ohne Schema angeben, geben Sie eine ID für jedes Element in an input_data_references.

Weitere Informationen finden Sie unter Verwenden mehrerer Datenquellen für einen SPSS Job.

In diesem Beispiel geben Sie beim Erstellen des Jobs drei Eingaben mit den IDs, sample_teradata_connsample_db2_conn und ein sample_googlequery_conn und wählen für jede Eingabe die erforderlichen verbundenen Daten aus.

{
"deployment": {
    "href": "/v4/deployments/<deploymentID>"
  },
  "scoring": {
  	  "input_data_references": [{
               "id": "sample_db2_conn",
               "name": "DB2 connection",
               "type": "data_asset",
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           },
           {
               "id": "sample_teradata_conn",
               "name": "Teradata connection",
               "type": "data_asset",
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           },
           {
               "id": "sample_googlequery_conn",
               "name": "Google bigquery connection",
               "type": "data_asset",
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           }],
  	  "output_data_references": {
  	  	        "id": "sample_db2_conn",
                "type": "data_asset",
                "connection": {},
                "location": {
                    "href": "/v2/assets/<asset_id>?space_id=<space_id>"
                },
          }
}
Hinweis: Der Parameter „Umgebungsvariablen“ von Bereitstellungsaufträgen ist nicht anwendbar.

Datenreferenzen programmgesteuert festlegen

Wenn Sie Eingabe- und Ausgabedatenreferenzen programmgesteuert festlegen:

  • Datenquellenreferenz type hängt vom Assettyp ab. Weitere Informationen finden Sie im Abschnitt Referenztypen für Datenquellen in Datenassets zu einem Bereitstellungsbereich hinzufügen.
  • SPSS-Jobs unterstützen mehrere Datenquelleneingaben und eine einzelne Ausgabe. Wenn das Schema beim Speichern nicht in den Metadaten des Modells enthalten ist, müssen Sie es id manuell eingeben und für jede Verbindung ein Datenelement auswählen. Wenn das Schema in den Metadaten für das Modell bereitgestellt wird, werden id die Namen automatisch anhand der Metadaten ausgefüllt. Sie wählen die Datenressource für das entsprechende ids in aus Watson Studio. Weitere Informationen finden Sie unter Verwenden mehrerer Datenquellen für einen SPSS Job.
  • Um ein lokales oder verwaltetes Asset als Ausgabedatenreferenz zu erstellen, muss das name Feld für output_data_reference angegeben werden, damit ein Daten-Asset mit dem angegebenen Namen erstellt wird. Sie können kein angeben, href das auf eine vorhandene lokale Datenressource verweist.
Hinweis:

Verbundene Datenbestände, die sich auf unterstützte Datenbanken beziehen, können nur dann output_data_references im erstellt werden, wenn sich auch input_data_references das auf eine dieser Quellen bezieht.

  • Wenn Sie einen Job mit dem Python Client erstellen, müssen Sie den Verbindungsnamen, auf den in den Datenknoten des SPSS Modells verwiesen wird, im id Feld angeben und die Daten-Asset-Href in location.href für Eingabe-/Ausgabedatenverweise der Nutzlast der Bereitstellungsjobs. Beispielsweise können Sie die Job-Nutzlast wie folgt erstellen:

    job_payload_ref = {
        client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{
            "id": "DB2Connection",
            "name": "drug_ref_input1",
            "type": "data_asset",
            "connection": {},
            "location": {
                "href": <input_asset_href1>
            }
        },{
            "id": "Db2 WarehouseConn",
            "name": "drug_ref_input2",
            "type": "data_asset",
            "connection": {},
            "location": {
                "href": <input_asset_href2>
            }
        }],
        client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: {
                "type": "data_asset",
                "connection": {},
                "location": {
                    "href": <output_asset_href>
                }
            }
        }