Eingabedetails zur Batchbereitstellung für SPSS-Modelle
Befolgen Sie diese Regeln, wenn Sie Eingabedetails für die Batch-Bereitstellung von SPSS Modellen angeben.
Übersichtstabelle für Datentypen:
| Daten | Beschreibung |
|---|---|
| Typ | Datenverweise, inline |
| Dateiformate | CSV |
Datenquellen
Eingabe- oder Ausgabedatenreferenzen:
- Lokale oder verwaltete Vermögenswerte aus dem Weltraum
- Verbundene (ferne) Assets aus den folgenden Quellen:
Hinweise:
- Für Cloud-Speicherverbindungen wie müssen Sie den Zugriffsschlüssel und Cloud Object Storage den geheimen Schlüssel konfigurieren, auch bekannt als HMAC-Anmeldedaten.
- Für SPSS Bereitstellungen entsprechen diese Datenquellen nicht dem Federal Information Processing Standard (FIPS):
- Cloud Object Storage
- Cloud Object Storage (infrastructure)
- Speicherdatenträger
- Tabellennamen, die in Eingabe- und Ausgabedatenreferenzen angegeben sind, werden ignoriert. Die Tabellennamen, auf die im SPSS Modell verwiesen wird, werden während der Batch-Bereitstellung verwendet.
- Verwenden Sie SQL, um SQL-Anweisungen PushBack für IBMSPSS Modeler Operationen zu generieren, die zur Verbesserung der Leistung in die Datenbank „zurückgeschoben“ oder dort ausgeführt werden können. SQL Pushback wird nur unterstützt von:
- Db2
- SQL Server
- Netezza Performance Server
- PosgreSQL
- Oracle
- Snowflake
- Exasol
Verwendung verbundener Daten oder Verbindungsressourcen für eine Batch-Bereitstellung
Ein SPSS Modeler Flow kann mehrere Import- und Exportknoten für Daten haben. Wenn die Knoten Datenbankverbindungen verwenden, müssen sie mit den Tabellennamen in den Datenquellen und -zielen konfiguriert werden. Diese Tabellennamen werden später für Batch-Jobs verwendet. Verwenden Sie Daten-Asset-Knoten zum Importieren von Daten und Daten-Asset-Export-Knoten zum Exportieren von Daten. Wählen Sie bei der Konfiguration der Knoten den Tabellennamen aus „Verbindungen“ aus. Wählen Sie kein Datenelement aus Ihrem Projekt aus. Legen Sie die Knoten und Tabellennamen fest, bevor Sie Watson Machine Learning das Modell speichern und bereitstellen.
Wenn Sie das Modell in einem Bereitstellungsbereich bereitstellen, überprüfen Sie, ob die Knoten mit einer unterstützten Datenbank im Bereitstellungsbereich verbunden sind. Bei einer Batch-Bereitstellung des Modells werden die Verbindungsdetails aus den Eingabe- und Ausgabedatenreferenzen ausgewählt, die Namen der Eingabe- und Ausgabetabellen jedoch aus dem SPSS Modeler Modell. Die Namen der Eingabe- und Ausgabetabellen, die in den verbundenen Datenreferenzen angegeben sind, werden ignoriert.
Für die Batch-Bereitstellung eines SPSS Modells, das eine Cloud Object Storage Verbindung verwendet, stellen Sie sicher, dass das SPSS Modell über einen einzigen Eingabe- und Ausgabedaten-Asset-Knoten verfügt.
Unterstützte Kombinationen von Eingabe- und Ausgabequellen
Sie müssen kompatible Datenquellen und -ziele für die Eingabe und Ausgabe des Batch-Jobs angeben. Wenn Sie inkompatible Datenquellen und -ziele angeben, erhalten Sie eine Fehlermeldung, wenn Sie versuchen, den Batch-Job auszuführen.
Die folgenden Kombinationen werden für Batch-Jobs unterstützt:
| SPSS Modell-Eingabe/Ausgabe | Eingabe für Batchbereitstellungsjobs | Ausgabe des Batchbereitstellungsjobs |
|---|---|---|
| Datei | Lokale, verwaltete oder referenzierte Datenressource oder Verbindungsressource (Datei) | Ferne Datenasset-oder -verbindungsanlage (Datei) oder Name |
| Datenbank | Ferne Datenasset-oder Verbindungsanlage (Datenbank) | Ferne Datenasset-oder Verbindungsanlage (Datenbank) |
Weitere Informationen finden Sie unter „Daten zu einem Projekt hinzufügen “.
Mehrere Eingaben angeben
Wenn Sie mehrere Eingaben für eine SPSS Modellbereitstellung ohne Schema angeben, geben Sie eine ID für jedes Element in an input_data_references.
Weitere Informationen finden Sie unter Verwenden mehrerer Datenquellen für einen SPSS Job.
In diesem Beispiel geben Sie beim Erstellen des Jobs drei Eingaben mit den IDs, sample_teradata_connsample_db2_conn und ein sample_googlequery_conn und wählen für jede Eingabe die erforderlichen verbundenen Daten aus.
{
"deployment": {
"href": "/v4/deployments/<deploymentID>"
},
"scoring": {
"input_data_references": [{
"id": "sample_db2_conn",
"name": "DB2 connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_teradata_conn",
"name": "Teradata connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_googlequery_conn",
"name": "Google bigquery connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}],
"output_data_references": {
"id": "sample_db2_conn",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}
}
Datenreferenzen programmgesteuert festlegen
Wenn Sie Eingabe- und Ausgabedatenreferenzen programmgesteuert festlegen:
- Datenquellenreferenz
typehängt vom Assettyp ab. Weitere Informationen finden Sie im Abschnitt Referenztypen für Datenquellen in Datenassets zu einem Bereitstellungsbereich hinzufügen. - SPSS-Jobs unterstützen mehrere Datenquelleneingaben und eine einzelne Ausgabe. Wenn das Schema beim Speichern nicht in den Metadaten des Modells enthalten ist, müssen Sie es
idmanuell eingeben und für jede Verbindung ein Datenelement auswählen. Wenn das Schema in den Metadaten für das Modell bereitgestellt wird, werdeniddie Namen automatisch anhand der Metadaten ausgefüllt. Sie wählen die Datenressource für das entsprechendeids in aus Watson Studio. Weitere Informationen finden Sie unter Verwenden mehrerer Datenquellen für einen SPSS Job. - Um ein lokales oder verwaltetes Asset als Ausgabedatenreferenz zu erstellen, muss das
nameFeld füroutput_data_referenceangegeben werden, damit ein Daten-Asset mit dem angegebenen Namen erstellt wird. Sie können kein angeben,hrefdas auf eine vorhandene lokale Datenressource verweist.
Verbundene Datenbestände, die sich auf unterstützte Datenbanken beziehen, können nur dann output_data_references im erstellt werden, wenn sich auch input_data_references das auf eine dieser Quellen bezieht.
Wenn Sie einen Job mit dem Python Client erstellen, müssen Sie den Verbindungsnamen, auf den in den Datenknoten des SPSS Modells verwiesen wird, im
idFeld angeben und die Daten-Asset-Href inlocation.hreffür Eingabe-/Ausgabedatenverweise der Nutzlast der Bereitstellungsjobs. Beispielsweise können Sie die Job-Nutzlast wie folgt erstellen:job_payload_ref = { client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{ "id": "DB2Connection", "name": "drug_ref_input1", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href1> } },{ "id": "Db2 WarehouseConn", "name": "drug_ref_input2", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href2> } }], client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: { "type": "data_asset", "connection": {}, "location": { "href": <output_asset_href> } } }