Dettagli di input per la SPSS distribuzione in batch dei modelli

Segui queste regole quando specifichi i dettagli di input per le distribuzioni batch dei SPSS modelli.

Tabella riassuntiva dei tipi di dati:

Tipi di dati e formati di file accettati
Dati	Descrizione
Tipo	Riferimenti ai dati, inline
formati file	CSV

Origini dati

Riferimenti ai dati di input o output:

Risorse locali o gestite dallo spazio
Risorse connesse (remote) provenienti da queste fonti:

Note:

Per le connessioni di archiviazione cloud come Cloud Object Storage, è necessario configurare la chiave di accesso e la chiave segreta, note anche come credenziali HMAC.
Per SPSS le implementazioni, queste fonti di dati non sono conformi allo standard FIPS (Federal Information Processing Standard):
- Cloud Object Storage
- Cloud Object Storage (infrastructure)
- Volumi di archiviazione
I nomi delle tabelle forniti nei riferimenti ai dati di input e output vengono ignorati. I nomi delle tabelle a cui si fa riferimento nel SPSS modello vengono utilizzati durante l'implementazione batch.
Utilizza SQL PushBack per generare istruzioni SQL per IBMSPSS Modeler operazioni che possono essere "rimandate" al database o eseguite nel database per migliorare le prestazioni. SQL Pushback è supportato solo da:
- Db2
- SQL Server
- Netezza Performance Server
- PosgreSQL
- Oracle
- Snowflake
- Exasol

Utilizzo di dati connessi o risorse di connessione per una distribuzione in batch

Un SPSS Modeler flusso può avere un numero di nodi di importazione ed esportazione per i dati. Se i nodi utilizzano connessioni al database, devono essere configurati con i nomi delle tabelle nelle origini dati e nelle destinazioni. Questi nomi di tabella vengono utilizzati in seguito per i lavori batch. Utilizza i nodi Data Asset per importare i dati e i nodi Data Asset Export per esportarli. Quando configuri i nodi, scegli il nome della tabella da Connessioni; non scegliere una risorsa dati nel tuo progetto. Imposta i nomi dei nodi e delle tabelle prima di salvare e distribuire il modello su Watson Machine Learning.

Quando si distribuisce il modello in uno spazio di distribuzione, verificare che i nodi siano connessi a un database supportato nello spazio di distribuzione. In una distribuzione batch del modello, i dettagli della connessione vengono selezionati dai riferimenti dei dati di input e output, ma i nomi delle tabelle di input e output vengono selezionati dal SPSS Modeler modello. I nomi delle tabelle di input e output forniti nei riferimenti ai dati collegati vengono ignorati.

Per la distribuzione in batch di un SPSS modello che utilizza una Cloud Object Storage connessione, assicurarsi che il SPSS modello abbia un unico nodo di asset dati di input e output.

Combinazioni supportate di sorgenti di ingresso e uscita

È necessario specificare origini dati e destinazioni compatibili per l'input e l'output del processo batch. Se si specificano origini dati e destinazioni incompatibili, si ottiene un errore quando si tenta di eseguire il processo batch.

Queste combinazioni sono supportate per i lavori batch:

Combinazioni supportate per i lavori batch
SPSS modello input/output	Input del processo di distribuzione batch	Output del processo di distribuzione batch
File	Risorsa dati locale, gestita o referenziata o risorsa di connessione (file)	Risorsa dati remota o risorsa di connessione (file) o nome
Database	Risorsa dati remota o risorsa di connessione (database)	Risorsa dati remota o risorsa di connessione (database)

Per ulteriori informazioni, vedere Aggiunta di dati a un progetto.

Specificare più input

Se si specificano più input per una distribuzione SPSS di modello senza schema, specificare un ID per ciascun elemento in input_data_references.

Per ulteriori informazioni, vedere Utilizzo di più origini dati per un SPSS lavoro.

In questo esempio, quando crei il lavoro, fornisci tre voci di input con gli ID: sample_db2_conn, sample_teradata_conn, e sample_googlequery_conn e seleziona i dati collegati richiesti per ciascun input.

{
"deployment": {
    "href": "/v4/deployments/<deploymentID>"
  },
  "scoring": {
  	  "input_data_references": [{
               "id": "sample_db2_conn",
               "name": "DB2 connection",
               "type": "data_asset",
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           },
           {
               "id": "sample_teradata_conn",
               "name": "Teradata connection",
               "type": "data_asset",
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           },
           {
               "id": "sample_googlequery_conn",
               "name": "Google bigquery connection",
               "type": "data_asset",
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           }],
  	  "output_data_references": {
  	  	        "id": "sample_db2_conn",
                "type": "data_asset",
                "connection": {},
                "location": {
                    "href": "/v2/assets/<asset_id>?space_id=<space_id>"
                },
          }
}

Nota: il parametro delle variabili di ambiente dei processi di distribuzione non è applicabile.

Specificare i riferimenti ai dati a livello di programmazione

Se si specificano i riferimenti ai dati di input e output a livello di programmazione:

Il riferimento alla type fonte dei dati dipende dal tipo di risorsa. Fare riferimento alla sezione Tipi di riferimento delle origini dati in Aggiunta di risorse dati a uno spazio di distribuzione.
SPSS I lavori supportano più input da fonti di dati e un unico output. Se lo schema non è presente nei metadati del modello al momento del salvataggio, è necessario inserirlo id manualmente e selezionare una risorsa dati per ogni connessione. Se lo schema è fornito nei metadati del modello, id i nomi vengono compilati automaticamente utilizzando i metadati. Selezionare la risorsa dati per il corrispondente ids in Watson Studio. Per ulteriori informazioni, vedere Utilizzo di più origini dati per un SPSS lavoro.
Per creare una risorsa locale o gestita come riferimento dati di output, è necessario specificare il name campo in output_data_reference modo che venga creata una risorsa dati con il nome specificato. Non è possibile specificare un href che fa riferimento a una risorsa dati locale esistente.

Nota:

Le risorse dati collegate che fanno riferimento a database supportati possono essere create nel output_data_references solo quando anche input_data_references il fa riferimento a una di queste fonti.

Se si crea un processo utilizzando il Python client, è necessario fornire il nome della connessione a cui si fa riferimento nei nodi dati del SPSS modello nel id campo e l'href della risorsa dati in location.href per i riferimenti ai dati di input/output del payload dei processi di distribuzione. Ad esempio, è possibile costruire il payload del lavoro in questo modo:

job_payload_ref = {
    client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{
        "id": "DB2Connection",
        "name": "drug_ref_input1",
        "type": "data_asset",
        "connection": {},
        "location": {
            "href": <input_asset_href1>
        }
    },{
        "id": "Db2 WarehouseConn",
        "name": "drug_ref_input2",
        "type": "data_asset",
        "connection": {},
        "location": {
            "href": <input_asset_href2>
        }
    }],
    client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: {
            "type": "data_asset",
            "connection": {},
            "location": {
                "href": <output_asset_href>
            }
        }
    }