Dettagli di input per la SPSS distribuzione in batch dei modelli
Segui queste regole quando specifichi i dettagli di input per le distribuzioni batch dei SPSS modelli.
Tabella riassuntiva dei tipi di dati:
| Dati | Descrizione |
|---|---|
| Tipo | Riferimenti ai dati, inline |
| formati file | CSV |
Origini dati
Riferimenti ai dati di input o output:
- Risorse locali o gestite dallo spazio
- Risorse connesse (remote) provenienti da queste fonti:
Note:
- Per le connessioni di archiviazione cloud come Cloud Object Storage, è necessario configurare la chiave di accesso e la chiave segreta, note anche come credenziali HMAC.
- Per SPSS le implementazioni, queste fonti di dati non sono conformi allo standard FIPS (Federal Information Processing Standard):
- Cloud Object Storage
- Cloud Object Storage (infrastructure)
- Volumi di archiviazione
- I nomi delle tabelle forniti nei riferimenti ai dati di input e output vengono ignorati. I nomi delle tabelle a cui si fa riferimento nel SPSS modello vengono utilizzati durante l'implementazione batch.
- Utilizza SQL PushBack per generare istruzioni SQL per IBMSPSS Modeler operazioni che possono essere "rimandate" al database o eseguite nel database per migliorare le prestazioni. SQL Pushback è supportato solo da:
- Db2
- SQL Server
- Netezza Performance Server
- PosgreSQL
- Oracle
- Snowflake
- Exasol
Utilizzo di dati connessi o risorse di connessione per una distribuzione in batch
Un SPSS Modeler flusso può avere un numero di nodi di importazione ed esportazione per i dati. Se i nodi utilizzano connessioni al database, devono essere configurati con i nomi delle tabelle nelle origini dati e nelle destinazioni. Questi nomi di tabella vengono utilizzati in seguito per i lavori batch. Utilizza i nodi Data Asset per importare i dati e i nodi Data Asset Export per esportarli. Quando configuri i nodi, scegli il nome della tabella da Connessioni; non scegliere una risorsa dati nel tuo progetto. Imposta i nomi dei nodi e delle tabelle prima di salvare e distribuire il modello su Watson Machine Learning.
Quando si distribuisce il modello in uno spazio di distribuzione, verificare che i nodi siano connessi a un database supportato nello spazio di distribuzione. In una distribuzione batch del modello, i dettagli della connessione vengono selezionati dai riferimenti dei dati di input e output, ma i nomi delle tabelle di input e output vengono selezionati dal SPSS Modeler modello. I nomi delle tabelle di input e output forniti nei riferimenti ai dati collegati vengono ignorati.
Per la distribuzione in batch di un SPSS modello che utilizza una Cloud Object Storage connessione, assicurarsi che il SPSS modello abbia un unico nodo di asset dati di input e output.
Combinazioni supportate di sorgenti di ingresso e uscita
È necessario specificare origini dati e destinazioni compatibili per l'input e l'output del processo batch. Se si specificano origini dati e destinazioni incompatibili, si ottiene un errore quando si tenta di eseguire il processo batch.
Queste combinazioni sono supportate per i lavori batch:
| SPSS modello input/output | Input del processo di distribuzione batch | Output del processo di distribuzione batch |
|---|---|---|
| File | Risorsa dati locale, gestita o referenziata o risorsa di connessione (file) | Risorsa dati remota o risorsa di connessione (file) o nome |
| Database | Risorsa dati remota o risorsa di connessione (database) | Risorsa dati remota o risorsa di connessione (database) |
Per ulteriori informazioni, vedere Aggiunta di dati a un progetto.
Specificare più input
Se si specificano più input per una distribuzione SPSS di modello senza schema, specificare un ID per ciascun elemento in input_data_references.
Per ulteriori informazioni, vedere Utilizzo di più origini dati per un SPSS lavoro.
In questo esempio, quando crei il lavoro, fornisci tre voci di input con gli ID: sample_db2_conn, sample_teradata_conn, e sample_googlequery_conn e seleziona i dati collegati richiesti per ciascun input.
{
"deployment": {
"href": "/v4/deployments/<deploymentID>"
},
"scoring": {
"input_data_references": [{
"id": "sample_db2_conn",
"name": "DB2 connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_teradata_conn",
"name": "Teradata connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_googlequery_conn",
"name": "Google bigquery connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}],
"output_data_references": {
"id": "sample_db2_conn",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}
}
Specificare i riferimenti ai dati a livello di programmazione
Se si specificano i riferimenti ai dati di input e output a livello di programmazione:
- Il riferimento alla
typefonte dei dati dipende dal tipo di risorsa. Fare riferimento alla sezione Tipi di riferimento delle origini dati in Aggiunta di risorse dati a uno spazio di distribuzione. - SPSS I lavori supportano più input da fonti di dati e un unico output. Se lo schema non è presente nei metadati del modello al momento del salvataggio, è necessario inserirlo
idmanualmente e selezionare una risorsa dati per ogni connessione. Se lo schema è fornito nei metadati del modello,idi nomi vengono compilati automaticamente utilizzando i metadati. Selezionare la risorsa dati per il corrispondenteids in Watson Studio. Per ulteriori informazioni, vedere Utilizzo di più origini dati per un SPSS lavoro. - Per creare una risorsa locale o gestita come riferimento dati di output, è necessario specificare il
namecampo inoutput_data_referencemodo che venga creata una risorsa dati con il nome specificato. Non è possibile specificare unhrefche fa riferimento a una risorsa dati locale esistente.
Le risorse dati collegate che fanno riferimento a database supportati possono essere create nel output_data_references solo quando anche input_data_references il fa riferimento a una di queste fonti.
Se si crea un processo utilizzando il Python client, è necessario fornire il nome della connessione a cui si fa riferimento nei nodi dati del SPSS modello nel
idcampo e l'href della risorsa dati inlocation.hrefper i riferimenti ai dati di input/output del payload dei processi di distribuzione. Ad esempio, è possibile costruire il payload del lavoro in questo modo:job_payload_ref = { client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{ "id": "DB2Connection", "name": "drug_ref_input1", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href1> } },{ "id": "Db2 WarehouseConn", "name": "drug_ref_input2", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href2> } }], client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: { "type": "data_asset", "connection": {}, "location": { "href": <output_asset_href> } } }