Set di dati in DataStage
È possibile leggere o scrivere dati da un set di dati. È possibile utilizzare il set di dati come origine o destinazione.
Il set di dati può avere un unico collegamento di input o un unico collegamento di output. Può essere configurato per funzionare in modalità parallela o sequenziale.
I lavori paralleli utilizzano set di dati per gestire i dati all'interno di un lavoro. Ogni collegamento in un lavoro contiene un set di dati. Il set di dati consente di memorizzare i dati su cui si sta operando in forma persistente, che possono poi essere utilizzati da altri lavori IBM® DataStage®. I set di dati sono file del sistema operativo, ciascuno dei quali è indicato da un file di controllo che, per convenzione, ha il suffisso.ds. L'uso oculato dei set di dati può essere fondamentale per ottenere buoni risultati in una serie di lavori collegati tra loro.
Scheda fase
- Modalità di esecuzione. La fase può essere eseguita in modalità parallela o sequenziale. In modalità parallela, i contenuti del set di dati vengono elaborati dai nodi disponibili come specificato nel file di configurazione e da eventuali vincoli dei nodi specificati nella scheda Avanzate. In modalità sequenziale, l'intero contenuto del set di dati viene elaborato dal nodo conduttore.
- Modalità di combinabilità. L'impostazione predefinita è Auto, che consente DataStage di combinare gli operatori alla base delle fasi parallele in modo che vengano eseguiti nello stesso processo, se ciò è opportuno per questo tipo di fase.
- Preservare la suddivisione in partizioni. È possibile selezionare Propaga, Imposta o Cancella. Se selezioni Imposta, le operazioni di lettura dei file richiederanno che la fase successiva mantenga la partizione così com'è. Propagate riprende l'impostazione del flag dalla fase precedente.
Scheda input
La scheda Input consente di specificare i dettagli relativi alla modalità di scrittura dei dati in un set di dati. Il set di dati può avere un solo collegamento di input. La categoria target per il set di dati include le proprietà File e Update Policy. Mentre File è il nome del file di controllo per il set di dati, la politica di aggiornamento specifica l'azione da intraprendere se il set di dati su cui si sta scrivendo esiste già.Di seguito è riportata una descrizione di ciascuna proprietà nella scheda Input:
- File
- Il nome del file di controllo per il set di dati. È possibile cercare il file o inserire un parametro di lavoro. Per convenzione, il file ha il suffisso .ds.
- Aggiorna politica
- Specifica quale azione verrà intrapresa se il set di dati su cui si sta scrivendo esiste già. Seleziona:
- Appendice. Aggiungi eventuali nuovi dati a quelli esistenti.
- Crea (Errore se esiste). DataStage segnala un errore se il set di dati esiste già.
- Sovrascrivi. Sovrascrive tutti i dati esistenti con i nuovi dati.
- Utilizza quelli esistenti (Elimina record). Mantiene i file esistenti elencati in un file descrittore (ad esempio, datasetname.ds o filesetname.fs) ma elimina i vecchi record. Se il set di dati con uno schema diverso esiste già, viene visualizzato un messaggio di errore.
- Utilizza quelli esistenti (Elimina record e schema). Mantiene i file esistenti elencati in un file descrittore (ad esempio, datasetname.ds o filesetname.fs) ma elimina il vecchio schema e i vecchi record.
L'impostazione predefinita è Sovrascrivi.
Scheda output
Nella pagina Output è possibile specificare i dettagli relativi alla modalità di lettura dei dati da parte del set di dati. È possibile modificare le impostazioni predefinite del buffer per il collegamento di output e visualizzare le definizioni delle colonne.- File
- Il nome del file di controllo per il set di dati. È possibile cercare il file o inserire un parametro di lavoro. Per convenzione il file ha il suffisso.ds.
- Modalità colonne mancanti
- Utilizza questa opzione per specificare come si comporta lo stage se le colonne definite nello stage non sono presenti nel set di dati quando il processo viene eseguito. Selezionare una delle seguenti opzioni:
- Ignora
- Il lavoro non va a buon fine. Se la propagazione delle colonne in fase di esecuzione è disattivata, il processo genera un avviso nella fase Set di dati. Il processo fallisce quando quella colonna viene utilizzata esplicitamente da un'altra fase.
- Errore
- Il processo fallisce nella fase Data Set, indipendentemente dal fatto che la propagazione delle colonne runtime sia attiva o disattiva.
- Solo valori null predefiniti
- Il processo imposta tutte le colonne mancanti contrassegnate come nullable al valore null. Qualsiasi colonna mancante contrassegnata come non nullable causerà il fallimento del processo.
- Solo valori non null predefiniti
- Il processo imposta tutte le colonne mancanti contrassegnate come non nulle al valore predefinito per quel tipo di dati (ad esempio, una colonna intera ha come valore predefinito 0). Qualsiasi colonna mancante contrassegnata come nullable causerà il fallimento del processo.
- Tutti valori predefiniti
- Il processo imposta i valori per le colonne mancanti come segue:
- Le colonne nullable sono impostate su null.
- Le colonne non nulle vengono impostate sul valore predefinito per quel tipo di dati (ad esempio, una colonna intera ha come valore predefinito 0).