Utilizzo di CDC Replication con IBM IBM DataStage

Come parte del processo di configurazione nella console di gestione , è possibile creare un file di definizione (*.dsx) importato in IBM® DataStage®.

Per generare il file di definizione IBM DataStage , è necessario completare la procedura di configurazione in Console di gestione.

Il file di definizione .dsx che si genera nella Console di gestione e si importa in IBM DataStage contiene le informazioni utilizzate per ricreare le colonne in IBM DataStage in base ai tipi di dati delle colonne di origine determinati dalle scelte di associazione tabella. Il file .dsx contiene inoltre informazioni sui metodi di connessione selezionati durante l'associazione delle tabelle. Per V11.4 e versioni successive, il tipo di connessione supportata è Flat File, che utilizza un file system per depositare le modifiche di origine per il richiamo di IBM DataStage .

I file flat vengono inviati a IBM DataStage da CDC Replication quando vengono raggiunti i limiti di dati (determinati dalle impostazioni Soglia dimensione batch indicate nella casella di dialogo IBM DataStage Properties in Management Console dopo l'associazione delle tabelle) o quando termina un'operazione di aggiornamento o di mirroring.

Informazioni sul flusso di lavoro File flat

Per il metodo di connessione File flat, il package è costituito da una sequenza di job, un job parallelo e due routine di utilità utilizzate dalla sequenza di job. La sequenza del job ha tre parametri. I valori per questi parametri sono specificati dalla Console di gestione quando genera il file di definizione IBM DataStage .dsx :
SPFolderPath
Il nome percorso completo della cartella in cui IBM DataStage ricerca i file di testo di origine creati da CDC Replication Engine for InfoSphere® DataStage.
SPFileNamePattern
Il modello di nome file utilizzato per identificare i file flat di origine creati da CDC Replication Engine for InfoSphere DataStage.
SPEndFileNamePattern
il nome file creato daIBM DataStage quando le sottoscrizioni arrestano il mirroring. Il nome di questo file segnala l'arresto di IBM DataStage . Se non si desidera che IBM DataStage venga arrestato, è possibile modificare il nome del file con questo parametro.

Per il metodo di connessione File flat, Replica CDC crea unità di lavoro che verranno raccolte ed elaborate da IBM DataStage. Il processo inizia quando inizia un'operazione di aggiornamento o mirroring e CDC Replication Engine for InfoSphere DataStage inizia a scrivere le informazioni di modifica nei file di dati temporanei solo per le tabelle nella sottoscrizione per cui sono presenti modifiche. Una volta soddisfatti i limiti della soglia della dimensione batch (o il limite della soglia del limite temporale, a seconda di quale delle due condizioni si verifica per primo), CDC Replication Engine for InfoSphere DataStage consente di rendere più rigidi i file di dati temporanei a livello di sottoscrizione con data / ora nei nomi file e di salvarli nell'ubicazione del file flat. Non viene prodotto alcun file di dati per le tabelle che non hanno modifiche. Una volta terminata l'operazione di aggiornamento o di mirroring, i file <TABLE_NAME>.STOPPED , che fungono da indicatori di stato, vengono prodotti per ogni tabella nella sottoscrizione, quindi il segnalibro viene aggiornato. Questi file sono pronti per essere utilizzati dal job IBM DataStage .

Attenzione: se si interrompa un'operazione di aggiornamento o di mirroring utilizzando il comando dmterminate , i file di dati temporanei non possono essere sottoposti a protezione a livello di sottoscrizione, non viene generato alcun file di indicatore di stato <TABLE_NAME>.STOPPED per le tabelle nella sottoscrizione e il segnalibro non viene aggiornato. È necessario riavviare il processo di aggiornamento o di mirroring. Tenere presente che il riavvio utilizza l'ultimo segnalibro salvato e avvia una nuova serie di file di dati temporanei da rinforzare quando vengono soddisfatte le soglie. Per assicurarsi che i file di dati temporanei siano sottoposti a protezione avanzata e che i file dell'indicatore di stato <TABLE_NAME>.STOPPED vengano creati, utilizzare un arresto Normale o Fine pianificata in Console di gestioneoppure è possibile immettere un comando dmshutdown con gli indicatori appropriati per il livello di severità. Se si utilizzano le opzioni di arresto Interrompi o Immediato , CDC Replication Engine for InfoSphere DataStage potrebbe scegliere di non rendere più rigidi i file di dati temporanei per facilitare queste richieste di arresto più rapide.
Il seguente diagramma illustra il flusso di lavoro di base di un job IBM DataStage che utilizza il file di definizione .dsx generato in Console di gestione per l'uso nel metodo di connessione File flat. Si noti che questo rappresenta il flusso di lavoro di base per il metodo di replica del file flat. Dopo aver generato il file di definizione .dsx e averlo importato in IBM DataStage Designer, è possibile definire ulteriori fasi come necessario e configurare la logica di business in IBM DataStage Designer per soddisfare i requisiti di trasformazione dei dati.
Descrizione del flusso di dati tra la replica CDC e IBM DataStage nel metodo di replica del file flat.
  1. Sul computer su cui è installato il database di origine, il servizio CDC Replication Engine for InfoSphere DataStage per il database legge il log delle transazioni per catturare le modifiche.
  2. Il server CDC Replication Engine for InfoSphere DataStage trasferisce i dati di modifica in base alla definizione di replica.
  3. Il server CDC Replication Engine for InfoSphere DataStage durezza i file e li deposita nell'ubicazione del file flat.
  4. Il lettore di file sequenziali IBM DataStage richiama i file di testo come parte di un job IBM DataStage e li trasforma.
  5. Il lettore di file sequenziali IBM DataStage deposita i file flat trasformati nella nuova ubicazione del file flat.
Nota: rappresenta il flusso di lavoro di base per il metodo di replica del file flat. Dopo aver generato il file di definizione .dsx e averlo importato in IBM DataStage Designer, è possibile definire ulteriori fasi come necessario e configurare la logica di business in IBM DataStage Designer per soddisfare i requisiti di trasformazione dei dati.