Veduta aerea di autostrade e rampe di accesso che si intrecciano con le auto in strada e gli alberi tra le carreggiate

IBM espande il supporto OpenLineage con Native Producers in watsonx.data e watsonx.data integration

Questo annuncio segna un passo significativo nell'approccio di IBM al lineage interoperabile: i prodotti IBM si stanno integrando tra loro utilizzando uno standard open-source anziché un modello proprietario di metadati.

A novembre, IBM ha annunciato un ampliamento del supporto OpenLineage all'interno di watsonx.data intelligence, permettendo ai clienti di importare e consumare eventi di lineage nel formato OpenLineage. Questa funzionalità ha esteso la copertura del lineage tra i sistemi esterni.

Con questa versione, IBM completa il ciclo: watsonx.data e watsonx.data integration generano eventi OpenLineage al momento dell'esecuzione, e watsonx.data intelligence li consuma.

Il risultato è un modello produttore-consumatore basato su una specifica definita dalla comunità. Invece di accoppiare strettamente i prodotti tramite formati interni di lineage, IBM li ha allineati tramite OpenLineage, uno standard condiviso progettato per l'interoperabilità tra fornitori e strumenti.

Quella scelta è importante.

Lineage del tempo di esecuzione su workload strutturati e non strutturati

Le architetture dati moderne raramente risiedono all'interno di un unico sistema: le query strutturate vengono eseguite in un unico motore; le pipeline di ingestione processano contenuti non strutturati altrove; gli strumenti di orchestrazione coordinano il workflow; e le piattaforme di governance assemblano visioni di lineage a posteriori.

Il lineage in fase di progettazione e in fase di esecuzione ha scopi complementari: il lineage di progettazione fornisce una visione strutturale delle pipeline e delle dipendenze, mentre il lineage in fase di esecuzione aggiunge contesto operativo, acquisendo ciò che è stato effettivamente eseguito, quali set di dati sono stati utilizzati e quali output sono stati prodotti durante un'esecuzione specifica.

Watsonx.data ora emette eventi OpenLineage dai suoi motori di query ed elaborazione, acquisendo il lineage del tempo di esecuzione per i workload strutturati. Watsonx.data integration emette eventi OpenLineage dalle pipeline di inserimento e trasformazione, comprese quelle che elaborano dati non strutturati.

Man mano che le organizzazioni combinano analytics, pipeline di ingestione e architetture lakehouse, la visibilità deve estendersi sia ai dati strutturati che ai dati non strutturati. L'emissione di un lineage standardizzato in tempo di esecuzione aggiunge profondità operativa al quadro più ampio del lineage.

Perché OpenLineage

Gli ambienti dati moderni sono multi-engine e multi-cloud. Quando i metadati di lineage sono definiti in formati proprietari, l'integrazione diventa rigida e difficile da estendere. Ogni connessione richiede una mappatura personalizzata e ogni espansione aumenta la complessità.

OpenLineage offre un modello diverso: un vocabolario condiviso per descrivere lavori, esecuzioni e set di dati. Il grafico di lineage attraversa i sistemi perché condividono un vocabolario comune, non perché condividono un fornitore.

Emettendo lineage nel formato OpenLineage, watsonx.data e watsonx.data integration rendono quei metadati portatili. Le piattaforme di governance e observability a valle che supportano lo standard possono acquisirlo direttamente, senza adattatori proprietari.

I clienti si aspettano sempre più questo atteggiamento. Desiderano la garanzia che i metadati che descrivono i loro flussi di dati rimangano portatili, durevoli e indipendenti dal fornitore. L'interoperabilità non può essere fornita da un'unica piattaforma. Emerge da un impegno condiviso in tutto l'ecosistema.

Favorire l'innovazione attraverso l'apertura

Gli standard aperti fanno più che ridurre il lock-in; creano le condizioni per l'innovazione.

Separando la specifica del lignaggio dagli strumenti che la implementano, l'ecosistema conserva la flessibilità. I fornitori possono innovare nella visualizzazione, nella governance e nell'automazione affidandosi a una base comune per lo scambio di metadati.

Quando il lineage è standardizzato:

  • Le integrazioni diventano più semplici
  • Gli strumenti dell'ecosistema interagiscono in modo più prevedibile
  • I nuovi partecipanti possono adottare lo standard senza effettuare il reverse engineering dei formati proprietari
  • I clienti mantengono la flessibilità architettonica in base all'evoluzione degli ambienti

Con watsonx.data e watsonx.data integration ora operativa come produttori OpenLineage, e watsonx.data intelligence che assorbe quegli eventi, IBM rafforza il proprio ruolo nell'ecosistema OpenLineage rafforzando al contempo il suo impegno per l'interoperabilità aperta.

Contributo alla specifica OpenLineage

Man mano che IBM ampliava il supporto OpenLineage tra watsonx.data e watsonx.data integration, alcuni scenari avanzati di lineage richiedevano una copertura dei metadati aggiuntiva e dettagli più dettagliati rispetto alle versioni precedenti della specifica.

IBM ha apportato miglioramenti alla specifica OpenLineage per acquisire metadati più ricchi e un lineage più granulare in questi scenari. Questi contributi contribuiscono a migliorare la completezza e la qualità degli eventi di lineage, non solo per i prodotti IBM, ma anche per altri produttori dell'ecosistema.

Estendendo le specifiche in collaborazione con la comunità OpenLineage, IBM supporta la continua evoluzione dello standard e incoraggia livelli più elevati di fedeltà di lineage tra le implementazioni.

Scopri watsonx.data intelligence

Maggiori informazioni su watsonx.data

Esplora watsonx.data integration

Jakub Moravec

Product Manager, IBM watsonx.data intelligence

Ray Beharry

Senior Product Marketing Manager - Data Intelligence

IBM