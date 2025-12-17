Intelligenza artificiale Automazione IT

Costruire pipeline di dati come codice: presentiamo l'SDK Python di IBM watsonx.data integration

La disponibilità generale dell'SDK Python di watsonx.data integration rappresenta una tappa fondamentale nella visione di IBM per una base dati pronta per l'AI, permettendo ai team di scalare lo sviluppo di pipeline e di potenziare gli agenti con dati di alta qualità. 

Pubblicato il 17 dicembre 2025
Due colleghi di fronte a un desktop con dati sullo schermo mentre parlano

L'SDK Python di watsonx.data integration introduce un modello code-first che si basa sulle competenze Python esistenti e offre agli agenti un'interfaccia coerente per la generazione e la validazione del codice. Mentre i team di dati si preparano per l'AI agentica, lo sviluppo della pipeline deve avere un'altra opzione che sia adatta alla generazione LLM.

L'SDK Python consente questo cambiamento permettendo ai team di costruire, creare versioni, automatizzare e governare pipeline di streaming batch e in tempo reale come codice, riducendo lo sforzo manuale e consentendo un'integrazione scalabile dei dati. Insieme al nostro continuo investimento nell'authoring di pipeline agentiche (in anteprima), questa release rafforza l'impegno di IBM nell'andare incontro ai clienti mentre costruiscono fondamenti di dati pronti per l'AI.

Per soddisfare le esigenze dell'agentic AI, è necessario uno sviluppo flessibile della pipeline

Ogni organizzazione percepisce la tensione del panorama odierno: i team aziendali hanno bisogno di insight più rapidi, i team di dati sono messi a dura prova da sistemi fragili e frammentati e i responsabili della conformità si preoccupano che trapelino dati sensibili. Queste pressioni si intensificano con l'ascesa dell'agentic AI, dove il successo dipende non solo da modelli potenti, ma dalla solidità della base di dati sottostante.

Al centro di questa base c'è l'integrazione dei dati: le pipeline che connettono, trasformano e forniscono i dati in modo che possano essere affidabili e utilizzati. Quando l'integrazione vacilla, l'AI fallisce. Secondo The GenAI Divide del MIT, il 95% dei progetti pilota di AI generativa fallisce non perché i modelli siano inadeguati, ma perché la base dati non è pronta. Allo stesso tempo, ai team di dati viene chiesto di creare e gestire più pipeline su più tipi di dati e ambienti, anche se il 77% delle organizzazioni segnala una carenza delle competenze richieste.

Questo crescente divario tra domanda e capacità evidenzia che lo sviluppo della pipeline deve essere flessibile, andando incontro agli utenti. La scrittura tradizionale non è più sufficiente. Gli utenti business vogliono esprimere le loro intenzioni attraverso il linguaggio naturale. I tecnici vogliono il codice. E molti team si affidano a una tela visiva per una progettazione rapida.

IBM sta investendo profondamente in questo approccio multimodale affinché watsonx.data integration possa supportare ogni utente nel proprio workflow preferito.

Un approccio code-first per creare pipeline di dati

Il nuovo SDK Python di IBM watsonx.data integration rappresenta un grande passo avanti in questa visione, poiché offre a sviluppatori e data engineer un modo efficace e basato sul codice per creare, automatizzare e mantenere pipeline in modo programmatico, riducendo lo sforzo manuale e accelerando il time to value.

I data engineer e gli sviluppatori ETL hanno da tempo apprezzato la scelta di come costruire pipeline dati, incluso l'uso di interfacce visive no-code o a uso limitato di codice o la programmazione diretta. Indipendentemente dallo stile di authoring, le pipeline possono essere definite una sola volta, create le versioni in Git e implementate in modo coerente tramite workflow CI/CD. Ciascun approccio risponde a diverse esigenze e a diversi set di competenze all'interno dei team di dati.

Ora, con l'SDK Python, i team possono creare e gestire pipeline di integrazione dei dati utilizzando uno dei linguaggi più adottati nell'ingegneria dei dati. Poiché i data engineer sono a proprio agio nel leggere, scrivere e rivedere codice Python, applicano queste stesse competenze a watsonx.data integration di IBM. Le pipeline come codice sbloccheranno nuove strade per il riutilizzo del codice. Rendendo disponibile questo SDK Python, i team di dati possono scegliere tra diverse opzioni di creazione in base alle loro competenze e preferenze.

Con l'SDK, i team possono:

1. Pipeline come codice:

  • Definire e riutilizzare la logica delle pipeline in Python attraverso ambienti.
  • Modifiche di versione, recensioni e audit tramite Git e richieste pull.
  • Creare connessioni e progettare, gestire ed eseguire pipeline interamente in codice.
  • Automatizzare test, promozioni e implementazioni con CI/CD.
  • Applicare controlli di accesso e governance coerenti a livello programmatico.

2. Accesso a un'esperienza di integrazione dei dati unificata con un unico SDK

  • Usare un singolo SDK sia per pipeline batch (ETL/ELT/TETL) che per streaming in tempo reale.
  • Eliminare gli script personalizzati e i pacchetti specifici degli strumenti con un modello di programmazione coerente.
  • Progettato per estendersi a ulteriori stili di integrazione, inclusi dati non strutturati, data replication e altro ancora.
  • Semplificare l'amministrazione della piattaforma con un controllo programmatico su utenti, progetti e impostazioni di sicurezza.

3. Un ponte bidirezionale tra design visivo e codice:

  • Creare prototipi delle pipeline nella tela visiva o crearle direttamente in Python.
  • Spostare senza problemi tra interfaccia utente e codice con l'esportazione e importazione istantanea tramite il nostro generatore di codice SDK Python.
  • Accelera l'onboarding abilitando l'automazione e il CI/CD su larga scala.
  • Mantenere i workflow visivi e programmatici strettamente connessi.

Insieme, queste funzionalità gettano le basi per la prossima era di Integrazione, dove le pipeline si comportano come software, l'automazione è lo standard e i futuri agenti AI potranno ragionare, ottimizzare e persino mantenere i flussi di dati su larga scala.

Modelli del mondo reale: come i team utilizzano Python SDK per scalare il lavoro di integrazione

Sebbene l'SDK introduca un approccio programmatico allo sviluppo delle pipeline, il suo impatto è più evidente nel modo in cui i team lo applicano quotidianamente. I primi utilizzatori stanno convergendo su una serie di modelli comuni che li aiutano a crescere più rapidamente, ridurre le duplicazioni e operare con maggiore coerenza.

Caso d'uso 1: trasformare una singola pipeline in un template riutilizzabile

Un punto di partenza comune è una pipeline semplice costruita dall'interfaccia utente. Ad esempio, inserire un CSV, applicare una trasformazione e scrivere i risultati sullo storage cloud. Con la crescita della domanda, gli altri team vogliono la stessa logica con input diversi.

Con l'SDK Python, la pipeline originale può essere esportata in Python utilizzando la nostra nuova caratteristiche di codice Python e trasformata in un modello parametrico riutilizzabile. Le nuove funzionalità dell'SDK Parameter Sets e Value Sets ti consentono di spostare queste configurazioni dall'interfaccia utente al controllo della versione. Invece di digitare manualmente i valori nei moduli, puoi definire e inserire configurazioni programmaticamente per ambienti Dev, Test e Prod in una sola volta. Le variazioni vengono create modificando alcune righe di codice, anziché riprogettare la pipeline da zero, con il risultato di una consegna più rapida, meno errori e un modello scalabile su cui i team possono standardizzarsi.

Caso d'uso 2: modifica delle pipeline su larga scala per la migrazione dell'infrastruttura

Un'altra sfida comune si presenta quando le pipeline devono essere aggiornate con molte fonti di dati o ambienti interessati, ad esempio durante una migrazione di database o storage dei dati. Invece di aggiornare le pipeline nell'interfaccia utente, i team possono utilizzare l'SDK per duplicare i flussi in modo programmatico, aggiornare i connettori e le configurazioni di connessione, regolare i parametri e pubblicare gli aggiornamenti in pochi secondi. Questo è particolarmente utile in ambienti in cui le pipeline devono evolversi rapidamente man mano che le fonti di dati cambiano.

L'SDK può connettersi in modo sicuro al tuo ambiente ibrido, sia su cloud pubblico/SaaS sia in ambienti software autogestiti. Invece di decine di modifiche manuali, può essere applicata una sola modifica di codice in modo coerente ovunque.

Questi modelli indicano un cambiamento più ampio: dalla configurazione manuale allo sviluppo ripetibile e guidato dal software. Trattando le pipeline come codice, le organizzazioni possono scalare l'integrazione dei dati in modo più affidabile e costruire la solida base di dati necessaria per l'agentic AI.

Mettere tutto insieme

L'SDK Python per watsonx.data integration è una pietra miliare fondamentale nella visione di IBM per una base dati pronta per l'AI. Portando l'automazione programmatica a watsonx.data integration, i team possono costruire e mantenere pipeline con lo stesso rigore e scalabilità dello sviluppo software, mentre si adattano alla modalità preferita degli utenti per colmare il divario nelle competenze di data engineering.

Come parte del più ampio portfolio watsonx.data, watsonx.data integration funziona perfettamente con watsonx.data intelligence per offrire una base dati affidabile ed end-to-end. Insieme, queste offerte permettono alle organizzazioni di trasferire, comprendere, governare e attivare i dati in ambienti ibridi, alimentando workflow di AI e agenti su larga scala.

Crea pipeline più velocemente con IBM watsonx.data integration

Inizia a usare questi script di esempio

Esplora la documentazione

Caroline Garay

Product Marketing Manager

IBM Data Integration

John Wen

Product Manager

IBM Data Integration

Jason Britto

Senior Software Engineer

IBM Data Integration

Mitch Barnett

Software Development Manager

IBM Data Integration