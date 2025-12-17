Künstliche Intelligenz IT-Automatisierung

Datenpipelines als Code erstellen: Einführung des IBM watsonx.data integration Python SDK

Die allgemeine Verfügbarkeit des watsonx.data integration Python SDK markiert einen wichtigen Meilenstein in der Vision von IBM für eine KI-fähige Datenbasis. Sie ermöglicht es Datenteams, die Entwicklung von Pipelines zu skalieren und Agenten mit hochwertigen Daten zu versorgen.

Veröffentlicht 17. Dezember 2025
Das watsonx.data integration Python SDK führt ein Code-first-Modell ein, das auf vorhandenen Python-Kenntnissen aufbaut und Agenten eine konsistente Schnittstelle für Codegenerierung und Validierung bietet.. Während sich Datenteams auf agentische KI vorbereiten, benötigt die Pipeline-Entwicklung eine weitere Option, die sich für die Generierung durch LLMs eignet.

Das Python SDK ermöglicht diesen Wandel, indem es Teams erlaubt, Batch- und Echtzeit-Streaming-Pipelines als Code zu erstellen, zu versionieren, zu automatisieren und zu steuern – wodurch manueller Aufwand reduziert und skalierbare Datenintegration ermöglicht wird. Zusammen mit den fortlaufenden Investitionen in die agentische Pipeline-Erstellung (als Preview) unterstreicht dieses Version das Engagement von IBM, Kunden dort abzuholen, wo sie beim Aufbau KI-fähiger Datenbasen stehen.

Um den Anforderungen der agentischen KI gerecht zu werden, ist eine flexible Pipeline-Entwicklung erforderlich

Jede Unternehmen spürt den Druck der heutigen Datenlandschaft: Fachbereiche benötigen schneller verwertbare Erkenntnisse, Datenteams sind durch fragile und fragmentierte Systeme stark belastet, und Compliance-Verantwortliche sorgen sich um sensible Daten, die durch das Raster fallen könnten. Diese Herausforderungen verschärfen sich mit dem Aufkommen agentischer KI, bei der der Erfolg nicht nur von leistungsfähigen Modellen abhängt, sondern vor allem von der Qualität der zugrunde liegenden Datenbasis.

Im Kern dieses Fundaments steht die Datenintegration: die Pipelines, die Daten verbinden, transformieren und liefern, damit sie vertrauenswürdig sind und genutzt werden können. Wenn die Integration scheitert, versagt die KI. Laut The GenAI Divide des MIT scheitern 95 % der generativen KI-Piloten nicht an den Modellen, sondern daran, dass die Datengrundlage noch nicht bereit ist. Gleichzeitig sollen Datenteams immer mehr Pipelines über immer mehr Datentypen und Umgebungen hinweg erstellen und verwalten, obwohl 77 % der Unternehmen einen Mangel an den dafür erforderlichen Kompetenzen melden.

Diese wachsende Diskrepanz zwischen Bedarf und Kapazität macht deutlich, dass die Pipeline-Entwicklung flexibel sein muss und Nutzer dort abholen sollte, wo sie stehen. Traditionelles Authoring reicht nicht mehr aus. Geschäftsanwender möchten ihre Absicht in natürlicher Sprache ausdrücken. Technische Experten bevorzugen Code. Und viele Teams verlassen sich auf eine visuelle Arbeitsfläche für schnelles Design.

IBM investiert gezielt in diesen multimodalen Ansatz, damit watsonx.data Integration jeden Nutzer im jeweils bevorzugten Workflow unterstützen kann.

Ein Code-first-Ansatz für die Erstellung von Datenpipelines

Das neue IBM watsonx.data integration Python SDK ist ein wesentlicher Schritt in dieser Vision, da es Entwicklern und Data Engineers eine leistungsstarke, Code-first-basierte Möglichkeit bietet, Pipelines programmatisch zu erstellen, zu automatisieren und zu warten – mit weniger manuellem Aufwand und schnellerer Time-to-Value

Data Engineers und ETL-Entwickler schätzen seit jeher die Wahlfreiheit bei der Erstellung von Datenpipelines, sei es über visuelle No-Code-/Low-Code-Oberflächen oder durch direkte Codierung. Unabhängig vom Authoring-Stil können Pipelines einmal definiert, in Git versioniert und konsistent über CI/CD-Workflows bereitgestellt werden. Jeder Ansatz bedient unterschiedliche Bedürfnisse und Fähigkeiten innerhalb von Datenteams.

Mit dem Python SDK können Teams nun Daten-Integration-Pipelines mit einer der am weitesten verbreiteten Sprachen im Bereich Data Engineering erstellen und verwalten. Da Data Engineers mit dem Lesen, Schreiben und Überprüfen von Python Code vertraut sind, wenden sie diese Fähigkeiten auch bei IBM watsonx.data integration an. Pipelines als Code eröffnen neue Wege für die Code-Wiederverwendung. Durch die Bereitstellung dieses Python SDK können Datenteams aus mehreren Authoring-Optionen wählen, die ihren Fähigkeiten und Präferenzen entsprechen.

Mit dem SDK können Teams:

1. Pipelines als Code:

  • Pipeline-Logik in Python definieren und in verschiedenen Umgebungen wiederverwenden
  • Änderungen über Git und Pull Requests versionieren, prüfen und auditieren
  • Verbindungen erstellen sowie Pipelines vollständig per Code entwerfen, verwalten und ausführen
  • Tests, Promotionen und Bereitstellungen mit CI/CD automatisieren
  • Konsistente Governance- und Zugriffskontrollen programmatisch durchsetzen

2. Einheitliche Datenintegration mit einem einzigen SDK nutzen

  • Ein einziges SDK für Batch- (ETL/ELT/TETL) und Echtzeit-Streaming-Pipelines nutzen
  • Benutzerdefinierte Skripte und toolspezifische Pakete durch ein einheitliches Programmiermodell ablösen
  • Auf weitere Integrationsstile ausweiten, einschließlich unstrukturierter Daten, Replikation  und mehr
  • Plattformadministration durch programmatische Steuerung von Nutzern, Projekten und Sicherheitseinstellungen optimieren

3. Eine bidirektionale Verbindung zwischen visuellem Design und Code:

  • Pipelines auf einer visuellen Arbeitsfläche prototypisch erstellen oder direkt in Python generieren
  • Nahtlos zwischen Benutzeroberfläche und Code mit wechseln – mit sofortigem Export und Import über den Python-SDK-Codegenerator
  • Onboarding beschleunigen und zugleich Automatisierung sowie CI/CD in großem Maßstab ermöglichen
  • Visuelle und programmatische Workflows eng miteinander verbinden

Zusammen legen diese Funktionen den Grundstein für die nächste Ära der Datenintegration, in der sich Pipelines wie Software verhalten, Automatisierung zum Standard wird und künftige KI-Agenten Datenflüsse im großen Maßstab analysieren, optimieren und sogar warten können.

Muster aus der Praxis: Wie Teams das Python SDK einsetzen, um Integrationsarbeit zu skalieren

Das SDK führt zwar einen programmatischen Ansatz für die Pipeline-Entwicklung ein, aber seine Wirkung zeigt sich am deutlichsten darin, wie Teams ihn täglich anwenden. Early Adopters orientieren sich an einer Reihe gemeinsamer Muster, die ihnen helfen, schneller zu skalieren, Doppelarbeit zu vermeiden und einheitlicher zu arbeiten.

Anwendungsfall 1: Eine einzelne Pipeline in eine wiederverwendbare Vorlage überführen

Ein gängiger Ausgangspunkt ist eine einfache, über eine Benutzeroberfläche erstellte Pipeline – etwa das Einlesen einer CSV-Datei, die Anwendung einer Transformation und das Schreiben der Ergebnisse in Cloud-Speicher. Mit wachsendem Bedarf möchten andere Teams dieselbe Logik mit unterschiedlichen Eingaben nutzen.

Mit dem Python SDK kann diese ursprüngliche Pipeline mit unserer neuen Python-Code-Generierungsfunktion in Python exportiert und in eine wiederverwendbare, parametrisierte Vorlage umgewandelt werden. Mit den neuen SDK-Funktionen „Parameter Sets“ und „Value Sets“ können Sie diese Konfigurationen aus der Benutzeroberfläche in die Versionskontrolle auslagern. Anstatt Werte manuell in Formulare einzugeben, können Sie Konfigurationen für Dev-, Test- und Prod-Umgebungen programmatisch in einem Schritt definieren und einspielen. Varianten entstehen durch die Anpassung einiger weniger Codezeilen anstatt durch die komplette Neugestaltung der Pipeline. Dies führt zu einer schnelleren Bereitstellung, weniger Fehlern und einem skalierbaren Muster, das Teams standardisieren können.

Anwendungsfall 2: Pipelines im großen Maßstab für die Infrastrukturmigration anpassen

Eine weitere häufige Herausforderung entsteht, wenn Pipelines mit vielen betroffenen Datenquellen oder Umgebungen aktualisiert werden müssen, etwa im Zuge einer Datenbank- oder Datenspeicher-Migration. Anstatt Pipelines in der Benutzeroberfläche zu aktualisieren, können Teams das SDK nutzen, um Flows programmatisch zu duplizieren, Connectors und Verbindungskonfigurationen zu aktualisieren, Parameter anzupassen und Updates innerhalb von Sekunden zu veröffentlichen. Dies ist besonders wertvoll in Umgebungen, in denen Pipelines schnell weiterentwickelt werden müssen, wenn sich Datenquellen ändern.

Das SDK kann sich sicher mit hybriden Umgebungen verbinden – unabhängig davon, ob diese in Public-Cloud-/SaaS-Umgebungen oder in selbstverwalteten Softwareumgebungen betrieben werden. Anstelle dutzender manueller Anpassungen lässt sich eine einzelne Codeänderung überall konsistent anwenden.

Diese Muster weisen auf einen umfassenderen Wandel hin: von der manuellen Konfiguration hin zu einer wiederholbaren, softwaregesteuerten Entwicklung. Durch die Behandlung von Pipelines als Code können Unternehmen die Datenintegration zuverlässiger skalieren und eine solide Datengrundlage schaffen, die für die agentische KI erforderlich ist.

Alles an einem Ort

Das watsonx.data integration Python SDK ist ein zentraler Meilenstein in der Vision von IBM für eine KI-fähige Datengrundlage. Durch die Einführung programmatischer Automatisierung in watsonx.data integration können Teams Pipelines mit der gleichen Sorgfalt und Skalierbarkeit wie bei der Softwareentwicklung erstellen und pflegen – und gleichzeitig Nutzer in ihrem bevorzugten Arbeitsmodus abholen, um die Lücke bei den Data-Engineering-Kompetenzen zu schließen.

Als Teil des breiteren watsonx.data-Portfolios arbeitet watsonx.data integration nahtlos mit watsonx.data intelligence zusammen, um eine zuverlässige, durchgängige Datengrundlage zu schaffen. Zusammen ermöglichen diese Angebote Unternehmen, Daten in hybriden Umgebungen zu verschieben, zu verstehen, zu verwalten und zu aktivieren und so KI und agentische Workflows in großem Maßstab zu unterstützen.

Caroline Garay

Product Marketing Manager

IBM Data Integration

John Wen

Product Manager

IBM Data Integration

Jason Britto

Senior Software Engineer

IBM Data Integration

Mitch Barnett

Software Development Manager

IBM Data Integration