Was ist agentisches KI-Data-Engineering?

By Alice Gomstyn , Alexandra Jonker

Agentisches KI-Data-Engineering, definiert

Agentisches KI-Data-Engineering ist die Bereitstellung von KI-Agenten zum Zweck der Verbesserung und Beschleunigung der Erstellung und der Wartung von Systemen, die Daten aggregieren und analysieren.

Wie der Name schon andeutet, ist agentisches KI-Data-Engineering die Verschmelzung von Data Engineering und agentischer KI. Bei ersterem geht es um die Entwicklung und Pflege von Dateninfrastrukturen und Datenpipelines, die in die Datenverwaltung integriert sind.

Letzteres bezieht sich auf künstliche Intelligenzsysteme, die spezifische Ziele mit begrenzter menschlicher Aufsicht erreichen können. In einem Multi-Agenten-System-Framework werden Unteraufgaben, die von mehreren KI-Agenten ausgeführt werden – Modelle für maschinelles Lernen, die menschliche Entscheidungen nachahmen – durch KI-Orchestrierung koordiniert.

Beim Data Engineering können KI-Agenten mehrstufige Problemlösungsprozesse durchführen, die zentral sind, um sicherzustellen, dass qualitativ hochwertige Daten für Anwendungsfälle im Unternehmen verfügbar sind. Zu diesen Prozessen gehören die Gestaltung von Datenpipelines und die Durchführung kritischer Datenverarbeitungsaufgaben, wie die Durchführung von Datenkonvertierungen und das Erkennen von Datenproblemen.

Agentisches KI-Data-Engineering, auch bekannt als agentisches Data Engineering, kann die Arbeitsbelastung von Data-Engineering-Teams erheblich reduzieren und gleichzeitig die Leistung von Datenpipelines optimieren. Darüber hinaus kann agentisches KI-Data-Engineering Geschäftsanwender in die Lage versetzen, auf Unternehmensdaten zuzugreifen und Erkenntnisse daraus abzuleiten, selbst wenn sie über keine technischen Kenntnisse verfügen.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Was macht agentische KI für Data Engineering wichtig?

Um zu verstehen, warum agentische KI-Systeme für Data Engineering eingesetzt werden, ist es hilfreich, die Natur des modernen Data Engineerings genauer zu betrachten.

Data Engineering ist kritisch für Unternehmen, die Wert aus zunehmend umfangreichen und komplexen Ökosystemen freischalten möchten. Dateningenieure helfen bei der Strukturierung und Sicherstellung der Funktionalität der Workflows, die Rohdaten in Ergebnisse umwandeln, welche einen echten Geschäftswert bieten. Bei erfolgreicher Durchführung führt Data Engineering zur Bereitstellung sauberer, genauer und zeitnaher Datensätze, die analysiert werden können, um umsetzbare Erkenntnisse zu gewinnen, oder die zur Förderung von KI-Initiativen verwendet werden können.

Während Unternehmen ihre Abhängigkeit von datengestützter Entscheidungsfindung beschleunigen, einschließlich zeitkritischer Entscheidungsfindung auf Basis von Echtzeitdaten, war der Bedarf an zuverlässigen Datenpipelines nie größer. Doch die Herausforderungen bei der Wartung solcher Pipelines waren auch nie größer – Dateningenieure sind nun mit der Überwachung immer komplexerer Datenstacks und Orchestrierungsprozesse beauftragt.

Das bedeutet unweigerlich, dass Datenteams einen Großteil ihrer Zeit mit der „Brandbekämpfung“ verbringen. Mit anderen Worten, sie konzentrieren sich auf Wartung und Fehlerbehebung, um Probleme in der Datenpipeline und, schlimmer noch, Ausfälle der Datenpipeline zu beheben.

„Wenn Data-Engineering-Teams Pipelines erstellen, verlassen sich die Ingenieure oft auf eine Mischung aus geplanten Jobs, gespeicherten Prozeduren, komplizierten Skripten sowie Transformation. Und all diese Elemente arbeiten zusammen, um den Datenfluss aufrechtzuerhalten. Manchmal kann eine einzelne Schemaänderung oder eine Spaltenumbenennung auf einem Quellsystem stundenlanges Debugging und erneutes Testen auslösen“, erklärte Justin Yan, Senior Product Manager bei IBM Data & AI, in einem IBM Technology Video.

Zum Glück können heute KI-Agenten eingesetzt werden, um einen Großteil dieser Arbeit zu übernehmen – und um zu verhindern, dass Probleme überhaupt erst entstehen. Intelligente Agenten können „Probleme bei der Datenintegration lösen, indem sie bei der Planung, Überwachung und Anpassung an Herausforderungen helfen, sodass Daten dort ankommen, wo sie benötigt werden, mit der Qualität und Aktualität, die Ihre Workloads erfordern“, sagte Yan.

Schlüsseltechnologies, die im agentischen KI-Data-Engineering eingesetzt werden

Eine Kombination von Technologien unterstützt die Bereitstellung von agentischer KI für Data Engineering.

KI-Agenten

Ein KI-Agent ist ein System, das Aufgaben autonom ausführt, indem es Workflows mit verfügbaren Tools entwirft – einschließlich Daten-Workflows. Agenten verwenden die Techniken der Verarbeitung natürlicher Sprache großer Sprachmodelle, um Benutzereingaben zu verstehen und Schritt für Schritt darauf zu reagieren und zu bestimmen, wann externe Tools herangezogen werden müssen.

Verarbeitung natürlicher Sprache

Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ist ein Teilgebiet der Informatik und KI, das maschinelles Lernen nutzt, damit Computer die menschliche Sprache verstehen und mit ihr kommunizieren können. NLP spielt eine zunehmend wichtige Rolle bei Unternehmenslösungen, die zur Optimierung und Automatisierung von Geschäftsprozessen beitragen.

Maschinelles Lernen

Maschinelles Lernen ist der Teilbereich der KI, der sich auf Algorithmen konzentriert, die Muster von Trainingsdaten „lernen“ können. Solche Algorithmen nutzen diese Mustererkennung, um genaue Schlüsse über neue Daten zu ziehen. Maschinelles Lernen bildet das Rückgrat der meisten modernen KI-Systeme, einschließlich großer Sprachmodelle und anderer generativer KI-Tools.

Große Sprachmodelle

Große Sprachmodelle (LLMs) sind eine Art von Deep-Learning-Modell, die in der Lage sind, natürliche Sprache und andere Inhalte zu verstehen und zu generieren, um eine Vielzahl von Aufgaben zu erfüllen. Ihre Funktionen beruhen auf Verarbeitung natürlicher Sprache und dem Training auf riesigen Datenmengen, die ihnen helfen, unstrukturierte menschliche Sprache in großem Maßstab zu verarbeiten.

Wie funktioniert agentisches KI-Data-Engineering?

Obwohl der Einsatz autonomer Agenten für Data Engineering je nach Datensystem und Ingenieurteam variieren kann, finden Sie hier einen Überblick darüber, wie KI-gestützte Systeme verschiedene Data-Engineering-Prozesse und -Aufgaben über einen Datenlebenszyklus hinweg bewältigen können.

Erstellung von Datenpipelines

Agentische KI-Datentechnik ermöglicht es Unternehmen, die Erstellung von Datenpipelines zu automatisieren. Nutzer können ihre Absicht bezüglich der Lieferung einer Pipeline in natürlicher Sprache angeben, ohne die notwendigen Schritte für die gewünschten Ergebnisse festzulegen – es liegt am KI-Agenten zu bestimmen, wie die Pipeline funktionieren wird. Das wird als deklaratives Pipeline-Authoring bezeichnet und ist eine Alternative zu dem eher praxisorientierten Ansatz, jeden Pipeline-Schritt zu programmieren.

Nachdem ein Nutzer eine Anfrage in natürlicher Sprache absendet, analysieren LLMs die Anfrage und verstehen die Absicht des Benutzers. Dann entwirft und implementiert ein KI-Agent oft einen umfassenden Prozess, der Folgendes beinhaltet:

Verbindung und Aufnahme aus Datenquellen
Anwendung von Datenkonvertierungen
Neue Daten auf ein Zielsystem portieren

Benutzer mit mehr technischem Wissen können die Struktur ihrer angeforderten Datenpipeline angeben. Sie können dies tun, indem sie ein Python-Softwareentwicklungskit (SDK) verwenden, das es LLMs ermöglicht, Python-Skripte auf der Grundlage von Benutzeranfragen für verschiedene datenbezogene Aufgaben zu schreiben und auszuführen, wie z. B. die Auswahl einer Datenquelle oder die Datenbereinigung.

Ausführung von Aufträgen

Sobald die Pipeline entworfen ist, kann eine agentische KI Workloads ausführen. KI-Agenten nutzen Tool-Calling, um mit externen Tools, Anwendungsprogrammierschnittstellen (APIs) oder Systemen zu interagieren, die für die Verbindung zu Datenquellen, das Verständnis von Metadaten und die Durchführung von Transformationen erforderlich sind.

Agenten wählen außerdem den optimalen Ausführungspfad für Daten-Workflows in hybriden Umgebungen aus. Dazu gehört die dynamische Auswahl der besten Integrationsansätze (Echtzeit-Streaming, Batch-ETL/ELT oder Replikation) und Laufzeitumgebungen (lokal, in einer Cloud oder über Pushdown- und Remote-Engines) für jeden Teil des Jobs.

Verstärkendes Lernen kann Agenten dabei helfen, Pipeline-Pläne im Laufe der Zeit zu verbessern, indem korrekt konfigurierte und abgeschlossene Pipeline-Ausführungen belohnt werden.

Kontinuierliche Überwachung

Ein agentisches System kann Observability ermöglichen, indem es Pipelines kontinuierlich überwacht. Agenten können Schema-Drift, Datenanomalien und Probleme mit der Datenqualität erkennen. Sie können auch die Ursachenanalyse von Pipeline-Problemen unterstützen, Problembehebungsmaßnahmen empfehlen und diese ausführen.

Die autonome Ausführung von Pipeline-Fixes kann insbesondere zu ansonsten ungünstigen Zeitpunkten sehr hilfreich sein. „Was passiert, wenn ein nächtlicher Job fehlschlägt? Anstatt jemanden zu benachrichtigen, kann der Agent die Ausführungen selbst starten, die Leistung erhöhen und die Ablauflogik automatisch anpassen“, erklärte IBM Produktmanager John Wen in einem IBM Technologies Video.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Zur Episode wechseln

Welche Nutzen bietet agentisches KI-Data-Engineering?

Agentisches KI-Data-Engineering bietet eine Vielzahl von Vorteilen für Unternehmen, ihre Datenteams und ihre Geschäftsanwender. Dazu gehören:

Umgang mit Komplexität in Datenumgebungen

Eine grundlegende Herausforderung für Dateningenieure heute ist es, Daten über komplexe und isolierte Umgebungen hinweg zu steuern: verschiedene Clouds, Data Warehouses, Data Lakes, lokale Server und mehr. Einige Daten sind in Tabellenkalkulationen und SQL Databases organisiert, aber ein Großteil davon liegt unstrukturiert in Dokumenten, E-Mails, Transkripten und Bildern vor. In einem Unternehmenssystem können KI-Agenten sich mit einer Vielzahl von Datenquellen verbinden und verschiedene Datenformate integrieren, wodurch einheitliche Datenplattformen entstehen, die reichhaltigere Analysen und genauere Prognosen ermöglichen.

Verbesserung der Datenqualität

KI-Agenten können Datenprofilierung, Datenvalidierung, Regelerstellung, Überwachung und Problembehebung automatisieren „Die Agenten könnten Spaltenänderungen oder Typenkonflikte frühzeitig erkennen und Fixes vorschlagen, bevor Aufträge fehlschlagen. Kontinuierliche Überprüfungen auf Anomalien, automatische Datenauffüllungen und Umleitungen um ausgefallene Datenquellen herum tragen dazu bei, dass die Daten für nachgelagerte Anwendungen in KI-Systemen vertrauenswürdig bleiben“, erklärte Yan.

Effizienzsteigerung

KI-Agenten können verschiedene Ausführungsstrategien bewerten und potenzielle Engpässe und Komplikationen identifizieren, wie zum Beispiel versteckte Abhängigkeiten in verschiedenen Anwendungs-Stacks. Indem sie diese Informationen bei der Planung von Pipelines berücksichtigen, können sie Pläne erstellen, die den Ressourcenverbrauch und die Betriebszeit minimieren und dennoch die Datenziele erreichen.

Darüber hinaus können agentische Systeme bei Veränderungen von Infrastruktur oder Schemata bestehende Pipelines anpassen und wiederverwenden, was Unternehmen hilft, veraltete Pipelines und technische Schulden zu vermeiden.

Unterstützung der Einhaltung von Vorschriften

Das Pipeline-Design und die kontinuierliche Überwachung durch KI-Agenten können sicherstellen, dass sensible Daten dem Datenschutz entsprechen, wie dem US Health Insurance Portability and Accountability Act (HIPAA) und der Datenschutzgrundverordnung (DSGVO) der Europäischen Union. Darüber hinaus kann die Herkunftsverfolgung durch KI-Agenten Transparenz und Nachvollziehbarkeit unterstützen.

Bereitstellung von Self-Service für Geschäftsanwender

Geschäftsanwender mit minimalem oder keinem technischen Know-how müssen sich nicht mehr ausschließlich auf Datenprofis verlassen, um ihre Datenbedürfnisse zu erfüllen. Sie können die Erstellung oder Bereitstellung von Datensätzen von KI-Agenten anfordern, anstatt auf die Unterstützung eines Datenexperten zu warten, wodurch sie wichtige Erkenntnisse schneller gewinnen können.

Skalierbares Wachstum ermöglichen

KI-Agenten können voll funktionsfähige Datenpipelines in einem Bruchteil der Zeit entwerfen, bauen und ausführen, die Datenteams für die manuelle Programmierung solcher Pipelines benötigen würden. KI-Agenten können diese Pipelines auch anpassungsfähig und „selbstheilend“ machen – das heißt, sie können Probleme überwachen und beheben, bevor sie nachgelagerte Prozesse stören. Insgesamt bedeutet dies, dass Unternehmen beruhigt weiterhin Pipelines hinzufügen können, wenn ihre Datenbestände und Datenbedürfnisse wachsen und sich weiterentwickeln.

Erhöhung der Bandbreite für Dateningenieure

Durch die Auslagerung von Aufgaben wie Pipeline-Design, Wartung und Fehlerbehebung an agentische KI-Systeme können Dateningenieure ihre Produktivität steigern und mehr Kapazitäten gewinnen, um sich mit wertvollen Aufgaben und sinnvoller Arbeit zu beschäftigen, wie zum Beispiel dem Aufbau und der Erprobung neuer Funktionen.

Überlegungen zum agentischen KI-Data-Engineering

Wie bei anderen Anwendungsfällen von KI sollten Unternehmen bei der Implementierung von agentischer KI für das Data Engineering verschiedene potenzielle Herausforderungen berücksichtigen.

Die Schwierigkeit, KI-Agenten in veraltete Systeme zu integrieren, die nicht von Natur aus mit KI-Technologie kompatibel sind.
Das Risiko, dass Agenten unerwartete Aufgaben autonom ausführen– wie die Verarbeitung riesiger Datenmengen während der Geschäftszeiten –, die Workflows stören.
Das Risiko, dass Agenten zu Datenschutzverletzungen beitragen, sei es, weil sie durch einen Cyberangriff kompromittiert werden oder einfach aufgrund unzuverlässiger KI-Ausgabe.

Softwarelösungen und -plattformen können Unternehmen dabei helfen, die Herausforderungen bei der Integration von agentischer KI, einschließlich KI-gestützter Systeme für Data Engineering, in alltägliche Workflows zu adressieren.

Robuste KI-Governance-Tools ermöglichen die Einbetten von Leitlinien zur Begrenzung unbeabsichtigten Agentenverhaltens und die Bereitstellung spezialisierter Metriken zur Bewertung der Agentenleistung. KI-Orchestrierungslösungen können dazu beitragen, die Lücken zwischen fortschrittlichen KI-Technologien und älteren Unternehmenssystemen ohne langwierige Umstrukturierungen zu schließen.

Autoren

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

3D-Rendering einer Spirale aus mehreren nebeneinander angeordneten Symbolen, darunter eine Kamera, ein Lautstärkeregler und ein Klemmbrett

Lesen Sie den Leitfaden für Data Leader, um zu erfahren, wie Sie die Daten Ihres Unternehmens KI-fähig machen können.

Ressourcen

3D-Rendering mehrerer nebeneinander angeordneter Symbole, darunter ein Mikrofon und eine Kamera

KI-Agenten arbeiten mit Daten – sind Ihre bereit dafür?

Ihre Daten sind Ihr Wettbewerbsvorteil. Erfahren Sie in diesem kurzen Webinar, wie Sie die KI sicher nutzen und einen messbaren ROI erzielen können.

Infos zu Datenverwaltung

Techsplainers von IBM erklärt die Grundlagen von Daten für KI, von Schlüsselkonzepten bis hin zu realen Anwendungsfällen. Klare, kurze Folgen helfen Ihnen, die Grundlagen schnell zu erlernen.

3D-Rendering von mehreren aneinandergereihten Symbolen wie einem Lautstärkeregler und einem Klemmbrett

Daten zur Skalierung Ihrer KI vereinheitlichen und zugänglich machen

Erfahren Sie, warum der Weg zu KI-fähigen Daten oft mit dem effektiven Zugriff auf strukturierte und unstrukturierte Daten beginnt und welche Herausforderungen Datenverantwortlichen im Wege stehen können.

Juristischer Aufwand wird zu strategischer Erkenntnis

Erfahren Sie, wie ein KI-gestützter Rechtsagent die Entscheidungsfindung beschleunigt, manuelle Arbeit reduziert und die Compliance verbessert.

Zwei Männer, die in einem Podcast miteinander sprechen

AI Akademy: Aufbau einer Datenstrategie für Unternehmens-KI

In dieser Folge erklärt Cathy Reese, dass Unternehmen heute eine Datenstrategie benötigen, die für fortschrittliche KI bereit ist, was bedeutet, dass sie ihre qualitativ hochwertigsten Datenressourcen nutzen müssen.

3D-Darstellung mehrerer nebeneinander angeordneter Symbole, wie z. B. einer Kamera und Papierfliegern

Das hybride, offene Data Lakehouse für KI

Vereinfachen Sie den Datenzugriff und automatisieren Sie die Data Governance. Entdecken Sie die Vorteile einer Data-Lakehouse-Strategie für Ihre Datenarchitektur, einschließlich der Kostenoptimierung Ihrer Workloads und der Skalierung von KI und Analysen, mit all Ihren Daten, überall.

Cost of a Data Breach Report 2025

Die Kosten für Datenschutzverletzungen haben einen neuen Höchststand erreicht. Erhalten Sie aktuelle Erkenntnisse hinsichtlich Cybersicherheit und deren finanziellen Auswirkungen auf Unternehmen.

3D-Rendering von zwei Reihen mit verschiedenen Symbolen, darunter eine Kamera, ein Lautstärkeregler und eine Zwischenablage

Der Leitfaden für Data Leader zu KI-fähigen Daten

Erfahren Sie, welche umsetzbaren Schritte Datenverantwortliche unternehmen können, um Datenherausforderungen zu überwinden, die Grundlage für eine vertrauenswürdige Datenbasis zu schaffen und die Daten ihres Unternehmens auf die KI vorzubereiten.

3D-Rendering mehrerer nebeneinander angeordneter Symbole, darunter eine Kamera, ein Lautstärkeregler und eine Zwischenablage

How the C-suite is turning information into impact

Erkunden Sie in diesem branchenübergreifenden Bericht für Datenverantwortliche die Erkenntnisse von 1.700 CDOs.

Weiterführende Lösungen

IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden

IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken

Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken

Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.