Wie der Name schon andeutet, ist agentisches KI-Data-Engineering die Verschmelzung von Data Engineering und agentischer KI. Bei ersterem geht es um die Entwicklung und Pflege von Dateninfrastrukturen und Datenpipelines, die in die Datenverwaltung integriert sind.
Letzteres bezieht sich auf künstliche Intelligenzsysteme, die spezifische Ziele mit begrenzter menschlicher Aufsicht erreichen können. In einem Multi-Agenten-System-Framework werden Unteraufgaben, die von mehreren KI-Agenten ausgeführt werden – Modelle für maschinelles Lernen, die menschliche Entscheidungen nachahmen – durch KI-Orchestrierung koordiniert.
Beim Data Engineering können KI-Agenten mehrstufige Problemlösungsprozesse durchführen, die zentral sind, um sicherzustellen, dass qualitativ hochwertige Daten für Anwendungsfälle im Unternehmen verfügbar sind. Zu diesen Prozessen gehören die Gestaltung von Datenpipelines und die Durchführung kritischer Datenverarbeitungsaufgaben, wie die Durchführung von Datenkonvertierungen und das Erkennen von Datenproblemen.
Agentisches KI-Data-Engineering, auch bekannt als agentisches Data Engineering, kann die Arbeitsbelastung von Data-Engineering-Teams erheblich reduzieren und gleichzeitig die Leistung von Datenpipelines optimieren. Darüber hinaus kann agentisches KI-Data-Engineering Geschäftsanwender in die Lage versetzen, auf Unternehmensdaten zuzugreifen und Erkenntnisse daraus abzuleiten, selbst wenn sie über keine technischen Kenntnisse verfügen.
Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.
Um zu verstehen, warum agentische KI-Systeme für Data Engineering eingesetzt werden, ist es hilfreich, die Natur des modernen Data Engineerings genauer zu betrachten.
Data Engineering ist kritisch für Unternehmen, die Wert aus zunehmend umfangreichen und komplexen Ökosystemen freischalten möchten. Dateningenieure helfen bei der Strukturierung und Sicherstellung der Funktionalität der Workflows, die Rohdaten in Ergebnisse umwandeln, welche einen echten Geschäftswert bieten. Bei erfolgreicher Durchführung führt Data Engineering zur Bereitstellung sauberer, genauer und zeitnaher Datensätze, die analysiert werden können, um umsetzbare Erkenntnisse zu gewinnen, oder die zur Förderung von KI-Initiativen verwendet werden können.
Während Unternehmen ihre Abhängigkeit von datengestützter Entscheidungsfindung beschleunigen, einschließlich zeitkritischer Entscheidungsfindung auf Basis von Echtzeitdaten, war der Bedarf an zuverlässigen Datenpipelines nie größer. Doch die Herausforderungen bei der Wartung solcher Pipelines waren auch nie größer – Dateningenieure sind nun mit der Überwachung immer komplexerer Datenstacks und Orchestrierungsprozesse beauftragt.
Das bedeutet unweigerlich, dass Datenteams einen Großteil ihrer Zeit mit der „Brandbekämpfung“ verbringen. Mit anderen Worten, sie konzentrieren sich auf Wartung und Fehlerbehebung, um Probleme in der Datenpipeline und, schlimmer noch, Ausfälle der Datenpipeline zu beheben.
„Wenn Data-Engineering-Teams Pipelines erstellen, verlassen sich die Ingenieure oft auf eine Mischung aus geplanten Jobs, gespeicherten Prozeduren, komplizierten Skripten sowie Transformation. Und all diese Elemente arbeiten zusammen, um den Datenfluss aufrechtzuerhalten. Manchmal kann eine einzelne Schemaänderung oder eine Spaltenumbenennung auf einem Quellsystem stundenlanges Debugging und erneutes Testen auslösen“, erklärte Justin Yan, Senior Product Manager bei IBM Data & AI, in einem IBM Technology Video.
Zum Glück können heute KI-Agenten eingesetzt werden, um einen Großteil dieser Arbeit zu übernehmen – und um zu verhindern, dass Probleme überhaupt erst entstehen. Intelligente Agenten können „Probleme bei der Datenintegration lösen, indem sie bei der Planung, Überwachung und Anpassung an Herausforderungen helfen, sodass Daten dort ankommen, wo sie benötigt werden, mit der Qualität und Aktualität, die Ihre Workloads erfordern“, sagte Yan.
Eine Kombination von Technologien unterstützt die Bereitstellung von agentischer KI für Data Engineering.
Ein KI-Agent ist ein System, das Aufgaben autonom ausführt, indem es Workflows mit verfügbaren Tools entwirft – einschließlich Daten-Workflows. Agenten verwenden die Techniken der Verarbeitung natürlicher Sprache großer Sprachmodelle, um Benutzereingaben zu verstehen und Schritt für Schritt darauf zu reagieren und zu bestimmen, wann externe Tools herangezogen werden müssen.
Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ist ein Teilgebiet der Informatik und KI, das maschinelles Lernen nutzt, damit Computer die menschliche Sprache verstehen und mit ihr kommunizieren können. NLP spielt eine zunehmend wichtige Rolle bei Unternehmenslösungen, die zur Optimierung und Automatisierung von Geschäftsprozessen beitragen.
Maschinelles Lernen ist der Teilbereich der KI, der sich auf Algorithmen konzentriert, die Muster von Trainingsdaten „lernen“ können. Solche Algorithmen nutzen diese Mustererkennung, um genaue Schlüsse über neue Daten zu ziehen. Maschinelles Lernen bildet das Rückgrat der meisten modernen KI-Systeme, einschließlich großer Sprachmodelle und anderer generativer KI-Tools.
Große Sprachmodelle (LLMs) sind eine Art von Deep-Learning-Modell, die in der Lage sind, natürliche Sprache und andere Inhalte zu verstehen und zu generieren, um eine Vielzahl von Aufgaben zu erfüllen. Ihre Funktionen beruhen auf Verarbeitung natürlicher Sprache und dem Training auf riesigen Datenmengen, die ihnen helfen, unstrukturierte menschliche Sprache in großem Maßstab zu verarbeiten.
Obwohl der Einsatz autonomer Agenten für Data Engineering je nach Datensystem und Ingenieurteam variieren kann, finden Sie hier einen Überblick darüber, wie KI-gestützte Systeme verschiedene Data-Engineering-Prozesse und -Aufgaben über einen Datenlebenszyklus hinweg bewältigen können.
Agentische KI-Datentechnik ermöglicht es Unternehmen, die Erstellung von Datenpipelines zu automatisieren. Nutzer können ihre Absicht bezüglich der Lieferung einer Pipeline in natürlicher Sprache angeben, ohne die notwendigen Schritte für die gewünschten Ergebnisse festzulegen – es liegt am KI-Agenten zu bestimmen, wie die Pipeline funktionieren wird. Das wird als deklaratives Pipeline-Authoring bezeichnet und ist eine Alternative zu dem eher praxisorientierten Ansatz, jeden Pipeline-Schritt zu programmieren.
Nachdem ein Nutzer eine Anfrage in natürlicher Sprache absendet, analysieren LLMs die Anfrage und verstehen die Absicht des Benutzers. Dann entwirft und implementiert ein KI-Agent oft einen umfassenden Prozess, der Folgendes beinhaltet:
Benutzer mit mehr technischem Wissen können die Struktur ihrer angeforderten Datenpipeline angeben. Sie können dies tun, indem sie ein Python-Softwareentwicklungskit (SDK) verwenden, das es LLMs ermöglicht, Python-Skripte auf der Grundlage von Benutzeranfragen für verschiedene datenbezogene Aufgaben zu schreiben und auszuführen, wie z. B. die Auswahl einer Datenquelle oder die Datenbereinigung.
Sobald die Pipeline entworfen ist, kann eine agentische KI Workloads ausführen. KI-Agenten nutzen Tool-Calling, um mit externen Tools, Anwendungsprogrammierschnittstellen (APIs) oder Systemen zu interagieren, die für die Verbindung zu Datenquellen, das Verständnis von Metadaten und die Durchführung von Transformationen erforderlich sind.
Agenten wählen außerdem den optimalen Ausführungspfad für Daten-Workflows in hybriden Umgebungen aus. Dazu gehört die dynamische Auswahl der besten Integrationsansätze (Echtzeit-Streaming, Batch-ETL/ELT oder Replikation) und Laufzeitumgebungen (lokal, in einer Cloud oder über Pushdown- und Remote-Engines) für jeden Teil des Jobs.
Verstärkendes Lernen kann Agenten dabei helfen, Pipeline-Pläne im Laufe der Zeit zu verbessern, indem korrekt konfigurierte und abgeschlossene Pipeline-Ausführungen belohnt werden.
Ein agentisches System kann Observability ermöglichen, indem es Pipelines kontinuierlich überwacht. Agenten können Schema-Drift, Datenanomalien und Probleme mit der Datenqualität erkennen. Sie können auch die Ursachenanalyse von Pipeline-Problemen unterstützen, Problembehebungsmaßnahmen empfehlen und diese ausführen.
Die autonome Ausführung von Pipeline-Fixes kann insbesondere zu ansonsten ungünstigen Zeitpunkten sehr hilfreich sein. „Was passiert, wenn ein nächtlicher Job fehlschlägt? Anstatt jemanden zu benachrichtigen, kann der Agent die Ausführungen selbst starten, die Leistung erhöhen und die Ablauflogik automatisch anpassen“, erklärte IBM Produktmanager John Wen in einem IBM Technologies Video.
Agentisches KI-Data-Engineering bietet eine Vielzahl von Vorteilen für Unternehmen, ihre Datenteams und ihre Geschäftsanwender. Dazu gehören:
Eine grundlegende Herausforderung für Dateningenieure heute ist es, Daten über komplexe und isolierte Umgebungen hinweg zu steuern: verschiedene Clouds, Data Warehouses, Data Lakes, lokale Server und mehr. Einige Daten sind in Tabellenkalkulationen und SQL Databases organisiert, aber ein Großteil davon liegt unstrukturiert in Dokumenten, E-Mails, Transkripten und Bildern vor. In einem Unternehmenssystem können KI-Agenten sich mit einer Vielzahl von Datenquellen verbinden und verschiedene Datenformate integrieren, wodurch einheitliche Datenplattformen entstehen, die reichhaltigere Analysen und genauere Prognosen ermöglichen.
KI-Agenten können Datenprofilierung, Datenvalidierung, Regelerstellung, Überwachung und Problembehebung automatisieren „Die Agenten könnten Spaltenänderungen oder Typenkonflikte frühzeitig erkennen und Fixes vorschlagen, bevor Aufträge fehlschlagen. Kontinuierliche Überprüfungen auf Anomalien, automatische Datenauffüllungen und Umleitungen um ausgefallene Datenquellen herum tragen dazu bei, dass die Daten für nachgelagerte Anwendungen in KI-Systemen vertrauenswürdig bleiben“, erklärte Yan.
KI-Agenten können verschiedene Ausführungsstrategien bewerten und potenzielle Engpässe und Komplikationen identifizieren, wie zum Beispiel versteckte Abhängigkeiten in verschiedenen Anwendungs-Stacks. Indem sie diese Informationen bei der Planung von Pipelines berücksichtigen, können sie Pläne erstellen, die den Ressourcenverbrauch und die Betriebszeit minimieren und dennoch die Datenziele erreichen.
Darüber hinaus können agentische Systeme bei Veränderungen von Infrastruktur oder Schemata bestehende Pipelines anpassen und wiederverwenden, was Unternehmen hilft, veraltete Pipelines und technische Schulden zu vermeiden.
Das Pipeline-Design und die kontinuierliche Überwachung durch KI-Agenten können sicherstellen, dass sensible Daten dem Datenschutz entsprechen, wie dem US Health Insurance Portability and Accountability Act (HIPAA) und der Datenschutzgrundverordnung (DSGVO) der Europäischen Union. Darüber hinaus kann die Herkunftsverfolgung durch KI-Agenten Transparenz und Nachvollziehbarkeit unterstützen.
Geschäftsanwender mit minimalem oder keinem technischen Know-how müssen sich nicht mehr ausschließlich auf Datenprofis verlassen, um ihre Datenbedürfnisse zu erfüllen. Sie können die Erstellung oder Bereitstellung von Datensätzen von KI-Agenten anfordern, anstatt auf die Unterstützung eines Datenexperten zu warten, wodurch sie wichtige Erkenntnisse schneller gewinnen können.
KI-Agenten können voll funktionsfähige Datenpipelines in einem Bruchteil der Zeit entwerfen, bauen und ausführen, die Datenteams für die manuelle Programmierung solcher Pipelines benötigen würden. KI-Agenten können diese Pipelines auch anpassungsfähig und „selbstheilend“ machen – das heißt, sie können Probleme überwachen und beheben, bevor sie nachgelagerte Prozesse stören. Insgesamt bedeutet dies, dass Unternehmen beruhigt weiterhin Pipelines hinzufügen können, wenn ihre Datenbestände und Datenbedürfnisse wachsen und sich weiterentwickeln.
Durch die Auslagerung von Aufgaben wie Pipeline-Design, Wartung und Fehlerbehebung an agentische KI-Systeme können Dateningenieure ihre Produktivität steigern und mehr Kapazitäten gewinnen, um sich mit wertvollen Aufgaben und sinnvoller Arbeit zu beschäftigen, wie zum Beispiel dem Aufbau und der Erprobung neuer Funktionen.
Wie bei anderen Anwendungsfällen von KI sollten Unternehmen bei der Implementierung von agentischer KI für das Data Engineering verschiedene potenzielle Herausforderungen berücksichtigen.
Softwarelösungen und -plattformen können Unternehmen dabei helfen, die Herausforderungen bei der Integration von agentischer KI, einschließlich KI-gestützter Systeme für Data Engineering, in alltägliche Workflows zu adressieren.
Robuste KI-Governance-Tools ermöglichen die Einbetten von Leitlinien zur Begrenzung unbeabsichtigten Agentenverhaltens und die Bereitstellung spezialisierter Metriken zur Bewertung der Agentenleistung. KI-Orchestrierungslösungen können dazu beitragen, die Lücken zwischen fortschrittlichen KI-Technologien und älteren Unternehmenssystemen ohne langwierige Umstrukturierungen zu schließen.
Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.
Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.