Was ist Datenabruf?

By Alice Gomstyn , Alexandra Jonker

Definition von Datenabruf

Datenabruf ist der Prozess, auf einsatzbereite Informationen aus einer Datenquelle zuzugreifen.

Traditionell bezog sich der Begriff Datenabruf auf die Verwendung von Abfragesprachen zum Abrufen strukturierter Daten aus Datenbanken. Mit dem Wachstum der Datenmenge und dem Fortschritt der Technologie wird der Begriff jedoch mittlerweile mit dem Abruf zahlreicher Datentypen assoziiert, egal ob strukturiert oder unstrukturiert.

Der Datenabruf wird von Unternehmen genutzt, um die immer umfangreicheren Datenmengen sowohl in ihren eigenen Systemen als auch in Repositories von Dritten zu nutzen. Mithilfe von Tools zum Datenabruf können Unternehmensanwender, Forscher und andere Personen Antworten auf Fragen finden und wichtige Datenpunkte lokalisieren – aus Quellen, auf die mit manuellen Ansätzen nur schwer oder gar nicht zugegriffen werden könnte.

Einst auf rudimentäre Datenbanksuchen beschränkt, werden Datenabrufsysteme heute oft um Automatisierung und KI-Technologien erweitert, die komplexe Datenanfragen verwalten, Verbindungen zu mehr Wissensdatenbanken herstellen und die Abfrageausführung dynamisch optimieren können. Maschinelles Lernen, Verarbeitung natürlicher Sprache und Retrieval-Augmented Generation (RAG) helfen dabei, die Genauigkeit und Relevanz der auf Anfragen bereitgestellten Daten zu verbessern.

Warum ist der Datenabruf wichtig?

Intelligente Entscheidungsfindung gelingt dann, wenn Unternehmen aus qualitativ hochwertigen Daten Erkenntnisse gewinnen können.

Bevor jedoch eine Analyse stattfinden kann, müssen Unternehmen auf diese Daten zugreifen. Diese Aufgabe kann besonders herausfordernd sein, wenn sich die Daten in einem großen Datensatz oder einem riesigen Datenbestand befinden, wie etwa einer umfangreichen wissenschaftlichen Datenbank oder einem weitläufigen hybriden Multi-Cloud-Speichersystem.

Explosives Datenwachstum verschärft diese Herausforderungen: Laut Schätzungen werden täglich mehr als 400 Millionen Terabyte an Daten erzeugt, während Unternehmen selbst oft ein Petabyte oder mehr Daten verwalten.¹

Fortschritte in der künstlichen Intelligenz haben auch die Anforderungen an Unternehmensdaten verändert. KI-Workflows erfordern schnellen Datenzugriff, einschließlich des Zugriffs auf große Mengen unstrukturierter Daten.

In der Vergangenheit konzentrierten sich Datenabrufprozesse auf Abfragen aus strukturierten Quellen wie relationalen Datenbankverwaltungssystemen. Anstatt jedoch zeitaufwändige, manuelle Verfahren zur Durchforstung der heutigen riesigen internen und externen Datenquellen anzuwenden, greifen Unternehmen auf moderne Datenabrufmethoden zurück. Dieser Ansatz nutzt Technologien wie Vektordatenbanken und Retrieval-Augmented Generation, um die Nachfrage nach Daten zu befriedigen, die außerhalb interner, relationaler Datenbanken liegen.

Insbesondere agentische RAG hat sich als effektiv erwiesen, um diese Nachfrage zu decken. David Levy, ein Beratungsingenieur für Client Engineering bei IBM, erläuterte die Funktionen von agentischer RAG in einer Präsentation für IBM Technology.

„Agentische RAG ist eine Weiterentwicklung der Art und Weise, wie wir die RAG-Pipeline verbessern, indem wir über die einfache Generierung von Antworten hinausgehen und zu einer intelligenteren Entscheidungsfindung übergehen. Indem wir einem Agenten die Möglichkeit geben, die besten Datenquellen auszuwählen und gegebenenfalls sogar externe Informationen wie Echtzeitdaten oder Dienste von Drittanbietern einzubeziehen, entsteht eine Pipeline, die reaktionsschneller, genauer und anpassungsfähiger ist“, so Levy.

Das Ergebnis? Unternehmen und andere Organisationen können ihre eigenen strukturierten und unstrukturierten Unternehmensdaten sowie die wachsenden Datenmengen, die außerhalb ihrer Ökosysteme entstehen, besser nutzen. Sie sind befähigt, zum richtigen Zeitpunkt genau auf die benötigten Daten zuzugreifen, was Analysen und datenbasierte Erkenntnisse ermöglicht, die bessere Geschäftsergebnisse erzielen.

Datenabruf vs. Informationsabruf vs. Data Mining

Die Begriffe Datenabruf und Informationsabruf (IR) werden oft synonym verwendet – und das aus gutem Grund.

Während sie traditionell mit unterschiedlichen Datentypen in Verbindung gebracht wurden (strukturiert für den Datenabruf, unstrukturiert für IR), haben Entwicklungen in der Data Science die Unterschiede ineinander übergehen lassen. Der Datenabruf umfasst nun nicht nur unstrukturierte Daten, sondern einige IR-Systeme ermöglichen auch einen „strukturierten Dokumentenabruf“ (durch die Verwendung von XML zur Indizierung von Textdokumenten).

Der deutlichere Unterschied zwischen den beiden manifestiert sich wohl in der Art der Ergebnisse, die sie jeweils erzeugen. Der Datenabruf konzentriert sich darauf, exakte Übereinstimmungen zu Nutzeranfragen zurückzugeben, während IR-Systeme, die das Rückgrat der Websuchmaschinen bilden, mehrere Ergebnisse (wie Webseiten) nach relevanten Informationen liefern.

Sowohl Datenabruf als auch Informationsabruf werden zeitweise mit Data Mining verwechselt. Hier ist der Unterschied jedoch klar: Während sich Datenabruf und IR auf den Zugriff auf und die Bereitstellung von Daten konzentrieren, geht es beim Data Mining um das Aufdecken von Mustern und Erkenntnissen aus Daten. Mit anderen Worten, es umfasst die Analyse, nicht nur den Datenabruf. Darüber hinaus wird Data Mining auf große Datensätze angewandt, während Datenabruf und IR für Datenerfassungen jeder Größe verwendet werden können.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Traditionelle Ansätze des Datenabrufs

Methoden zum Datenabruf können in zwei Kategorien unterteilt werden: traditionelle Techniken und KI-Techniken.² Zu den traditionellen Techniken gehören:

Verwendung von Abfragesprachen
Indizierung
Abfrageoptimierung

Verwendung von Abfragesprachen

Die Daten werden aus klassischen Datenbankverwaltungssystemen (DBMS) mittels Abfragesprachen abgerufen. Die bekannteste Abfragesprache ist die strukturierte Abfragesprache oder SQL, die für relationale Datenbanken verwendet wird. Benutzer setzen SQL-Befehle ein, um Daten abzurufen und andere Aufgaben wie Ergänzungen, Updates und Löschungen zu erledigen.

Indizierung

Indexierung ist die Erstellung von durchsuchbaren Datenstrukturen, die auf Datensätze in größeren Tabellen verweisen. Suchvorgänge können Indizes anstatt ganzer Tabellen durchsuchen, was zu einer schnelleren und effizienteren Abfrageverarbeitung führt.

Abfrageoptimierung

In Datenbankverwaltungssystemen verbessern Abfrageoptimierungstools die Abfrageleistung, indem sie die effizienteste Wahl aus verschiedenen Abfrageplänen oder verschiedenen Möglichkeiten zur Durchführung von Abfragen auswählen. Optimierer entscheiden zum Beispiel, ob Indizes verwendet werden sollen, wie eine Tabelle gelesen wird und in welcher Reihenfolge die Tabellen verbunden werden, wenn eine Verknüpfung angefordert wird.

Diese etablierten Techniken haben sich zwar als effektiv für den Abruf strukturierter Daten und die Unterstützung grundlegender Suchvorgänge erwiesen, weisen aber auch in mehreren Bereichen Schwächen auf, darunter beim Abruf unstrukturierter Daten, der Ausführung komplexer Abfragen, der Erfassung semantischer Bedeutung, der Unterstützung von Skalierbarkeit und der Bereitstellung von Ergebnissen in Echtzeit.³

KI-Techniken für den Datenabruf

KI-gestützte Verfahren zum Datenabruf tragen dazu bei, die Schwächen traditioneller Verfahren auszugleichen und so die Abfrageleistung und die Erfahrung der Benutzer zu verbessern.⁴

Zu den wichtigsten Technologien für den KI-Datenabruf gehören:

Vektorsuche
Maschinelles Lernen und Deep Learning
Verarbeitung natürlicher Sprache
Retrieval-Augmented Generation und agentische RAG

Vektorsuche

In Vektordatenbanken werden verschiedene Datentypen, einschließlich Text und Bilder, als numerische Darstellungen gespeichert, die als Vektor-Einbettungen bekannt sind. Vektor-Einbettungen mit ähnlichen Dimensionen werden zusammengefasst. Während einer Vektorsuche rufen Systeme relevante Daten und Dokumente mit Vektoreinbettungen ab, die den Suchbegriffen ähneln. Solche Suchanfragen basieren meist auf Algorithmen des nächsten Nachbarn, die Verbindungen zwischen Datenpunkten anhand ihrer Nähe ableiten.

Maschinelles Lernen (ML) und Deep Learning

Algorithmen für maschinelles Lernen, die anhand historischer Daten und des Benutzerverhaltens trainiert wurden, können Benutzern Abfrageempfehlungen auf der Grundlage gängiger Abfragemuster geben und dann relevante Daten ermitteln. Darüber hinaus kann ein Teilbereich des maschinellen Lernens, der als Deep Learning bekannt ist, dabei helfen, unstrukturierte Daten abzurufen. Beispielsweise ermöglichen Convolutional Neural Networks (CNNs) Computer Vision, die zur Suche nach Bild- und Videodateien verwendet werden kann.⁵

Verarbeitung natürlicher Sprache

Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ermöglicht benutzerfreundliche Suchanfragen, indem sie es den Benutzern ermöglicht, ihre Suchanfragen im Dialog zu formulieren, anstatt sie als Sprachbefehle zu strukturieren. Anstatt sich ausschließlich auf Keyword-Matching zu verlassen, können NLP-gestützte Suchmaschinen semantische Suchen durchführen: Sie identifizieren relevante Ergebnisse, die die Absicht der Anfrage widerspiegeln, auch wenn die genauen Suchbegriffe in einem Dokument nicht vorhanden sind.

Retrieval-Augmented Generation und agentische RAG

Die Retrieval-Augmented Generation verbindet große Sprachmodelle mit externen Wissensdatenbanken über Anwendungsprogrammierschnittstellen oder APIs. Dadurch können Systeme Informationen abrufen, die sowohl domänenspezifisch als auch aktuell sind.

Agentische RAG Systeme ergänzen die traditionelle RAG um Funktionen mit agentischer Denkweise, die Abfragen dynamisch optimiert und die Datenabrufleistung erhöht. Zu den Komponenten führender agentischer RAG-Systeme gehören:

Zentrale Suchfunktionen: Der Datenabruf wird durch traditionelle und KI-gestützte Ansätze des Datenabrufs unterstützt, einschließlich Indizierung und Kombinationen aus Schlüsselwortsuche und Vektorsuche (bekannt als Hybridsuche).

Semantisches Caching: Agentische RAG-Systeme können vorherige Abfragesätze, Kontext und Ergebnisse speichern und darauf verweisen. Diese Speicherung kann für neue Suchanfragen genutzt werden und führt so zu relevanteren und personalisierten Ergebnissen.

Agentisches Chunking: Agentisches Chunking segmentiert große Texteingaben in kleinere, semantisch kohärente Blöcke (Chunks), die in Vektordatenbanken gespeichert sind. Durch ihren semantischen Zusammenhang können Systeme vollständigere und qualitativ hochwertigere Antworten auf Anfragen abrufen.

Routing-Agenten: Routing-Agenten bestimmen, welche externen Wissensquellen und Tools eine Nutzeranfrage am besten beantworten.

Abfrageplanungsagenten: Abfrageplanungsagenten zerlegen komplexe Benutzerabfragen in schrittweise Prozesse und senden die resultierenden Teilabfragen an die anderen Agenten im RAG-System. Sobald diese Agenten ihre jeweiligen Antworten geliefert haben, kombinieren die Agenten für die Abfrageplanung diese zu einer zusammenhängenden Antwort.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Zur Episode wechseln

Anwendungsfälle für den Datenabruf

Datenabruftechniken und -lösungen können den Datenzugriff und die Datenverwaltung in zahlreichen Branchen und Disziplinen verbessern.

Gesundheitswesen

Ein Dienstleister für Gesundheitseinrichtungen nutzte die Verarbeitung natürlicher Sprache und Retrieval-Augmented Generation, um den Abruf geschäftskritischer Daten um 90 % zu beschleunigen.

Finanzdienstleistungen

Ein Fintech-Unternehmen stellte einen RAG-gestützten Chatbot für den Kundenservice bereit, der Echtzeitinformationen abruft und die durchschnittliche Interaktionszeit im Vergleich zu herkömmlichen Call-Centern um 80 % reduziert.

E-Commerce

E-Commerce-Unternehmen ermöglichen es Käufern, Fotos von den Produkten hochzuladen, die sie kaufen wollen. Durch Computer Vision gestützte Suchlösungen rufen dann Informationen über Produkte ab, die den abgebildeten ähneln.

Herausforderungen beim Datenabruf

Wenn Unternehmen nach Lösungen zum Datenabruf erkunden, ist es wichtig, mögliche Herausforderungen zu berücksichtigen.

Datenqualität

Wenn Unternehmen immer erfolgreicher beim Abrufen von Daten werden, stellen sie möglicherweise fest, dass diese Daten Lücken und Fehler aufweisen. Praktiken des Datenqualitätsmanagements wie Datenprofiling und Datenbereinigung können Unternehmen dabei helfen, Datensätze hinsichtlich Genauigkeit, Vollständigkeit, Konstanz und anderer Qualitätsdimensionen zu optimieren.

Sicherheit

Die Implementierung erweiterter Datenabruffunktionen kann riskant sein, wenn nicht die richtigen Sicherheitsmaßnahmen getroffen werden, um sicherzustellen, dass sensible Daten nur von befugten Personen abgerufen werden können. Verwaltete Datenplattformen können integrierte Sicherheits-, Identitäts- und Zugriffskontrollen enthalten, um unbefugten Zugriff zu verhindern und die Einhaltung gesetzlicher Vorschriften zu unterstützen.

Anbieterbindung

Proprietäre Datenlösungen bündeln häufig Datenabruf, Orchestrierung und KI-Modelle in geschlossenen Systemen und beschränken Unternehmen damit auf herstellerkontrollierte Technologie-Stacks. Open Source-Datenlösungen mit agentischer RAG und anderen Technologien bieten eine Alternative und ermöglichen Unternehmen eine bessere Kontrolle über ihre Technologie-Stacks und Datenverwaltungsfunktionen.

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor