Was ist Informationsabruf?

Autoren

Jacob Murel Ph.D.

Senior Technical Content Creator

Technical Content, Editorial Lead

IBM

Was ist Informationsabruf?

Information Retrieval (IR) ist ein weites Gebiet der Informatik und Informationswissenschaft, das sich mit dem Abrufen von Daten für Benutzeranfragen befasst. Es unterstützt Such-Tools wie Bibliothekskataloge und Websuchmaschinen.

Wir können IR im Allgemeinen als das Auffinden unstrukturierter Daten innerhalb einer großen Sammlung definieren, um ein bestimmtes Informationsbedürfnis zu befriedigen.¹ Ein IR-System – Information Retrieval System – stellt Material als Antwort auf eine bestimmte Anfrage bereit. Das System sucht in den Sammlungen nach Elementen, die für die Anfrage des Benutzers relevant sind. Anschließend werden diese Elemente an den Benutzer zurückgegeben, normalerweise in Listenform, sortiert nach berechneter Relevanz.²

IR-Systeme und -Techniken bilden die Grundlage für eine Reihe von Tools, wie z. B. Web-Suchmaschinen und Digital Library-Kataloge.

Informationsabruf vs. Datenabruf

Beachten Sie, dass viele Online-Quellen IR-Systeme mit der Datenabfrage vergleichen: IR-Systeme rufen unstrukturierte Informationen ab, wie z. B. Textdokumente und Webseiten. Die Datenabfrage befasst sich dagegen mit strukturierten Daten, wie sie in relationalen Datenbankverwaltungssystemen zu finden sind. Darüber hinaus verwendet die Datenabfrage eine strukturierte Abfragesprache (SQL) für die Durchführung von Suchanfragen.

Diese Unterscheidung zwischen IR als unstrukturiert und nicht-relational und Datenabruf als strukturiert und relational ist jedoch nicht so eindeutig, wie viele Online-Quellen vermuten lassen. IR-Systeme indizieren und strukturieren somit die Informationen. Obwohl IR sich üblicherweise mit der Abfrage von Rohtexten befasst, verwenden einige IR-Systeme XML zur Darstellung und Indizierung von Texten. In der Forschungsliteratur werden XML-basierte Systeme häufig als Zweig der IR beschrieben, der als strukturierter Abruf oder halbstrukturierter Abruf bezeichnet wird.³ Darüber hinaus wird in der Literatur seit Jahrzehnten die Verwendung relationaler IR-Modelle untersucht.⁴

Die Unterscheidung zwischen IR und Datenabruf ist also mehrdeutiger als gemeinhin angenommen. Da Daten per Definition Informationen sind, ist der strukturierte Datenabruf wahrscheinlich besser als eine Art des Informationsabrufs zu verstehen.

Informationsabruf vs. Empfehlungssysteme

IR ist nicht mit Empfehlungssystemen gleichzusetzen. Empfehlungstechniken des maschinellen Lernens – wie die kollaborative Filterung und die inhaltsbasierte Filterung– können vielleicht als eine Form der Informationsfilterung verstanden werden, einer Teilaufgabe von IR-Systemen. Dennoch unterscheiden sich IR- und Empfehlungssysteme. IR erfordert traditionell eine Benutzerabfrage. Empfehlungsmaschinen rufen in der Regel Objekte ohne Benutzerabfrage ab.⁵

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

So funktionieren Systeme für den Informationsabruf

Verschiedene IR-Modelle stellen Informationen unterschiedlich dar. Die gewählte Form der Dokumentdarstellung bestimmt weitgehend, wie das Modell Informationen sucht und abruft. Dennoch sind Indexierung, Gewichtung und Relevanz-Feedback drei Techniken zur Informationsbeschaffung, die in IR-Modellen üblich sind.

Indizierung

Die Indizierung läuft im Wesentlichen auf die Erstellung von Metadaten hinaus^.6 Viele Menschen haben schon einmal einen Index auf der Rückseite eines gedruckten Buches gesehen. Es handelt sich dabei um einen strukturierten Satz an Wörtern, die aus einem bestimmten Druckdokument zusammengestellt wurden und es dem Leser ermöglichen, schnell auf Passagen zu bestimmten Themen zuzugreifen. Der IR-Index ist ähnlich. Ein IR-Index (oder invertierter Index) ist eine Datenstruktur, die aus einer Reihe von Dokumenten stammt und der Verbesserung der Ergebnisse von Suchanfragen dient^.7

Für den Indexaufbau muss zunächst ein Dokument zur Merkmalsextraktion analysiert werden. Nehmen wir zum Beispiel an, wir erstellen ein IR-System für textbasierte Dokumente. Wie bei der Verarbeitung natürlicher Sprache (NLP) üblich, bereiten wir die Dokumentensammlung mit verschiedenen Vorverarbeitungstechniken vor, wie z. B. Tokenisierung und die Entfernung von Stoppwörtern. Das IR-System stellt diese verarbeitete Sammlung von Dokumenten dann als organisierte Datenstruktur dar. Eine solche Struktur ist ein Wörterbuch, in dem jedes Dokument eine ID hat, auf die die darin enthaltenen Wörter (oder Indexbegriffe) verweisen.⁸ Eine weitere mögliche Datenstruktur für ein Textabrufsystem ist ein Vektorraummodell, wie z. B. ein Bag of Words.⁹ Bei beiden Ansätzen werden Wörter als Merkmale extrahiert, die dann verwendet werden, um Dokumente als Antwort auf Benutzeranfragen abzurufen und zu ordnen.

Gewichtung

Wie ordnet ein Suchsystem ungefähre oder exakte Treffer für eine bestimmte Anfrage an? Ansätze für das Ranking und die Abfrage von Informationen hängen sowohl von der Art des Informationsabrufmodells als auch von der Form der im System verwendeten Dokumentendarstellung ab. Indexbegriffe spielen jedoch eine wichtige Rolle beim Ranking von Dokumenten, das ein IR-System bei der Beantwortung von Suchanfragen vornimmt. Aber nicht alle Indexbegriffe sind gleich. IR-Systeme verwenden daher verschiedene Methoden, um Indexbegriffe nach ihrer wahrgenommenen Bedeutung zu gewichten.

IR-Systeme, die Vektorraummodelle wie Bag of Words verwenden, können Term Frequency-Inverse Document Frequency (TF-IDF) verwenden. TF-IDF ist eine Variante von Bag of Words, die die Häufigkeit eines Wortes in jedem Dokument des Textsatzes berücksichtigt. Je mehr Dokumente ein bestimmtes Wort vorkommt, desto größer ist der TF-IDF, der das Gewicht dieses Wortes reduziert. Weitere Ansätze sind Singular Value Decomposition (SVD) und die latente semantische Analyse (LSA), wobei letztere ein gängiger Ansatz zur Themenmodellierung ist.¹⁰

Solche Gewichtungsansätze wirken sich auf das Ranking von Dokumenten in IR-Systemen bei der Beantwortung von Anfragen aus. Die verschiedenen Arten von IR-Modellen verwenden diese Gewichte für das Ranking jedoch auf unterschiedliche Weise.

Relevanz-Feedback

Wie könnte ein System seine Suchergebnisse verbessern? Wie könnte ein System also die Suche eines Benutzers feiner abstimmen und die Anzahl der zurückgegebenen relevanten Dokumente erhöhen?

Relevanz-Feedback ist eine gängige Methode zur Informationsabfrage, um Suchergebnisse zu verbessern. Beim Relevanz-Feedback werden grundsätzlich Informationen über die Reaktion der Benutzer auf eine erste Reihe von Abfrageergebnissen gesammelt. Das System gewichtet dann die Relevanz der Artikel anhand der Antworten des Benutzers neu. Anschließend wird eine neue Reihe von Suchergebnissen zurückgegeben, die die ursprüngliche Abfrage und das Feedback des Benutzers zu dieser ersten Reihe von Abfrageergebnissen enthalten.

Beim Relevanz-Feedback geben die Benutzer in der Regel explizite Antworten auf die Relevanz der abgerufenen Dokumente. Implizites Feedback ist eine Variante, bei der die Relevanz von Objekten aus dem Benutzerverhalten abgeleitet wird – zum Beispiel, welche Website-Links ein Benutzer auf einer Suchergebnisseite anklickt. Das Pseudo-Relevanz-Feedback geht davon aus, dass die ersten n abgerufenen Dokumente einer Anfrage relevant sind. Anschließend werden weitere gemeinsame Merkmale dieser Dokumente gesammelt, um die Abfrage weiter zu modifizieren.¹¹

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Arten von Techniken für den Informationsabruf

Es gibt zahlreiche Arten von Information-Retrieval-Modellen. Um auch nur eine erschöpfende Zusammenfassung zu liefern, ist eine viel umfangreichere Diskussion erforderlich. Dennoch überschneiden sich IR-Lehrbücher und enzyklopädische Übersichten oft, indem sie drei allgemeine IR-Methoden erwähnen: boolesch, algebraisch und probabilistisch.

Boolesches Modell

Boolesche Modelle sind vielleicht die einfachsten, ja sogar die simpelsten IR-Modelle. Sie verwenden, wie zuvor beschrieben, eine Wörterbuchstruktur von Indexbegriffen. Vorhandensein von Wörtern aus der Suchanfrage eines Benutzers in den abgerufenen Dokumenten. Wenn ein Benutzer z. B. die Anfrage „Jazz AND Dancing“ stellt, ruft das boolesche Modell nur die Dokumente ab, die die Wörter Jazz AND Dancing in Kombination enthalten. Boolesche Modelle berücksichtigen dabei nur das Vorhandensein oder Fehlen von Wörtern in einem Dokument; partielle Übereinstimmungen gibt es in booleschen Retrievalsystemen nicht. Textvorverarbeitungstechniken wie Stemming und Lemmatization können dieses Problem morphologischer Varianten lösen – wie z. B. Dokumente, die dance, dances, oder dancer enthalten, anstatt nur die Abfrage dancing des Benutzers.

Wie bereits erwähnt, berücksichtigen Boolesche Modelle nur das Vorhandensein und Fehlen von Wörtern. Bei diesem binären Entscheidungskriterium fehlt eine Bewertungsskala, um zu bestimmen, welche Dokumente für die Anfrage eines Benutzers am relevantesten sind. Eine mögliche Lösung besteht darin, Dokumente anhand der Häufigkeit der darin enthaltenen Suchbegriffe zu bewerten. Mit anderen Worten: Je häufiger in einem Dokument die Begriffe Jazz und Tanzen vorkommen, desto relevanter ist das Modell für die Suchanfrage des Benutzers. Eine höhere Häufigkeit der Begriffe bedeutet jedoch nicht unbedingt eine größere Relevanz. Trotz dieses potenziellen Nachteils wurden Boolesche Modelle aufgrund ihrer einfachen Implementierung in vielen IR-Systemen verwendet.¹²

Algebraisches Modell

Die boolesche Dokumentensuche verhindert jede Form von Teilübereinstimmung. Algebraische und probabilistische Modelle lösen dieses Problem, indem sie den Indexbegriffen nicht-binäre Gewichte zuweisen.

Ein repräsentatives algebraisches Modell ist das Vektorraummodell. Bei diesem Ansatz stellt das IR-System Dokumente und Abfragen als Vektoren in einem mehrdimensionalen Vektorraum dar. In diesem Raum sind Indexbegriffe wahrscheinlich Merkmale des Vektorraums, und Abfragen und Dokumente werden entsprechend der Präsenz und Häufigkeit, mit der sie Indexbegriffe enthalten, in diesem Raum dargestellt. Das IR-System berechnet die Ähnlichkeit zwischen einer Suchanfrage und Dokumenten anhand ihrer Nähe im Vektorraum.

Es gibt eine Reihe von Metriken zur Bestimmung der Nähe in einem Vektorraummodell, wie z. B. Jaccard und das Skalarprodukt. Einer der häufigsten ist jedoch die Kosinus-Ähnlichkeit, die durch die folgende Formel dargestellt wird:

$c o s i n e_s i m i l a r i t y (A, B) = \frac{\sum_{i = 1}^{n} A_{i} B_{i}}{\sqrt{\sum_{i = 1}^{n} A_{i^{2}}} \sqrt{\sum_{i = 1}^{n} B_{i^{2}}}}$

Hierbei stehen x und y für zwei Vektoren im Vektorraum. Der Kosinus-Ähnlichkeitswert kann einen beliebigen Wert zwischen -1 und 1 annehmen. Je höher der Kosinus-Wert, desto ähnlicher sind sich zwei Elemente.

Das IR-Vektorraummodell gibt Dokumente in der Reihenfolge ihres gemessenen Ähnlichkeitsgrades zurück. Auf diese Weise ermöglichen algebraische IR-Systeme wie das Vektorraummodell einen partiellen Abgleich, der möglicherweise eine präzisere oder nuanciertere Form des Informationsabrufs darstellt.¹³

Probabilistisches Modell

Wahrscheinlichkeitsmodelle ermöglichen auch eine teilweise Übereinstimmung zwischen Benutzerabfragen und Dokumenten. Wahrscheinlichkeitsmodelle basieren auf der Annahme, dass für eine bestimmte Abfrage ein idealer Satz abgerufener Informationssystemressourcen vorliegt. Dieser ideale Satz ist allerdings unbekannt. Aber die Semantik der Indexbegriffe kann die Eigenschaften dieses Satzes charakterisieren.

Wie algebraische Modelle verwenden probabilistische Modelle den Indexbegriff „Vorhandensein und Häufigkeit“, um die Ähnlichkeit zwischen Abfragen und Dokumenten zu bestimmen. Probabilistische Modelle unterscheiden sich jedoch dadurch, dass sie zusätzliche Faktoren berücksichtigen. Beispielsweise können sie die Häufigkeit von Indexbegriffen – wie oft Indexbegriffe in einem Dokument gemeinsam vorkommen – in Bezug auf die Gesamtlänge des Dokuments oder wie oft ein einzelner Indexbegriff in allen Abfrageausdrücken einer bestimmten Abfrage vorkommt, berücksichtigen. Dies sind nur einige der möglichen Faktoren, die berücksichtigt werden – eine detailliertere Diskussion erfordert ein gründlicheres Verständnis der Wahrscheinlichkeitstheorie.

Nicht alle probabilistischen Modelle berücksichtigen bei der Berechnung der Dokumentenähnlichkeit oder -wahrscheinlichkeit dieselben Faktoren. So wird beispielsweise beim Binären-Unabhängigkeitsmodell (BIM), dem ersten probabilistischen IR-Modell, die Termfrequenz nicht berücksichtigt. Ein Modell, das die Technik der thematischen Modellierung,die latente Dirichlet-Allokation (LDA), einbezieht, wird jedoch die Term-Häufigkeit berücksichtigen.¹⁴

Aktuelle Forschung

Verzerrung. Web-Suchmaschinen sind vielleicht einer der bekanntesten Anwendungsfälle für IR. Das Textzusammenfassungstool PageRank wird verwendet, um Webseiten (HTML-Dokumente) abzurufen und zu bewerten. Die Forschung hat die bedauerliche Tatsache eindeutig belegt, dass Suchalgorithmen eine Vielzahl von Vorurteilen, wie z. B. rassistische und geschlechtsspezifische, aufrechterhalten.¹⁵ Als Reaktion darauf untersuchen veröffentlichte Experimente eine Vielzahl von Methoden zur Reduzierung sozialer Verzerrungen in IR-Systemen, wie z. B. negative Stichproben¹⁶ und Algorithmen, die Verzerrungen berücksichtigen, die Strafen für verzerrte Ergebnisse beinhalten.¹⁷ Die Reduzierung von Verzerrungen ist ein wichtiger Bereich für die Forschung, um eine ethische Praxis im Bereich der IR und sogar der künstlichen Intelligenz zu entwickeln.

Jenseits des Hypes – Wie KI-Assistenten echten geschäftlichen Mehrwert schaffen

Entdecken Sie die wichtigsten Anwendungsfälle für den Einsatz von KI-Assistenten, verstehen Sie die potenziellen Auswirkungen von generativer KI und Automatisierung auf Ihr Unternehmen und erfahren Sie, wie Sie loslegen können.

Ressourcen

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Leitfaden für Anfänger zu NLP

Erfahren Sie, wie die Verarbeitung natürlicher Sprache (NLP) Ihnen dabei helfen kann, sich natürlicher mit Computern zu unterhalten.

IBM wird als führend im Bereich Data Science und maschinelles Lernen genannt

Erfahren Sie, warum IBM im Gartner Magic Quadrant for Data Science and Machine Learning Platforms 2025 als führend eingestuft wurde.

Praktische Anwendung von generativer KI

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.

Weitere Lösungen

IBM® watsonx™ Orchestrate®

Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate

Tools und APIs zur Verarbeitung natürlicher Sprache

Steigern Sie den Geschäftswert der künstlichen Intelligenz mit einem leistungsstarken und flexiblen Portfolio aus Bibliotheken, Diensten und Anwendungen.

NLP-Lösungen erkunden

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Fußnoten

1 Christopher Manning, Prabhakar Raghavan und Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

2 Qiaozhu Mei und Dragomir Radev, „Information Retrieval“, The Oxford Handbook of Computational Linguistics, 2. Auflage, Oxford University Press, 2016.

3 Christopher Manning, Prabhakar Raghavan und Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009. Mounia Lalmas and Ricardo Baeza-Yates, „Structured Document Retrieval”, Encyclopedia of Database Systems, Springer, 2018.

4 Robert Crawford, „The relational model in information retrieval,” Journal of the American Society for Information Science, Vol. 32, Nr. 1, 1981, S. 51-64.

5 Alejandro Bellogín and Alan Said, „Information Retrieval and Recommender Systems,” Data Science in Practice, Springer, 2018.

6 Jeffrey Pomerantz, Metadata, MIT Press, 2015.

7 Steven Beitzel, Eric Jensen und Ophir Frieder, „Index Creation and File Structures“, Encyclopedia of Database Systems, Springer, 2018.

8 Christopher Manning, Prabhakar Raghavan und Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

9 Qiaozhu Mei und Dragomir Radev, „Information Retrieval“, The Oxford Handbook of Computational Linguistics, 2. Auflage, Oxford University Press, 2016.

10 Qiaozhu Mei und Dragomir Radev, „Information Retrieval“, The Oxford Handbook of Computational Linguistics, 2.Auflage, Oxford University Press, 2016. Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999.

11 Qiaozhu Mei und Dragomir Radev, „Information Retrieval“, The Oxford Handbook of Computational Linguistics, 2.Auflage, Oxford University Press, 2016. Stefan Büttcher, Charles Clarke, and Gordon Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2016.

12 Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan und Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

13 Qiaozhu Mei und Dragomir Radev, „Information Retrieval“, The Oxford Handbook of Computational Linguistics, 2. Auflage, Oxford University Press, 2016. Christopher Manning, Prabhakar Raghavan und Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

14 Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan und Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

15 Safiya Umoja Noble, Algorithms of Oppression: How Search Engines Reinforce Racism, NYU Press, 2018.

16 Amin Bigdeli et al., „A Light-Weight Strategy for Restraining Gender Biases in Neural Rankers“, Proceedings of the 44^th European Conference on Advances in Information Retrieval, 2022, S. 47–55.

17 Dhanasekar Sundararaman und Vivek Subramanian, „Debiasing Gender Bias in Information Retrieval Models“, 2022, https://arxiv.org/abs/2208.01755. Shirin Seyed Salehi et al., „Bias-aware Fair Neural Ranking for Addressing Stereotypical gender Biases“, Microsoft Research, 2022.

Was ist Informationsabruf?

Was ist Informationsabruf?

Informationsabruf vs. Datenabruf

Informationsabruf vs. Empfehlungssysteme

Die neuesten KI-Trends, präsentiert von Experten

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

So funktionieren Systeme für den Informationsabruf

Indizierung

Gewichtung

Relevanz-Feedback

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Arten von Techniken für den Informationsabruf

Boolesches Modell

Algebraisches Modell

Probabilistisches Modell

Aktuelle Forschung

Ressourcen

Fußnoten