Informationsabruf befasst sich mit dem Abrufen von Daten für Benutzeranfragen. Er unterstützt Suchwerkzeuge wie Bibliothekskataloge und Websuchmaschinen.
Informationsabruf (Information Retrieval, IR) ist ein weites Feld der Informatik und Informationswissenschaft. Generell geht es um das Auffinden unstrukturierter Daten in einer großen Sammlung zur Erfüllung eines bestimmten Informationsbedarfs.1 Ein IR-System – Information Retrieval System – stellt Material als Antwort auf eine bestimmte Anfrage bereit. Das System sucht in den Sammlungen nach Elementen, die für die Anfrage des Benutzers relevant sind. Anschließend werden diese Elemente an den Benutzer zurückgegeben, normalerweise in Listenform, sortiert nach berechneter Relevanz.2
IR-Systeme und -Techniken bilden die Grundlage für eine Reihe von Tools, wie z. B. Web-Suchmaschinen und Digital Library-Kataloge.
Beachten Sie, dass viele Online-Quellen IR-Systeme mit der Datenabfrage vergleichen: IR-Systeme rufen unstrukturierte Informationen ab, wie z. B. Textdokumente und Webseiten. Die Datenabfrage befasst sich dagegen mit strukturierten Daten, wie sie in relationalen Datenbankverwaltungssystemen zu finden sind. Darüber hinaus verwendet die Datenabfrage eine strukturierte Abfragesprache (SQL) für die Durchführung von Suchanfragen.
Diese Unterscheidung zwischen IR als unstrukturiert und nicht-relational und Datenabruf als strukturiert und relational ist jedoch nicht so eindeutig, wie viele Online-Quellen vermuten lassen. IR-Systeme indizieren und strukturieren somit die Informationen. Obwohl IR sich üblicherweise mit der Abfrage von Rohtexten befasst, verwenden einige IR-Systeme XML zur Darstellung und Indizierung von Texten. In der Forschungsliteratur werden XML-basierte Systeme häufig als Zweig der IR beschrieben, der als strukturierter Abruf oder halbstrukturierter Abruf bezeichnet wird.3 Darüber hinaus wird in der Literatur seit Jahrzehnten die Verwendung relationaler IR-Modelle untersucht.4
Die Unterscheidung zwischen IR und Datenabruf ist also mehrdeutiger als gemeinhin angenommen. Da Daten per Definition Informationen sind, ist der strukturierte Datenabruf wahrscheinlich besser als eine Art des Informationsabrufs zu verstehen.
IR ist nicht mit Empfehlungssystemen gleichzusetzen. Empfehlungstechniken des maschinellen Lernens – wie die kollaborative Filterung und die inhaltsbasierte Filterung– können vielleicht als eine Form der Informationsfilterung verstanden werden, einer Teilaufgabe von IR-Systemen. Dennoch unterscheiden sich IR- und Empfehlungssysteme. IR erfordert traditionell eine Benutzerabfrage. Empfehlungsmaschinen rufen in der Regel Objekte ohne Benutzerabfrage ab.5
Verschiedene IR-Modelle stellen Informationen unterschiedlich dar. Die gewählte Form der Dokumentdarstellung bestimmt weitgehend, wie das Modell Informationen sucht und abruft. Dennoch sind Indexierung, Gewichtung und Relevanz-Feedback drei Techniken zur Informationsbeschaffung, die in IR-Modellen üblich sind.
Die Indizierung läuft im Wesentlichen auf die Erstellung von Metadaten hinaus.6 Viele Menschen haben schon einmal einen Index auf der Rückseite eines gedruckten Buches gesehen. Es handelt sich dabei um einen strukturierten Satz an Wörtern, die aus einem bestimmten Druckdokument zusammengestellt wurden und es dem Leser ermöglichen, schnell auf Passagen zu bestimmten Themen zuzugreifen. Der IR-Index ist ähnlich. Ein IR-Index (oder invertierter Index) ist eine Datenstruktur, die aus einer Reihe von Dokumenten stammt und der Verbesserung der Ergebnisse von Suchanfragen dient.7
Für den Indexaufbau muss zunächst ein Dokument zur Merkmalsextraktion analysiert werden. Nehmen wir zum Beispiel an, wir erstellen ein IR-System für textbasierte Dokumente. Wie bei der Verarbeitung natürlicher Sprache (NLP) üblich, bereiten wir die Dokumentensammlung mit verschiedenen Vorverarbeitungstechniken vor, wie z. B. Tokenisierung und die Entfernung von Stoppwörtern. Das IR-System stellt diese verarbeitete Sammlung von Dokumenten dann als organisierte Datenstruktur dar. Eine solche Struktur ist ein Wörterbuch, in dem jedes Dokument eine ID hat, auf die die darin enthaltenen Wörter (oder Indexbegriffe) verweisen.8 Eine weitere mögliche Datenstruktur für ein Textabrufsystem ist ein Vektorraummodell, wie z. B. ein Bag of Words.9 Bei beiden Ansätzen werden Wörter als Merkmale extrahiert, die dann verwendet werden, um Dokumente als Antwort auf Benutzeranfragen abzurufen und zu ordnen.
Wie ordnet ein Suchsystem ungefähre oder exakte Treffer für eine bestimmte Anfrage an? Ansätze für das Ranking und die Abfrage von Informationen hängen sowohl von der Art des Informationsabrufmodells als auch von der Form der im System verwendeten Dokumentendarstellung ab. Indexbegriffe spielen jedoch eine wichtige Rolle beim Ranking von Dokumenten, das ein IR-System bei der Beantwortung von Suchanfragen vornimmt. Aber nicht alle Indexbegriffe sind gleich. IR-Systeme verwenden daher verschiedene Methoden, um Indexbegriffe nach ihrer wahrgenommenen Bedeutung zu gewichten.
IR-Systeme, die Vektorraummodelle wie Bag of Words verwenden, können Term Frequency-Inverse Document Frequency (TF-IDF) verwenden. TF-IDF ist eine Variante von Bag of Words, die die Häufigkeit eines Wortes in jedem Dokument des Textsatzes berücksichtigt. Je mehr Dokumente ein bestimmtes Wort vorkommt, desto größer ist der TF-IDF, der das Gewicht dieses Wortes reduziert. Weitere Ansätze sind Singular Value Decomposition (SVD) und die latente semantische Analyse (LSA), wobei letztere ein gängiger Ansatz zur Themenmodellierung ist.10
Solche Gewichtungsansätze wirken sich auf das Ranking von Dokumenten in IR-Systemen bei der Beantwortung von Anfragen aus. Die verschiedenen Arten von IR-Modellen verwenden diese Gewichte für das Ranking jedoch auf unterschiedliche Weise.
Wie könnte ein System seine Suchergebnisse verbessern? Wie könnte ein System also die Suche eines Benutzers feiner abstimmen und die Anzahl der zurückgegebenen relevanten Dokumente erhöhen?
Relevanz-Feedback ist eine gängige Methode zur Informationsabfrage, um Suchergebnisse zu verbessern. Beim Relevanz-Feedback werden grundsätzlich Informationen über die Reaktion der Benutzer auf eine erste Reihe von Abfrageergebnissen gesammelt. Das System gewichtet dann die Relevanz der Artikel anhand der Antworten des Benutzers neu. Anschließend wird eine neue Reihe von Suchergebnissen zurückgegeben, die die ursprüngliche Abfrage und das Feedback des Benutzers zu dieser ersten Reihe von Abfrageergebnissen enthalten.
Beim Relevanz-Feedback geben die Benutzer in der Regel explizite Antworten auf die Relevanz der abgerufenen Dokumente. Implizites Feedback ist eine Variante, bei der die Relevanz von Objekten aus dem Benutzerverhalten abgeleitet wird – zum Beispiel, welche Website-Links ein Benutzer auf einer Suchergebnisseite anklickt. Das Pseudo-Relevanz-Feedback geht davon aus, dass die ersten n abgerufenen Dokumente einer Anfrage relevant sind. Anschließend werden weitere gemeinsame Merkmale dieser Dokumente gesammelt, um die Abfrage weiter zu modifizieren.11
Es gibt zahlreiche Arten von Information-Retrieval-Modellen. Um auch nur eine erschöpfende Zusammenfassung zu liefern, ist eine viel umfangreichere Diskussion erforderlich. Dennoch überschneiden sich IR-Lehrbücher und enzyklopädische Übersichten oft, indem sie drei allgemeine IR-Methoden erwähnen: boolesch, algebraisch und probabilistisch.
Boolesche Modelle sind vielleicht die einfachsten, ja sogar die simpelsten IR-Modelle. Sie verwenden, wie zuvor beschrieben, eine Wörterbuchstruktur von Indexbegriffen. Vorhandensein von Wörtern aus der Suchanfrage eines Benutzers in den abgerufenen Dokumenten. Wenn ein Benutzer z. B. die Anfrage „Jazz AND Dancing“ stellt, ruft das boolesche Modell nur die Dokumente ab, die die Wörter Jazz AND Dancing in Kombination enthalten. Boolesche Modelle berücksichtigen dabei nur das Vorhandensein oder Fehlen von Wörtern in einem Dokument; partielle Übereinstimmungen gibt es in booleschen Retrievalsystemen nicht. Textvorverarbeitungstechniken wie Stemming und Lemmatization können dieses Problem morphologischer Varianten lösen – wie z. B. Dokumente, die dance, dances, oder dancer enthalten, anstatt nur die Abfrage dancing des Benutzers.
Wie bereits erwähnt, berücksichtigen Boolesche Modelle nur das Vorhandensein und Fehlen von Wörtern. Bei diesem binären Entscheidungskriterium fehlt eine Bewertungsskala, um zu bestimmen, welche Dokumente für die Anfrage eines Benutzers am relevantesten sind. Eine mögliche Lösung besteht darin, Dokumente anhand der Häufigkeit der darin enthaltenen Suchbegriffe zu bewerten. Mit anderen Worten: Je häufiger in einem Dokument die Begriffe Jazz und Tanzen vorkommen, desto relevanter ist das Modell für die Suchanfrage des Benutzers. Eine höhere Häufigkeit der Begriffe bedeutet jedoch nicht unbedingt eine größere Relevanz. Trotz dieses potenziellen Nachteils wurden Boolesche Modelle aufgrund ihrer einfachen Implementierung in vielen IR-Systemen verwendet.12
Die boolesche Dokumentensuche verhindert jede Form von Teilübereinstimmung. Algebraische und probabilistische Modelle lösen dieses Problem, indem sie den Indexbegriffen nicht-binäre Gewichte zuweisen.
Ein repräsentatives algebraisches Modell ist das Vektorraummodell. Bei diesem Ansatz stellt das IR-System Dokumente und Abfragen als Vektoren in einem mehrdimensionalen Vektorraum dar. In diesem Raum sind Indexbegriffe wahrscheinlich Merkmale des Vektorraums, und Abfragen und Dokumente werden entsprechend der Präsenz und Häufigkeit, mit der sie Indexbegriffe enthalten, in diesem Raum dargestellt. Das IR-System berechnet die Ähnlichkeit zwischen einer Suchanfrage und Dokumenten anhand ihrer Nähe im Vektorraum.
Es gibt eine Reihe von Metriken zur Bestimmung der Nähe in einem Vektorraummodell, wie z. B. Jaccard und das Skalarprodukt. Einer der häufigsten ist jedoch die Kosinus-Ähnlichkeit, die durch die folgende Formel dargestellt wird:

Hierbei stehen x und y für zwei Vektoren im Vektorraum. Der Kosinus-Ähnlichkeitswert kann einen beliebigen Wert zwischen -1 und 1 annehmen. Je höher der Kosinus-Wert, desto ähnlicher sind sich zwei Elemente.
Das IR-Vektorraummodell gibt Dokumente in der Reihenfolge ihres gemessenen Ähnlichkeitsgrades zurück. Auf diese Weise ermöglichen algebraische IR-Systeme wie das Vektorraummodell einen partiellen Abgleich, der möglicherweise eine präzisere oder nuanciertere Form des Informationsabrufs darstellt.13
Wahrscheinlichkeitsmodelle ermöglichen auch eine teilweise Übereinstimmung zwischen Benutzerabfragen und Dokumenten. Wahrscheinlichkeitsmodelle basieren auf der Annahme, dass für eine bestimmte Abfrage ein idealer Satz abgerufener Informationssystemressourcen vorliegt. Dieser ideale Satz ist allerdings unbekannt. Aber die Semantik der Indexbegriffe kann die Eigenschaften dieses Satzes charakterisieren.
Wie algebraische Modelle verwenden probabilistische Modelle den Indexbegriff „Vorhandensein und Häufigkeit“, um die Ähnlichkeit zwischen Abfragen und Dokumenten zu bestimmen. Probabilistische Modelle unterscheiden sich jedoch dadurch, dass sie zusätzliche Faktoren berücksichtigen. Beispielsweise können sie die Häufigkeit von Indexbegriffen – wie oft Indexbegriffe in einem Dokument gemeinsam vorkommen – in Bezug auf die Gesamtlänge des Dokuments oder wie oft ein einzelner Indexbegriff in allen Abfrageausdrücken einer bestimmten Abfrage vorkommt, berücksichtigen. Dies sind nur einige der möglichen Faktoren, die berücksichtigt werden – eine detailliertere Diskussion erfordert ein gründlicheres Verständnis der Wahrscheinlichkeitstheorie.
Nicht alle probabilistischen Modelle berücksichtigen bei der Berechnung der Dokumentenähnlichkeit oder -wahrscheinlichkeit dieselben Faktoren. So wird beispielsweise beim Binären-Unabhängigkeitsmodell (BIM), dem ersten probabilistischen IR-Modell, die Termfrequenz nicht berücksichtigt. Ein Modell, das die Technik der thematischen Modellierung,die latente Dirichlet-Allokation (LDA), einbezieht, wird jedoch die Term-Häufigkeit berücksichtigen.14
Verzerrung. Web-Suchmaschinen sind vielleicht einer der bekanntesten Anwendungsfälle für IR. Das Textzusammenfassungstool PageRank wird verwendet, um Webseiten (HTML-Dokumente) abzurufen und zu bewerten. Die Forschung hat die bedauerliche Tatsache eindeutig belegt, dass Suchalgorithmen eine Vielzahl von Vorurteilen, wie z. B. rassistische und geschlechtsspezifische, aufrechterhalten.15 Als Reaktion darauf untersuchen veröffentlichte Experimente eine Vielzahl von Methoden zur Reduzierung sozialer Verzerrungen in IR-Systemen, wie z. B. negative Stichproben16 und Algorithmen, die Verzerrungen berücksichtigen, die Strafen für verzerrte Ergebnisse beinhalten.17 Die Reduzierung von Verzerrungen ist ein wichtiger Bereich für die Forschung, um eine ethische Praxis im Bereich der IR und sogar der künstlichen Intelligenz zu entwickeln.
Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.
Steigern Sie den Geschäftswert der künstlichen Intelligenz mit einem leistungsstarken und flexiblen Portfolio aus Bibliotheken, Diensten und Anwendungen.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
1 Christopher Manning, Prabhakar Raghavan und Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.
2 Qiaozhu Mei und Dragomir Radev, „Information Retrieval“, The Oxford Handbook of Computational Linguistics, 2. Auflage, Oxford University Press, 2016.
3 Christopher Manning, Prabhakar Raghavan und Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009. Mounia Lalmas and Ricardo Baeza-Yates, „Structured Document Retrieval”, Encyclopedia of Database Systems, Springer, 2018.
4 Robert Crawford, „The relational model in information retrieval,” Journal of the American Society for Information Science, Vol. 32, Nr. 1, 1981, S. 51-64.
5 Alejandro Bellogín and Alan Said, „Information Retrieval and Recommender Systems,” Data Science in Practice, Springer, 2018.
6 Jeffrey Pomerantz, Metadata, MIT Press, 2015.
7 Steven Beitzel, Eric Jensen und Ophir Frieder, „Index Creation and File Structures“, Encyclopedia of Database Systems, Springer, 2018.
8 Christopher Manning, Prabhakar Raghavan und Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.
9 Qiaozhu Mei und Dragomir Radev, „Information Retrieval“, The Oxford Handbook of Computational Linguistics, 2. Auflage, Oxford University Press, 2016.
10 Qiaozhu Mei und Dragomir Radev, „Information Retrieval“, The Oxford Handbook of Computational Linguistics, 2.Auflage, Oxford University Press, 2016. Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999.
11 Qiaozhu Mei und Dragomir Radev, „Information Retrieval“, The Oxford Handbook of Computational Linguistics, 2.Auflage, Oxford University Press, 2016. Stefan Büttcher, Charles Clarke, and Gordon Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2016.
12 Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan und Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.
13 Qiaozhu Mei und Dragomir Radev, „Information Retrieval“, The Oxford Handbook of Computational Linguistics, 2. Auflage, Oxford University Press, 2016. Christopher Manning, Prabhakar Raghavan und Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.
14 Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan und Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.
15 Safiya Umoja Noble, Algorithms of Oppression: How Search Engines Reinforce Racism, NYU Press, 2018.
16 Amin Bigdeli et al., „A Light-Weight Strategy for Restraining Gender Biases in Neural Rankers“, Proceedings of the 44th European Conference on Advances in Information Retrieval, 2022, S. 47–55.
17 Dhanasekar Sundararaman und Vivek Subramanian, „Debiasing Gender Bias in Modellen zum Informationsabruf“, 2022, https://arxiv.org/abs/2208.01755. Shirin Seyed Salehi et al., „Bias-aware Fair Neural Ranking for Addressing Stereotypical gender Biases“, Microsoft Research, 2022.