Was ist Informationsextraktion?

Autoren

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Was ist Informationsextraktion?

Informationsextraktion (IE) ist der automatisierte Prozess der Extraktion strukturierter Informationen aus halbstrukturierten oder unstrukturierten Textdaten, bei dem Textquellen in menschlicher Sprache wie PDFs in ein Format umgewandelt werden, das organisiert, durchsuchbar und maschinenlesbar ist. Die Verarbeitung natürlicher Sprache (NLP) beruht auf der Informationsextraktion, um wichtige Daten im Eingabetext zu identifizieren.

Algorithmen zur Informationsextraktion können Entitäten identifizieren, darunter Namen, Beziehungen, Ereignisse, Stimmungen und mehr, und sie dann klassifizieren und zur weiteren Verwendung in einer Datenbank speichern. Die daraus resultierenden strukturierten Informationen haben ein standardisiertes Format und werden in der Regel in Zeilen und Spalten gespeichert, die ihre Attribute identifizieren. Die standardisierte Speicherung ist das Hauptunterscheidungsmerkmal zwischen strukturierten Daten und unstrukturierten Daten.

Alle Datenwerte in derselben Datenbank entsprechen demselben strukturierten Format mit denselben definierten Attributen. Relationale Attribute werden ebenfalls hervorgehoben, um Datenbanken auf der Grundlage gemeinsamer Attribute miteinander zu verbinden.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Warum ist die Informationsextraktion wichtig?

Mit der Informationsextraktion können Unternehmen Dokumente in umsetzbare Datensätze umwandeln und daraus wertvolle Erkenntnisse gewinnen. Der Markt für intelligente Dokumentenverarbeitung, der durch IE erleichtert wird, soll bis 2030 mit einer durchschnittlichen jährlichen Wachstumsrate (CAGR) von 33,1 % wachsen, ausgehend von einem Wert von 2,3 Milliarden US-Dollar im Jahr 2024.1

Informationsabruf

Systeme zur Informationsextraktion schaffen die Voraussetzungen für den automatisierten Informationsabruf: die Verwendung von Algorithmen der künstlichen Intelligenz (KI), um relevante Daten automatisch aus Wissensdatenbanken zu finden und abzurufen. Der Informationsabruf ist ein wesentlicher Bestandteil der Retrieval-Augmented Generation (RAG), einem Prozess, bei dem Large Language Models (LLMs) Zugang zu mehr Daten erhalten, um eine hohe Genauigkeit in domänenspezifischen Anwendungsfällen zu erzielen. 

RAG kann LLM-Chatbots bei der Anwendung auf Aufgaben zur Beantwortung von Fragen genauer machen, da das LLM auf mehr Wissen außerhalb seiner Trainingsdaten zurückgreifen kann, um bessere Antworten zu generieren.

Datengesteuerte Entscheidungsfindung

Unternehmensleiter können die extrahierten Informationen nutzen, um datengestützte Entscheidungen in Echtzeit zu treffen. IE ist eine Vorstufe im größeren Informationsverarbeitungszyklus, in dem Informationen erfasst, organisiert, gespeichert, bearbeitet und zur Nutzung bereitgestellt werden. 

Datenpipelines liefern Informationen innerhalb eines Unternehmens und verbinden Eingabepunkte – beispielsweise Online-Bestellungen – mit Datenbanken. Von dort aus greifen Tools zur Datenvisualisierung auf diese Daten zu, um in Echtzeit Diagramme und Grafiken zu erstellen, die umsetzbare Erkenntnisse liefern, die die strategische Entscheidungsfindung vorantreiben. 

Die großen strukturierten Datenmengen, die von Informationssystemen ausgegeben werden, können zur Erstellung von Berichten und Zusammenfassungen verwendet werden. Maschinelle Lernalgorithmen für IE können auch eine Textzusammenfassung durchführen, um detaillierte Dokumente in schnell erfassbare Aufzählungen mit Anmerkungen für eine schnelle Referenz zu verdichten. 

Zum Beispiel kann IE im Gesundheitswesen automatisch einen Patientenbericht aus mehreren Dateien zusammenstellen, was es Ärzten möglicherweise erleichtert, Probleme zu diagnostizieren und Behandlungen zu verschreiben. Finanzexperten können mit Informationen aus mehreren Berichten, Nachrichtenartikeln und anderen Quellen genauere Prognosen erstellen.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Arten der Informationsextraktion

Aufgaben zur Informationsextraktion werden nach dem Typ der zu identifizierenden und zu beschriftenden Informationen kategorisiert. IE-Systeme können Aufgaben wie die folgenden bewältigen: 

  • Named Entity Recognition (NER) 
  • Beziehungsextraktion
  • Ereignisextraktion 
  • Stimmungsanalyse

Named Entity Recognition (NER) 

Named Entity Recognition ist die IE-Aufgabe, bei der benannte Entitäten in unstrukturierten Daten identifiziert werden. Benannte Entitäten sind Objekte aus der realen Welt, die eindeutig identifiziert werden können. Im Wesentlichen handelt es sich um die Eigennamen von Daten. Benannte Entitäten umfassen Personen, Daten, Unternehmen, Orte und Produkte und können sowohl physisch als auch abstrakt sein. 

Im Satz „Seit Januar 2025 ist Arvind Krishna CEO von IBM“ sind die benannten Entitäten Januar 2025, Arvind Krishna, CEO und IBM

Verknüpfung von Entitäten

Bei der Verknüpfen von Entitäten wird ermittelt, ob sich mehrere Entitäten auf dasselbe Objekt in der realen Welt beziehen. Bei der Durchführung einer Informationssuche zu einem Artikel, in dem „Arvind Krishna“, „Krishna“ und „CEO von IBM“ erwähnt werden, würde eine Entität, die Unteraufgaben verknüpft, alle drei als Verweise auf dieselbe Person identifizieren. Die Verknüpfung von Entitäten wird auch als Koreferenz-Auflösung bezeichnet.

Relation Extraction (RE)

Die Extraktion von Beziehungen ist die Aufgabe der Informationsextraktion, bei der die Beziehungen zwischen Entitäten in einer Datenquelle identifiziert und kategorisiert werden. Das Aufdecken von Beziehungen zwischen Entitäten kann die Grundlage für Erkenntnisse bilden, die sonst möglicherweise unbemerkt bleiben würden. 

In unserem Beispielsatz vom Anfang dieses Abschnitts würde der RE-Prozess eine „arbeitet bei“-Verbindung zwischen „Arvind Krishna“ und „IBM“ mit dem Titel „CEO“ herstellen.

Relation Extraction vs. Relationship Extraction

Die Begriffe „Relation Extraction“ und „Relationship Extraction“ werden oft synonym verwendet, aber einige Data Scientists plädieren für eine feine Unterscheidung. Während die Relationship Extraction jeden Versuch umfasst, die Beziehungen zwischen Entitäten zu erkennen, wird die Relation Extraction am häufigsten im Zusammenhang mit der Anwendung von Modellen des maschinellen Lernens zur Erfüllung dieser Aufgabe verwendet.

Ereignisextraktion

Bei der Ereignisextraktion erkennen IE-Systeme einzelne Ereignisse in einem Eingabetext. Wörter wie „Termin“ oder „Besprechung“ können eine Ereignisextraktionssequenz auslösen, ebenso wie Datumsangaben. Die Ereignisextraktion umfasst das Ereignis selbst, die Uhrzeit und das Datum, zu dem es stattgefunden hat, sowie alle genannten Teilnehmer. 

Im Beispielsatz „Arvind Krishna nahm an der Konferenz im Januar 2025 teil“ würde ein Algorithmus zur Ereignisextraktion erkennen, dass im Januar 2025 eine Konferenz stattfand und dass einer der Teilnehmer der CEO von IBM, Arvind Krishna, war.

Stimmungsanalyse

Die Stimmungsanalyse ermittelt die Stimmung, die durch einen Text vermittelt wird. Die Stimmungsanalyse ist ein wertvolles Tool für die Marktforschung und das Verständnis des Kundenverhaltens. 

Wenn ein Datensatz mit Nutzerbewertungen vorliegt, kann ein IE-Algorithmus semantische Erkenntnisse liefern, die Aufschluss darüber geben, wie viel Prozent der Verbraucher eine positive, negative oder neutrale Meinung zu einem Produkt haben. Produktmanager können diese Erkenntnisse dann nutzen, um das Produkt so zu optimieren, dass es für einen größeren Teil ihrer aktuellen und potenziellen Nutzer attraktiver wird.

Wie funktioniert die Informationsextraktion?

Bei der Informationsextraktion werden unstrukturierte Datenquellen mit Algorithmen des maschinellen Lernens analysiert, um aussagekräftige Daten zu identifizieren. IE-Systeme kennzeichnen die erkannten Datenelemente und speichern sie in einer organisierten, abfragbaren Datenbank, um sie effizient abrufen zu können. 

Zu den Techniken der Informationsextraktion gehören: 

  • Regelbasiert
  • Klassifizierung (maschinelles Lernen)
  • Sequenzkennzeichnung

Diese Methoden schließen sich nicht gegenseitig aus – Fortschritte in der Informationsökonomie haben zu Hybridmodellen geführt, die Methoden kombinieren, um bessere Ergebnisse zu erzielen.

Regelbasierte Informationsextraktion

Die regelbasierte Informationsextraktion analysiert Dokumente, um Entitäten auf der Grundlage festgelegter „Regeln“ zu identifizieren – vordefinierte Muster und Definitionen, die über die Entitäten im Text bekannt sind. Regelbasierte Informationsauswertung wird am häufigsten auf halbstrukturierte Datenquellen angewendet – Daten, die nicht vollständig strukturiert sind, aber dennoch einige identifizierende Merkmale wie Tags oder Metadaten aufweisen. 

Die regelbasierte Top-down-IE arbeitet von allgemeinen Fällen zu spezifischen Fällen, während die Bottom-up-Methode den umgekehrten Weg geht.

Klassifikationsbasierte Informationsextraktion

Klassifikationsbasierte IE ist ein zweistufiger Prozess, der die Informationsextraktion als Aufgabe des klassifizierenden überwachten Lernens betrachtet. Zunächst werden Modelle für maschinelles Lernen anhand gekennzeichneter Datensätze trainiert, um die Zusammenhänge zwischen Entitäten und ihren entsprechenden Attributen zu erlernen. Die Modelle sagen dann die Labels für die Entitäten voraus, die sie in neuen unstrukturierten Daten identifizieren. 

Sequenzkennzeichnung

Die Sequenzkennzeichnung ist der Eckpfeiler der NLP und verwendet Modelle des Deep Learning, um die Komponenten einer Eingabesequenz zu identifizieren und zu kennzeichnen – beispielsweise die Wörter in einem Prompt eines Chatbots. Die Sequenzkennzeichnung ist ein kritischer NLP-Vorverarbeitungsschritt, der dazu beiträgt, dass neuronale Netze genau wissen, wie sie die Eingabedaten interpretieren müssen. 

Neben der Identifizierung von Entitäten in Daten erfasst die Sequenzkennzeichnung auch Abhängigkeiten zwischen Teilen einer Eingabesequenz. Abhängigkeiten sind ein spezieller Typ von Beziehung, bei dem ein Teil einer Eingabesequenz von der korrekten Interpretation eines anderen Teils abhängt. Transformator-Modelle wie General-Purpose-Technologien (GPTs) zeichnen sich durch ihre Fähigkeit aus, Abhängigkeiten zu erfassen, weshalb sie das kontextbezogene Verständnis über lange Eingabesequenzen hinweg aufrechterhalten können.

Weitere Lösungen
IBM® watsonx™ Orchestrate®

Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate
Tools und APIs zur Verarbeitung natürlicher Sprache

Steigern Sie den Geschäftswert der künstlichen Intelligenz mit einem leistungsstarken und flexiblen Portfolio aus Bibliotheken, Diensten und Anwendungen.

NLP-Lösungen erkunden
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate NLP-Lösungen erkunden