Extraktionsmuster

Beim Extrahieren von Informationen aus den Dokumenten wendet die Extraktionsengine ein Set fest codierter Wortartmuster (POS-Muster, POS - Part of Speech) auf einen "Stapel" von Wörtern im Text an, um so infrage kommende Terme (Wörter und Wortfolgen) für die Extraktion zu erkennen. Sie können die Extraktionsmuster hinzufügen und bearbeiten.

Die Wortarten (Part of Speech) bestehen aus grammatischen Elementen, z. B. Nomen, Adjektive, Partizip Präteritum, Determinatoren, Präpositionen, Koordinatoren, Vornamen, Initialen und Partikel. Eine Reihe dieser Elemente bildet ein Wortart-Extraktionsmuster. In IBM®-Textminingprodukten ist jede Wortart mit einem einzelnen Buchstaben gekennzeichnet, sodass Sie die Muster leichter definieren können. Ein Adjektiv ist beispielsweise am Kleinbuchstaben a erkennbar. Die unterstützten Codes werden standardmäßig am Anfang jedes Abschnitts für Standardextraktionsmuster aufgeführt, zusammen mit einem Set von Mustern und Beispielen für die Muster, mit denen die verwendeten Codes erläutert werden.

Formatierungsregeln für Extraktionsmuster

  • Ein Muster pro Zeile.
  • Um ein Muster zu inaktivieren, geben Sie am Anfang der entsprechenden Zeile eine Raute (#) ein.

Die Reihenfolge, in der Sie die Extraktionsmuster aufführen, ist von großer Bedeutung, weil eine gegebene Wortfolge nur einmal in der Extraktionsengine gelesen und dann dem ersten Extraktionsmuster zugewiesen wird, für das die Engine eine Übereinstimmung erkennt.

Unterstützte Wortartcodes

Die folgende Tabelle enthält alle unterstützten Wortartcodes, die im kompilierten Wörterbuch für Englisch definiert sind.

Alle Wortarten, die in einer bestimmten Vorlage verwendet werden, sind am Anfang von Erweiterte Ressourcen > Extraktionsmuster aufgelistet.

Der Hauptunterschied zwischen den Vorlagen "Grundlegende Ressourcen" und "Meinungen" besteht darin, dass bei Verwendung von minimalen Determinatoren ("d") und Präpositionen ("c") in "Grundlegende Ressourcen" deren erweiterte Entsprechungen ("e" und "r") in "Meinungen" verwendet werden. "0" und "1" werden in allen Meinungsvorlagen eingeschränkt verwendet. Siehe Erweiterte Ressourcen > Sprachenbehandlung (Englisch) > Erzwungene Definitionen und Extraktionsmuster.

Andere englische Vorlagen verwenden möglicherweise einige Wortarten, die nicht im Wörterbuch aufgelistet werden (z. B. "w" und "W" in der Vorlage "Market Intelligence"). In diesem Fall werden diese Wortarten aber bestimmten Wörtern unter Erweiterte Ressourcen > Erzwungene Definitionen zugewiesen.

Tabelle 1. Unterstützte Wortartcodes
Code Bedeutung Beispiel
a Adjektiv abdominal, blue...
A Nicht verwendet Nicht verwendet
b Adverb frequently, often, very, ...
B Nicht verwendet Nicht verwendet
c Präposition "of"
C Interner Code für Rechtschreibfehler  
d Determinator "the"
D Nicht verwendet Nicht verwendet
e erweiterter Determinator the, an, my, your...
E Nicht verwendet Nicht verwendet
f Vorname John, Mary...
F Nicht verwendet Nicht verwendet
g Nicht verwendet Nicht verwendet
G Adjektiv für Nationalität french, american...
h Nicht verwendet Nicht verwendet
H Nicht verwendet Nicht verwendet
i Initiale aller einzelnen Buchstaben, gefolgt von "." "a.", "w." und einige einzelne Buchstaben wie z. B. "w" (zum Extrahieren von Personennamen wie z. B. John W. Doe)
I Nicht verwendet Nicht verwendet
j Nicht verwendet Nicht verwendet
J Nicht verwendet Nicht verwendet
k Nicht verwendet Nicht verwendet
K Nicht verwendet Nicht verwendet
l Nicht verwendet Nicht verwendet
L Nicht verwendet Nicht verwendet
m Nomen oder unbekannt dog, ibm
M Nicht verwendet Nicht verwendet
n Nomen dog
N ein paar Eigennamen ibm
o Koordination "and", "&"
O Nicht verwendet Nicht verwendet
p Partizip Perfekt abandoned, accessorized...
P Nicht verwendet Nicht verwendet
q Nicht verwendet Nicht verwendet
Q Qualifikationsmerkmal expensive, small, good, ...
r Erweiterte Präposition of, among, against, from...
R Nicht verwendet Nicht verwendet
s Stoppwort Alle Wörter, die nicht extrahiert werden sollen
S Nicht verwendet Nicht verwendet
t Anrede mrs., mrs, captain, brig., ...
T Nicht verwendet Nicht verwendet
u Unbekannt per Definition, nicht im Wörterbuch  
U Nicht verwendet Nicht verwendet
v Verb eat, eats, ate, eating, ...
V Verb im Infinitiv eat, ...
w Nicht verwendet Nicht verwendet
W Nicht verwendet Nicht verwendet
x Hilfsverb be
X Nicht verwendet Nicht verwendet
y Partikel von, di, de, ... (zum Extrahieren von Personennamen: John von Doe)
Y Nicht verwendet Nicht verwendet
z Nicht verwendet Nicht verwendet
Z Nicht verwendet Nicht verwendet
0 Meinungsadverb Nur in Meinungen. Siehe Erweiterte Ressourcen > Sprachenbehandlung (Englisch) > Erzwungene Definitionen.
1 "to" in Meinungen Siehe Erweiterte Ressourcen > Sprachenbehandlung (Englisch) > Erzwungene Definitionen.
2 Nicht verwendet Nicht verwendet
3 Nicht verwendet Nicht verwendet
4 Nicht verwendet Nicht verwendet
5 Nicht verwendet Nicht verwendet
6 Nicht verwendet Nicht verwendet
7 Nicht verwendet Nicht verwendet
8 Nicht verwendet Nicht verwendet
9 Nicht verwendet Nicht verwendet