Extraktionsmuster
Beim Extrahieren von Informationen aus den Dokumenten wendet die Extraktionsengine ein Set fest codierter Wortartmuster (POS-Muster, POS - Part of Speech) auf einen "Stapel" von Wörtern im Text an, um so infrage kommende Terme (Wörter und Wortfolgen) für die Extraktion zu erkennen. Sie können die Extraktionsmuster hinzufügen und bearbeiten.
Die Wortarten (Part of Speech) bestehen aus grammatischen Elementen, z. B. Nomen, Adjektive, Partizip Präteritum, Determinatoren, Präpositionen, Koordinatoren, Vornamen, Initialen und Partikel. Eine Reihe dieser Elemente bildet ein Wortart-Extraktionsmuster. In IBM®-Textminingprodukten ist jede Wortart mit einem einzelnen Buchstaben gekennzeichnet, sodass Sie die Muster leichter definieren können. Ein Adjektiv ist beispielsweise am Kleinbuchstaben a erkennbar. Die unterstützten Codes werden standardmäßig am Anfang jedes Abschnitts für Standardextraktionsmuster aufgeführt, zusammen mit einem Set von Mustern und Beispielen für die Muster, mit denen die verwendeten Codes erläutert werden.
Formatierungsregeln für Extraktionsmuster
- Ein Muster pro Zeile.
- Um ein Muster zu inaktivieren, geben Sie am Anfang der entsprechenden Zeile eine Raute (
#) ein.
Die Reihenfolge, in der Sie die Extraktionsmuster aufführen, ist von großer Bedeutung, weil eine gegebene Wortfolge nur einmal in der Extraktionsengine gelesen und dann dem ersten Extraktionsmuster zugewiesen wird, für das die Engine eine Übereinstimmung erkennt.
Unterstützte Wortartcodes
Die folgende Tabelle enthält alle unterstützten Wortartcodes, die im kompilierten Wörterbuch für Englisch definiert sind.
Alle Wortarten, die in einer bestimmten Vorlage verwendet werden, sind am Anfang von aufgelistet.
Der Hauptunterschied zwischen den Vorlagen "Grundlegende Ressourcen" und "Meinungen" besteht darin, dass bei Verwendung von minimalen Determinatoren ("d") und Präpositionen ("c") in "Grundlegende Ressourcen" deren erweiterte Entsprechungen ("e" und "r") in "Meinungen" verwendet werden. "0" und "1" werden in allen Meinungsvorlagen eingeschränkt verwendet. Siehe .
Andere englische Vorlagen verwenden möglicherweise einige Wortarten, die nicht im Wörterbuch aufgelistet werden (z. B. "w" und "W" in der Vorlage "Market Intelligence"). In diesem Fall werden diese Wortarten aber bestimmten Wörtern unter zugewiesen.
| Code | Bedeutung | Beispiel |
|---|---|---|
| a | Adjektiv | abdominal, blue... |
| A | Nicht verwendet | Nicht verwendet |
| b | Adverb | frequently, often, very, ... |
| B | Nicht verwendet | Nicht verwendet |
| c | Präposition | "of" |
| C | Interner Code für Rechtschreibfehler | |
| d | Determinator | "the" |
| D | Nicht verwendet | Nicht verwendet |
| e | erweiterter Determinator | the, an, my, your... |
| E | Nicht verwendet | Nicht verwendet |
| f | Vorname | John, Mary... |
| F | Nicht verwendet | Nicht verwendet |
| g | Nicht verwendet | Nicht verwendet |
| G | Adjektiv für Nationalität | french, american... |
| h | Nicht verwendet | Nicht verwendet |
| H | Nicht verwendet | Nicht verwendet |
| i | Initiale aller einzelnen Buchstaben, gefolgt von "." | "a.", "w." und einige einzelne Buchstaben wie z. B. "w" (zum Extrahieren von Personennamen wie z. B. John W. Doe) |
| I | Nicht verwendet | Nicht verwendet |
| j | Nicht verwendet | Nicht verwendet |
| J | Nicht verwendet | Nicht verwendet |
| k | Nicht verwendet | Nicht verwendet |
| K | Nicht verwendet | Nicht verwendet |
| l | Nicht verwendet | Nicht verwendet |
| L | Nicht verwendet | Nicht verwendet |
| m | Nomen oder unbekannt | dog, ibm |
| M | Nicht verwendet | Nicht verwendet |
| n | Nomen | dog |
| N | ein paar Eigennamen | ibm |
| o | Koordination | "and", "&" |
| O | Nicht verwendet | Nicht verwendet |
| p | Partizip Perfekt | abandoned, accessorized... |
| P | Nicht verwendet | Nicht verwendet |
| q | Nicht verwendet | Nicht verwendet |
| Q | Qualifikationsmerkmal | expensive, small, good, ... |
| r | Erweiterte Präposition | of, among, against, from... |
| R | Nicht verwendet | Nicht verwendet |
| s | Stoppwort | Alle Wörter, die nicht extrahiert werden sollen |
| S | Nicht verwendet | Nicht verwendet |
| t | Anrede | mrs., mrs, captain, brig., ... |
| T | Nicht verwendet | Nicht verwendet |
| u | Unbekannt per Definition, nicht im Wörterbuch | |
| U | Nicht verwendet | Nicht verwendet |
| v | Verb | eat, eats, ate, eating, ... |
| V | Verb im Infinitiv | eat, ... |
| w | Nicht verwendet | Nicht verwendet |
| W | Nicht verwendet | Nicht verwendet |
| x | Hilfsverb | be |
| X | Nicht verwendet | Nicht verwendet |
| y | Partikel | von, di, de, ... (zum Extrahieren von Personennamen: John von Doe) |
| Y | Nicht verwendet | Nicht verwendet |
| z | Nicht verwendet | Nicht verwendet |
| Z | Nicht verwendet | Nicht verwendet |
| 0 | Meinungsadverb | Nur in Meinungen. Siehe . |
| 1 | "to" in Meinungen | Siehe . |
| 2 | Nicht verwendet | Nicht verwendet |
| 3 | Nicht verwendet | Nicht verwendet |
| 4 | Nicht verwendet | Nicht verwendet |
| 5 | Nicht verwendet | Nicht verwendet |
| 6 | Nicht verwendet | Nicht verwendet |
| 7 | Nicht verwendet | Nicht verwendet |
| 8 | Nicht verwendet | Nicht verwendet |
| 9 | Nicht verwendet | Nicht verwendet |