Dokumenteinstellungen der Registerkarte "Felder"

Formatierung als gegliederter Text

Wenn Sie den gesamten Extraktionsprozess oder Teile des Extraktionsprozesses überspringen möchten, da strukturierte Daten vorliegen oder Sie Regeln zur Behandlung des Texts festlegen möchten, verwenden Sie die Dokumenttypoption Gegliederter Text und deklarieren Sie die Felder bzw. Tags mit dem Text im Abschnitt Formatierung als gegliederter Text des Dialogfelds "Dokumenteinstellungen". Extrahierte Terme werden nur von dem Text abgeleitet, der sich in den deklarierten Feldern bzw. Tags (und untergeordneten Tags) befindet. Nicht deklarierte Felder oder Tags werden ignoriert.

In bestimmten Kontexten ist die linguistische Verarbeitung nicht erforderlich und die linguistische Extraktionsengine kann durch explizite Deklarationen ersetzt werden. In einer Bibliografiedatei, in der die Schlüsselwortfelder durch Trennzeichen getrennt sind, z. B. durch ein Semikolon (;) oder ein Komma (,), genügt es, die Zeichenfolge zwischen zwei Trennzeichen zu extrahieren. Daher können Sie den gesamten Extraktionsprozess überspringen und stattdessen spezielle Regeln zum Umgang definieren, um Trennzeichen für Terme zu deklarieren, dem extrahierten Text Typen zuzuweisen oder einen minimalen Häufigkeitswert für die Extraktion festzulegen.

Verwenden Sie beim Deklarieren von gegliederten Textelementen die folgenden Regeln:

  • Pro Zeile kann nur ein Feld, Tag oder Element deklariert werden. Sie müssen nicht in den Daten vorhanden sein.
  • Bei Deklarationen muss die Groß-/Kleinschreibung beachtet werden.
  • Wenn beim Deklarieren eines Tags Attribute vorliegen, z. B. <title id="1234">, und Sie alle Variationen bzw. in diesem Fall alle IDs einbeziehen möchten, fügen Sie den Tag ohne das Attribut oder die spitze schließende Klammer (>) wie folgt hinzu: <title
  • Fügen Sie nach dem Feld bzw. Tagnamen einen Doppelpunkt hinzu, um anzugeben, dass es sich um gegliederten Text handelt. Fügen Sie diesen Doppelpunkt direkt nach dem Feld bzw. Tag und vor allen Trennzeichen, Typen oder Häufigkeitswerten (z. B. author: oder <place>:) hinzu.
  • Um anzugeben, dass das Feld oder der Tag mehrere Terme enthält und zum Definieren der einzelnen Terme ein Trennzeichen verwendet wird, deklarieren Sie das Trennzeichen nach dem Doppelpunkt (z. B. author:, oder <section>:;).
  • Um dem Inhalt im Tag einen Typ zuzuweisen, deklarieren Sie den Typnamen nach dem Doppelpunkt und einem Trennzeichen (z. B. author:,Person oder <place>:;Location. Deklarieren Sie den Typ mithilfe der Namen, die im Ressourceneditor angezeigt werden.
  • Um einen minimalen Häufigkeitswert für ein Feld oder einen Tag anzugeben, deklarieren Sie am Ende der Zeile eine Zahl (z. B. author:,Person1 oder <place>:;Location5). Dabei steht n für den Häufigkeitswert, den Sie definiert haben. Im Feld oder Tag gefundene Terme müssen in der Gesamtmenge der Dokumente bzw. Datensätze, die extrahiert werden soll, mindestens n-mal vorkommen. Des Weiteren muss ein Trennzeichen definiert werden.
  • Wenn ein Tag mit einem Doppelpunkt vorliegt, muss dem Doppelpunkt ein Backslash-Zeichen vorangestellt werden, damit die Deklaration nicht ignoriert wird. Geben Sie also beispielsweise das Feld <topic:source> folgendermaßen ein: <topic\:source>.

Nehmen wir zur Veranschaulichung an, dass folgende wiederkehrende bibliografische Felder vorliegen:


		author:Morel, Kawashima
		abstract:This article describes how fields are declared.
		publication:Text Mining Documentation
		datepub:March 2010

Falls sich der Extraktionsprozess in diesem Beispiel auf den Autor sowie die Kurzdarstellung konzentrieren und den restlichen Inhalt ignorieren soll, werden nur die folgenden Felder deklariert:

		author:,Person1
		abstract:

In diesem Beispiel gibt die Felddeklaration author:,Person1 an, dass die linguistische Verarbeitung beim Inhalt des Felds ausgesetzt wurde. Es wird stattdessen angegeben, dass das Feld zum Autor mehrere Namen enthält, die mit einem Komma als Trennzeichen voneinander getrennt sind und die dem Typ "Person" zugewiesen werden sollen. Des Weiteren wird angegeben, dass der Name extrahiert werden soll, wenn er mindestens einmal in der Gesamtmenge der Dokumente bzw. Datensätze vorkommt. Da das Feld abstract: ohne weitere Deklarationen aufgeführt ist, wird es während der Extraktion gescannt; hierbei werden allerdings die standardmäßige linguistische Verarbeitung und die Typzuweisung angewendet.

Formatierung als XML-Text

Wenn Sie den Extraktionsprozess auf Text innerhalb bestimmter XML-Tags beschränken möchten, verwenden Sie die Dokumenttypoption XML-Text und deklarieren Sie die Tags, die den Text enthalten, im Abschnitt Formatierung als XML-Text des Dialogfelds "Dokumenteinstellungen". Extrahierte Terme werden nur von dem Text abgeleitet, der sich in diesen Tags bzw. ihren untergeordneten Tags befindet.

Wichtig! Wenn Sie den Extraktionsvorgang überspringen und Regeln für Trennzeichen für Terme festlegen, dem extrahierten Text Typen zuweisen oder einen Häufigkeitswert für extrahierte Terme festlegen möchten, verwenden Sie die im Folgenden beschriebene Option Gegliederter Text.

Verwenden Sie beim Deklarieren von Tags für Formatierung als XML-Text die folgenden Regeln:

  • Pro Zeile kann nur ein XML-Tag deklariert werden.
  • Bei Tagelementen muss die Groß-/Kleinschreibung beachtet werden.
  • Wenn ein Tag Attribute hat, z. B. <title id="1234">, und Sie alle Variationen bzw. in diesem Fall alle IDs einbeziehen möchten, fügen Sie den Tag ohne das Attribut oder die spitze schließende Klammer (>) wie folgt hinzu: <title

Nehmen wir zur Veranschaulichung an, dass folgendes XML-Dokument vorliegt:

		<section>Straßenverkehrsvorschriften
		     <title id="01234">Verkehrssignale</title>
		     <p>Straßenschilder sind hilfreich.</p>
		</section>
		<p>Das Erlernen der Vorschriften ist hilfreich.</p>

Für dieses Beispiel deklarieren wir die folgenden Tags:

		<section>
		<title

In diesem Beispiel wird wegen der Deklarierung des Tags <section> der Text in diesem Tag und in seinen verschachtelten Tags (Verkehrssignale und Straßenschilder sind hilfreich) während des Extraktionsvorgangs gescannt. Der Text Das Erlernen der Vorschriften ist hilfreich wird jedoch ignoriert, da der Tag <p> weder ausdrücklich deklariert wurde noch in einem deklarierten Tag verschachtelt ist.