Expertenoptionen

Beim Textlinkanalyseknoten (TLA-Knoten) ist die Extraktion von Musterergebnissen der Textlinkanalyse automatisch aktiviert. Die Expertenoptionen in den Eigenschaften des Knotens enthalten bestimmte zusätzliche Parameter, die sich darauf auswirken, wie Text extrahiert und behandelt wird. Die Parameter unter "Experten" steuern das Basisverhalten sowie einige erweiterte Verhaltensweisen des Extraktionsprozesses. Außerdem gibt es eine Reihe von linguistischen Ressourcen, von denen die Extraktionsergebnisse ebenfalls beeinflusst werden, deren Steuerung die von Ihnen ausgewählte Ressourcenvorlage bestimmt.

Extraktion beschränken auf Konzepte mit globaler Häufigkeit von mindestens [n]: Diese Option gibt an, wie häufig ein Wort oder Ausdruck im Text mindestens vorkommen muss, damit er extrahiert wird. Der Wert 5 beschränkt die Extraktion somit auf diejenigen Wörter oder Ausdrücke, die in der gesamten Gruppe der Datensätze oder Dokumente mindestens fünf Mal enthalten sind.

In einigen Fällen kann das Ändern dieses Grenzwerts einen großen Unterschied in den entstehenden Extraktionsergebnissen und damit auch in Ihren Kategorien bewirken. Angenommen, Sie arbeiten mit einigen Restaurantdaten und erhöhen den Grenzwert für diese Option nicht über 1 hinaus. In diesem Fall finden Sie möglicherweise pizza (1), thin pizza (2), spinach pizza (2)und favorite pizza (2) in Ihren Extraktionsergebnissen. Wenn Sie jedoch die Extraktion auf eine globale Häufigkeit von 5 oder mehr beschränken und die Extraktion wiederholen würden, würden drei dieser Konzepte nicht mehr in den Ergebnissen enthalten sein. Stattdessen erhalten Sie pizza (7), da pizza die einfachste Form ist und dieses Wort bereits als möglicher Kandidat vorhanden war. Und abhängig vom Rest des Textes könnte sich sogar eine Häufigkeit von mehr als 7 ergeben, je nachdem, ob der Text weitere Ausdrücke mit dem Wort "Pizza" enthält. Wenn spinach pizza bereits ein Kategoriedeskriptor war, müssen Sie möglicherweise pizza als Deskriptor hinzufügen, um alle Datensätze zu erfassen. Gehen Sie daher beim Ändern dieses Grenzwerts immer besonders umsichtig vor, wenn bereits Kategorien erstellt wurden.

Bitte beachten Sie, dass diese Funktion ausschließlich für die Extraktion gilt. Falls Ihre Vorlage Terme enthält (was normalerweise der Fall ist) und ein Term für die Vorlage im Text gefunden wird, wird der Term ungeachtet seiner Häufigkeit indexiert.

Nehmen wir beispielsweise an, dass Sie die Vorlage "Grundlegende Ressourcen" verwenden, die unter dem Typ <Location> in der Kernbibliothek "los angeles" enthält, wenn Ihr Dokument Los Angeles nur einmal enthält, gehört Los Angeles zur Liste der Konzepte. Um dies zu verhindern, müssen Sie einen Filter so festlegen, dass Konzepte angezeigt werden, deren Vorkommen mindestens so groß wie der Wert ist, der für das Feld Extraktion beschränken auf Konzepte mit globaler Häufigkeit von mindestens [n] festgelegt wurde.

Interpunktionsfehler korrigieren: Diese Option normalisiert während der Extraktion vorübergehend Text, der Interpunktionsfehler enthält (z. B. falsche Verwendung), um die Extrahierbarkeit von Konzepten zu verbessern. Besonders von Nutzen ist sie bei kurzen und qualitativ minderwertigen Texten (z. B. Antworten auf unbefristete Umfragen, E-Mails oder CRM-Daten) oder bei Texten, die viele Abkürzungen enthalten.

Rechtschreibung korrigieren für Mindestwortzeichenlänge von [n]: Diese Option wendet ein Fuzzy-Gruppierungsverfahren an, das die Gruppierung von häufig falsch geschriebenen Wörtern oder Wörtern mit besonders ähnlicher Schreibweise unter einem einzigen Konzept fördert. Der Fuzzy-Gruppierungsalgorithmus entfernt vorübergehend alle Vokale (mit Ausnahme des ersten) und entfernt doppelte/dreifache Konsonanten aus extrahierten Wörtern und vergleicht sie, um zu sehen, ob sie identisch sind, sodass modeling und modelling gruppiert werden. Wenn jedoch jeder Begriff einem anderen Typ zugeordnet ist, mit Ausnahme des Typs <Unknown> , wird das Fuzzy-Gruppierungsverfahren nicht angewendet.

Sie können auch die Mindestanzahl von Stammzeichen definieren, die vor Verwendung der Fuzzy-Gruppierung erforderlich ist. Die Anzahl der Stammzeichen in einem Term wird durch die Summierung aller Zeichen und die Subtraktion derjenigen Zeichen berechnet, die Flexionssufixe sowie im Fall von Kompositatermen Determinative und Präpositionen bilden. Der Begriff exercises wird beispielsweise als 8 Stammzeichen in der Form "Übung" gezählt, da der Buchstabe s am Ende des Wortes eine Inflexione ist (Pluralform). In ähnlicher Weise zählt apple sauce als 10 Rootzeichen ("Apfelmus") und manufacturing of cars als 16 Rootzeichen ("Fertigungswagen"). Mit dieser Zählweise wird lediglich überprüft, ob die Fuzzy-Gruppierung anzuwenden ist; sie beeinflusst nicht, wie die Wörter abgeglichen werden.

Hinweis: Wenn Sie feststellen, dass bestimmte Wörter später falsch gruppiert werden, können Sie Wortpaare von diesem Verfahren ausschließen, indem Sie sie im Abschnitt Fuzzy Grouping: Exceptions unter den erweiterten Ressourceneigenschaften explizit deklarieren.

Uniterme extrahieren: Diese Option extrahiert einzelne Wörter (Uniterme), sofern sie nicht bereits Teil eines Kompositums und entweder ein Nomen oder eine nicht erkannte Wortart sind.

Nicht linguistische Entitäten extrahieren: Diese Option extrahiert nicht linguistische Entitäten, wie z. B. Telefonnummern, Sozialversicherungsnummern, Uhrzeiten, Datumsangaben, Währungen, Ziffern, Prozentsätze, E-Mail-Adressen und HTTP-Adressen. Sie können bestimmte Typen von nicht linguistischen Entitäten im Abschnitt Nicht linguistische Entitäten: Konfiguration der erweiterten Ressourceneigenschaften ein- oder ausschließen. Durch die Inaktivierung von nicht benötigten Entitäten wird Verarbeitungszeit für die Extraktionsengine eingespart.

Großbuchstabenalgorithmus: Diese Option extrahiert einfache und zusammengesetzte Terme, die nicht in den integrierten Wörterverzeichnissen enthalten sind, sofern der Term mit einem Großbuchstaben beginnt. Sie bietet eine gute Möglichkeit, die meisten Eigennamen zu extrahieren.

Teilweise und vollständige Personennamen, wenn möglich, gruppieren: Diese Option fasst Namen in einer Gruppe zusammen, die im Text unterschiedlich geschrieben sind. Diese Funktion ist hilfreich, da Namen am Beginn eines Textes häufig vollständig und anschließend nur in einer kürzeren Form angegeben sind. Diese Option versucht, jeden Uniterm mit dem Typ <Unknown> mit dem letzten Wort eines beliebigen zusammengesetzten Begriffs abzugleichen, der als <Person>typisiert ist. Wenn beispielsweise doe gefunden und anfänglich als <Unknown>typisiert wird, prüft die Extraktionsengine, ob zusammengesetzte Begriffe im <Person> -Typ doe als letztes Wort enthalten, z. B. john doe. Auf Vornamen wird diese Option nicht angewendet, weil diese größtenteils nie als Uniterme extrahiert werden.

Maximale Füllwörter in zusammengesetzten Konzepten: Diese Option gibt an, wie viele Füllwörter bei Anwendung des Permutationsverfahrens höchstens vorhanden sein dürfen. Dieses Permutationsverfahren gruppiert ähnliche Ausdrücke, die sich nur durch die enthaltenen Nichtfunktionswörter (z. B. of und the) voneinander unterscheiden, unabhängig von der Beugung. Angenommen, Sie setzen diesen Wert auf höchstens zwei Wörter und sowohl company officials als auch officials of the company wurden extrahiert. In diesem Fall werden beide extrahierten Terme in der endgültigen Konzeptliste gruppiert, da beide Terme als identisch betrachtet werden, wenn of the ignoriert wird.

Beim Gruppieren von Multitermen Ableitung verwenden: Wählen Sie diese Option bei der Verarbeitung von großen Datenmengen aus, damit Multiterme unter Verwendung von Ableitungsregeln gruppiert werden.