Semantische Netze
In diesem Release ist das Verfahren mit semantischen Netzen nur für englischsprachige Texte verfügbar.
Bei diesem Verfahren werden Kategorien mithilfe eines integrierten Netzes von Wortbeziehungen erstellt. Aus diesem Grund können mit diesem Verfahren sehr gute Ergebnisse erzielt werden, wenn die Terme konkret sind und nur einen geringen Grad an Mehrdeutigkeit aufweisen. Es ist jedoch nicht zu erwarten, dass dieses Verfahren viele Zusammenhänge zwischen sehr technischen/spezialisierten Konzepten findet. Beim Umgang mit solchen Konzepten sind das Konzepteinbeziehungs- und das Konzeptwurzelableitungsverfahren zumeist von größerem Nutzen.
Funktionsprinzipien semantischer Netze
Hinter dem Verfahren mit semantischen Netzen steht die Idee, bekannte Wortbeziehungen zu nutzen, um Kategorien von Synonymen bzw. Hyponymen zu erzeugen. Ein Hyponym liegt vor, wenn ein Konzept eine Sorte eines zweiten Konzepts ist, dergestalt, dass eine hierarchische Beziehung (auch als ISA-Beziehung bezeichnet) vorliegt. Beispiel: Wenn animal ein Konzept ist, dann sind cat und kangaroo Hyponyme von animal, da es sich dabei jeweils um eine Art Tier (animal) handelt.
Neben Synonym- und Hyponymbeziehungen untersucht das semantische Netz auch Teilzusammenhänge und vollständige Zusammenhänge zwischen Konzepten aus dem Typ <Location> (Ort). Beispielsweise ordnet das Verfahren die Konzepte normandy, provence und france in dieselbe Kategorie ein, da Normandie (Normandy) und Provence Teile von Frankreich (France) sind.
Bei dem Verfahren mit semantischen Netzen werden zunächst die möglichen Bedeutungen der einzelnen Konzepte im semantischen Netz ermittelt. Wenn Konzepte als Synonyme oder Hyponyme identifiziert werden, werden sie alle in dieselbe Kategorie eingeordnet. Beispielsweise erstellt dieses Verfahren eine einzelne Kategorie, die die folgenden drei Konzepte enthält: eating apple, dessert apple und granny smith, da das semantische Netz folgende Informationen enthält: 1) dessert
apple ist ein Synonym von eating
apple und 2) granny smith ist eine Sorte von eating apple (d. h. ein Hyponym von eating apple).
Isoliert betrachtet sind viele Konzepte, insbesondere Uniterme, mehrdeutig. Das Konzept buffet beispielsweise kann eine Art Mahlzeit oder ein Möbelstück bezeichnen. Wenn das Set der Konzepte meal, furniture und buffet beinhaltet, ist der Algorithmus gezwungen, zu entscheiden, ob buffet in dieselbe Kategorie eingeordnet werden soll wie meal oder furniture. Beachten Sie, dass es vorkommen kann, dass die vom Algorithmus getroffene Wahl im Kontext eines bestimmten Sets an Datensätzen oder Dokumenten nicht angemessen ist.
Das Verfahren mit semantischen Netzen führt bei bestimmten Arten von Daten zu besseren Ergebnissen als die Konzepteinbeziehung. Sowohl das semantische Netz als auch die Konzepteinbeziehung erkennen, dass apple pie eine Art von Kuchen (pie) ist, aber nur das semantische Netz erkennt, dass tart auch eine Art von Kuchen (pie) ist.
Semantische Netze können auch zusammen mit anderen Verfahren eingesetzt werden. Beispielsweise angenommen, Sie haben sowohl das Verfahren mit semantischen Netzen als auch das Einbeziehungsverfahren ausgewählt und das semantische Netz hat das Konzept teacher in dieselbe Kategorie eingeordnet wie das Konzept tutor (da ein Tutor eine Art von Lehrer (teacher) ist. Der Einbeziehungsalgorithmus kann das Konzept graduate tutor mit tutor zusammenfassen und als Ergebnis erstellen die beiden Algorithmen zusammen eine Ausgabekategorie, die alle drei Konzepte enthält: tutor, graduate
tutor und teacher.
Optionen für semantische Netze
Es sind einige zusätzliche Einstellungen vorhanden, die für dieses Verfahren interessant sein könnten.
- Ändern der Einstellung Maximaler Suchabstand. Legen Sie fest, wie weit die Verfahren suchen sollen, bevor Kategorien erstellt werden. Je niedriger der Wert, desto weniger Ergebnisse werden geliefert. Allerdings sind die Ergebnisse weniger verrauscht und mit größerer Wahrscheinlichkeit auf signifikante Weise miteinander verknüpft oder verbunden. Je höher der Wert, desto mehr Ergebnisse erhalten Sie. Allerdings sind diese Ergebnisse möglicherweise weniger zuverlässig oder relevant.
Abhängig vom Abstand sucht der Algorithmus zum Beispiel von Danish pastry bis zu coffee roll (übergeordnet), dann bun (über-übergeordnet) und aufwärts bis bread.
Durch Verringern des Suchabstands führt dieses Verfahren zu kleineren Kategorien, mit denen sich möglicherweise leichter arbeiten lässt, wenn Sie den Eindruck haben, dass die erstellten Kategorien zu groß sind oder zu viele Elemente zu einer Gruppe zusammenfassen.
Wichtig! Außerdem wird empfohlen, bei Verwendung dieses Verfahrens die Option Rechtschreibung korrigieren für eine minimale Anzahl an Stammzeichen von (definiert auf der Registerkarte "Experten" des Knotens oder im Dialogfeld "Extrahieren") für Fuzzy-Gruppierung nicht anzuwenden, da Fehlgruppierungen große negative Auswirkungen auf die Ergebnisse haben können.