Kategorisieren von Textdaten

In der Kategorie- und Konzeptansicht können Sie Kategorien erstellen, die im Wesentlichen übergeordnete Konzepte oder Themen darstellen, die die wichtigsten Ideen, Kenntnisse und Haltungen erfassen, die im Text ausgedrückt werden.

Ab IBM® SPSS Modeler Text Analytics 14 können Kategorien auch eine hierarchische Struktur besitzen, d. h., sie können Unterkategorien enthalten, die wiederum eigene Unterkategorien enthalten können usw. Sie können vordefinierte Kategoriestrukturen, früher Coderahmen genannt, mit hierarchischen Kategorien importieren und diese hierarchischen Kategorien auch im Produkt erstellen.

Hierarchische Kategorien ermöglichen Ihnen die Erstellung einer Baumstruktur mit mindestens einer Unterkategorie, die eine genauere Gruppierung von Elementen, beispielsweise verschiedenen Konzept- oder Themenbereichen, gestattet. Ein einfaches Beispiel könnte sich auf Freizeitaktivitäten beziehen: Bei der Beantwortung einer Frage wie Welcher Aktivität würden Sie sich gerne widmen, wenn Sie mehr Zeit hätten? könnten die Kategorien der obersten Ebene Sport, Kunst und Handarbeiten, Angeln usw. lauten. Auf der Ebene unter Sport könnten Sie Unterkategorien einrichten, um zu sehen, ob es sich um Ballsportarten, Wassersportarten usw. handelt.

Kategorien bestehen aus einer Reihe von Deskriptoren wie Konzepten, Typen, Mustern und Kategorieregeln. Diese Deskriptoren werden zusammen verwendet, um zu bestimmen, ob ein Dokument oder Datensatz zu einer gegebenen Kategorie gehört oder nicht. Der Text in einem Dokument oder Datensatz kann gescannt werden, um zu überprüfen, ob es Text gibt, der mit einem Deskriptor übereinstimmt. Liegt eine Übereinstimmung vor, wird das Dokument/der Datensatz dieser Kategorie zugeordnet. Dieser Prozess wird als Kategorisierung bezeichnet.

Mithilfe der in den vier Fensterbereichen angezeigten Daten können Sie Kategorien erstellen, damit arbeiten und sie visuell untersuchen. Jeder der vier Fensterbereiche der Kategorie- und Konzeptansicht kann durch Auswahl seines Namens im Menü "Ansicht" ein- bzw. ausgeblendet werden.

  • Bereich "Kategorien". In diesem Fensterbereich können Sie Kategorien erstellen und verwalten. Weitere Informationen finden Sie im Thema Fensterbereich "Kategorien".
  • Bereich "Extraktionsergebnisse". In diesem Fensterbereich können Sie mit den extrahierten Konzepten und Typen arbeiten. Weitere Informationen finden Sie im Thema Extraktionsergebnisse: Konzepte und Typen.
  • Visualisierungsbereich. In diesem Fensterbereich können Sie die Kategorien und ihre Interaktionen visuell untersuchen. Weitere Informationen finden Sie im Thema Kategoriediagramme und Grafiken.
  • Datenbereich. In diesem Fensterbereich können Sie den Text untersuchen und überprüfen, der in Dokumenten und Datensätzen enthalten ist, die Ihrer Auswahl entsprechen. Weitere Informationen finden Sie im Thema Datenbereich.
Abbildung 1. Kategorie- und Konzeptansicht
Kategorie- und Konzeptansicht

Sie können zwar mit einem Set von Kategorien aus einem Text Analysis Package (TAP) beginnen oder einen Import aus einer vordefinierten Kategoriendatei durchführen, aber eventuell müssen Sie auch Ihre eigenen erstellen. Kategorien können mit den leistungsfähigen automatisierten Methoden des Produkts automatisch erstellt werden, wobei Kategorien und deren Deskriptoren anhand von Extraktionsergebnissen (Konzepte, Typen und Muster) generiert werden. Daneben können Sie Kategorien auch manuell erstellen und dabei zusätzliche Erkenntnisse mit einbeziehen, die Sie hinsichtlich der Datengrundlage möglicherweise gewonnen haben. Die manuelle Erstellung oder Optimierung von Kategorien ist allerdings nur über die interaktive Workbench möglich. Weitere Informationen finden Sie im Thema Textminingknoten: Registerkarte "Modell". Sie können Kategoriedefinitionen manuell erstellen, indem Sie die Extraktionsergebnisse durch Ziehen und Ablegen in die Kategorien übertragen. Sie können diese Kategorien oder jede leere Kategorie anreichern, indem Sie einer Kategorie Kategorieregeln hinzufügen, Ihre eigenen vordefinierten Kategorien verwenden. Sie können diese Aktionen auch miteinander kombinieren.

Diese Verfahren und Methoden eignen sich jeweils gut für bestimmte Arten von Daten und Situationen, häufig ist es jedoch sinnvoll, in einer Analyse mehrere Verfahren zu kombinieren, um das gesamte Spektrum an Dokumenten bzw. Datensätzen zu erfassen. Außerdem können Ihnen im Verlauf der Kategorisierung andere Änderungen auffallen, die an den linguistischen Ressourcen vorgenommen werden sollten.