Analyse häufiger Begriffe

Bei der Analyse häufiger begriffe werden die Vorkommen von Begriffen in einer Gruppe von Dokumenten gezählt und die Häufigkeit jedes einzelnen Begriffs ermittelt.
Die folgenden Häufigkeiten werden berechnet:
Absolute Häufigkeit
Wenn ein Begriff in einem Dokument mehrfach vorkommt, wird jedes Vorkommen gezählt.
Dokumenthäufigkeit
Es wird der Prozentsatz der Dokumente berechnet, die einen Begriff enthalten.

Sie können die Analyse häufiger Begriffe in der Datenuntersuchungsphase verwenden, um die in dem verfügbaren Text relevanten Konzepte zu ermitteln. Sie können die Analyse häufiger Begriffe auch zur Auswahl einer Untergruppe häufiger Begriffe verwenden, die für ein Geschäftsproblem relevant sind, um aus diesen Begriffen ein Wörterverzeichnis zu erstellen, das in einem Operator für die Wörterverzeichnissuche verwendet werden kann.

Beispielsweise möchte ein Einzelhändler mit Online-Shop die am häufigsten von Kunden genannten Gründe für Rücksendungen ermitteln. Der Einzelhändler kann dazu die in den Lieferscheinfeldern für den Rückgabegrund häufig genannten Begriffe überprüfen. Anschließend wählt er eine Untergruppe der Begriffe aus, die gültige Rückgabegründe sind. Aus dieser Untergruppe von Begriffen kann der Einzelhändler ein Wörterverzeichnis erstellen, um automatisch die gültigen Typen von Rückgabegründen aus dem Text zu extrahieren und eine nach Rückgabegrund sortierte zusammengefasste Sicht zu erhalten.

Der Einzelhändler kann außerdem eine Taxonomie erstellen, die die einzelnen Gründe in Rückgabegrundtypen gruppiert. Mit diesen Rückgabegrundtypen kann er einen strukturierten Bericht für Rückgabegrundtypen im Zeitverlauf erstellen. In diesem strukturierten Bericht im Zeitverlauf können Sie von Rückgabegrundtypen einen Drilldown auf einzelne Begriffe für und Vorkommen von Rückgabegründen durchführen.

In Design Studio können Sie mithilfe der Analyse häufiger Begriffe nach häufig vorkommenden Begriffen in Textspalten von Datenbanktabellen suchen. Zum Starten einer Analyse häufiger Begriffe müssen Sie ein Data-Warehousing-Projekt erstellen. Führen Sie anschließend über den Ordner Textanalyse eine Analyse häufiger Begriffe durch, um entsprechende Ergebnisse zu erhalten. Sie können die häufigen Begriffe anschließend im Viewer für häufige Begriffe untersuchen.

Data warehousing in Db2 stellt die folgenden Typen für eine Analyse häufiger Begriffe bereit:
Mit dem Muster Adjektiv - Nomen beispielsweise werden die folgenden häufigen Begriffe gefunden:

Diese Methode reduziert die Anzahl der zu verarbeitenden bzw. zurückgegebenen Begriffskandidaten und verbessert die Leistung der Analyse häufiger Begriffe. Abhängig von dem zu lösenden Geschäftsproblem und der Textsprache liefern unterschiedliche wortartbasierte Muster die wertvollsten Ergebnisse.

Hinweis:

Abhängig vom Kontext können einige Wörter als Adjektiv oder als Nomen verwendet werden. Beispielsweise kann das englische Wort current als Adjektiv im Sinne von 'aktuell' verwendet werden oder es kann als Nomen im Sinne von 'Strom' (elektrisch) oder 'Strömung' (Wasser) verwendet werden. Die Extraktion häufiger Begriffe verwendet den ersten wortartbasierten Eintrag im lexikalischen Wörterverzeichnis. Dies kann zu unerwarteten Ergebnissen führen.

Häufige Begriffe für Erstellung von Wörterverzeichnissen

In der Sicht für häufige Begriffe können Sie eine Untergruppe von Begriffen auswählen, die zu einem Konzept gehören, und können ein Domänenwörterverzeichnis erstellen, das im Operator für die Wörterverzeichnissuche verwendet werden kann. Optional können Sie anschließend die häufigen Begriffe mithilfe einer Taxonomie in hierarchischen Kategorien zusammenfassen.



Feedback | Literaturübersicht