Informationen zu Textmining
Heutzutage wird eine Vielzahl von Informationen in unstrukturierter und halbstrukturierter Form gespeichert, beispielsweise Kunden-E-Mails, Call-Center-Notizen, offene Antworten bei Umfragen, Newsfeeds, Webformulare usw. Diese Informationsflut ist ein Problem für Organisationen, die sich folgende Frage stellen: "Wie können wir diese Informationen erfassen, untersuchen und nutzen?"
Textmining besteht in der Analyse von gesammeltem Textmaterial mit dem Ziel, Schlüsselkonzepte und Themen zu erfassen und verborgene Beziehungen und Trends aufzudecken, ohne dass Sie die genauen Worte bzw. Terme kennen müssen, die die Autoren verwendet haben, um diese Konzepte auszudrücken. Obwohl es sehr große Unterschiede gibt, wird Textmining zuweilen mit Informationsrückgewinnung verwechselt. Das genaue Erfassen und Speichern von Informationen ist zwar eine große Herausforderung, doch Extraktion und Verwaltung von qualitativ hochwertigen Inhalten, Terminologie und Beziehungen, die in den Informationen enthalten sind, stellen entscheidende und heikle Prozesse dar.
Textmining und Data-Mining
Für jeden Textartikel gibt linguistisch basiertes Textmining einen Index der Konzepte sowie Informationen zu diesen Konzepten aus. Diese destillierten und strukturierten Informationen können mit anderen Datenquellen kombiniert werden, um Fragen der folgenden Art zu beantworten:
- Welche Konzepte kommen zusammen vor?
- Womit sind sie außerdem verknüpft?
- Welche übergeordneten Kategorien können aus den extrahierten Daten gewonnen werden?
- Was sagen die Konzepte oder Kategorien vorher?
- Wie sagen die Konzepte oder Kategorien Verhalten vorher?
Eine Kombination von Textmining und Data-Mining bietet mehr Erkenntnisse als man allein aus strukturierten oder unstrukturierten Daten gewinnen kann. Dieser Prozess gliedert sich üblicherweise in folgende Schritte:
- Ermittlung des Texts, auf den das Mining angewendet werden soll. Vorbereiten des Texts für das Mining. Wenn der Text aus mehreren Dateien besteht, müssen die Dateien in demselben Verzeichnis gespeichert werden. Bei Datenbanken muss das Feld ermittelt werden, das den Text enthält.
- Anwenden des Minings auf den Text und Extraktion strukturierter Daten. Anwenden der Textmining-Algorithmen auf den Quellentext.
- Erstellen der Konzept- und Kategoriemodelle. Ermittlung der Schlüsselkonzepte und/oder Erstellung von Kategorien. Die Zahl der aus unstrukturierten Daten erhaltenen Konzepte ist normalerweise sehr groß. Ermittlung der besten Konzepte und Kategorien für das Scoring.
- Analyse der strukturierten Daten. Verwenden Sie traditionelle Data-Mining-Verfahren (wie Clustering, Klassifizierung und Erstellen von Vorhersagemodellen) zur Aufdeckung von Beziehungen zwischen den Konzepten. Führen Sie extrahierte Konzepte mit anderen strukturierten Daten zusammen, um auf der Grundlage der Konzepte zukünftiges Verhalten vorherzusagen.
Textanalyse und Kategorisierung
Bei der Textanalyse als Form einer qualitativen Analyse werden nützliche Daten aus Texten extrahiert , sodass die Schlüsselbegriffe und Konzepte, die im betreffenden Text enthalten sind, unter einer angemessenen Zahl von Kategorien zusammengefasst werden können. Textanalysen können auf Texte aller Arten und Längen angewendet werden. Allerdings unterscheiden sich die jeweiligen Analyseansätze dabei ein wenig.
Kürzere Datensätze oder Dokumente lassen sich am leichtesten kategorisieren, da sie eine geringere Komplexität aufweisen und für gewöhnlich weniger mehrdeutige Wörter und Antworten enthalten. Wenn Personen beispielsweise im Rahmen einer Umfrage mit offenen Antworten nach ihren drei Lieblingsaktivitäten im Urlaub gefragt werden, sind möglicherweise viele kurze Antworten zu erwarten, etwa: an den Strand gehen, Nationalparks besuchen oder Nichtstun. Längere offene Antworten können dagegen ziemlich komplex und weitschweifig ausfallen, besonders bei Befragten, die gebildet und motiviert sind und genug Zeit für das Ausfüllen eines Fragebogens zur Verfügung haben. Bei Umfragen zu den politischen Überzeugungen von Personen oder bei einem langen Blog-Feed zum Thema Politik sind möglicherweise längere Kommentare zu allerlei Fragen und Positionen zu erwarten.
Einer der Hauptvorteile bei der Verwendung von IBM® SPSS Modeler Text Analytics besteht darin, dass sehr schnell Schlüsselkonzepte extrahiert und aufschlussreiche Kategorien auf der Grundlage dieser längeren Textquellen erstellt werden können. Dieser Vorteil wird durch die Kombination von automatisierten linguistischen und statistischen Methoden erreicht. Damit werden bei jedem Schritt des Textanalyseprozesses die verlässlichsten Ergebnisse erzielt.
Linguistische Verarbeitung und NLP
Das Hauptproblem bei der Verwaltung dieser unstrukturierten Textdaten besteht darin, dass es keine Standardregeln dafür gibt, wie Texte so abgefasst werden können, dass der Computer sie versteht. Die Sprache, und damit die Bedeutung variiert zwischen den verschiedenen Dokumenten und Textstücken. Die einzige Möglichkeit, diese unstrukturierten Daten genau zu erfassen und zu organisieren, besteht darin, die Sprache zu analysieren und dadurch die Bedeutung aufzudecken. Es gibt mehrere verschiedene automatisierte Ansätze für die Extraktion von Konzepten aus unstrukturierten Informationen. Diese Ansätze lassen sich in zwei Arten unterteilen: in linguistische und nicht linguistische Ansätze.
Einige Unternehmen haben versucht, automatisierte nicht linguistische Lösungen auf der Grundlage von Statistiken und neuronalen Netzen einzusetzen. Mithilfe von Computertechnologie können diese Lösungen Schlüsselkonzepte einfacher suchen und erfassen als menschliche Leser. Leider ist die Genauigkeit derartiger Lösungen ziemlich niedrig. Die meisten statistischen Systeme zählen einfach, wie oft bestimmte Wörter vorkommen und berechnen ihre statistische Nähe zu verwandten Konzepten. Sie produzieren viele irrelevante Ergebnisse, sogenanntes "Rauschen" und finden manche gültigen Ergebnisse nicht ("Stille").
Um ihre begrenzte Genauigkeit auszugleichen, beinhalten einige Lösungen komplexe nicht linguistische Regeln, die die Unterscheidung zwischen relevanten und nicht relevanten Ergebnissen erleichtern sollen. Diese Vorgehensweise wird als regelbasiertes Textmining bezeichnet.
Beim linguistisch basierten Textmining dagegen werden die Prinzipien der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) - der computerunterstützten Analyse menschlicher Sprachen - auf die Analyse der Wörter, Wortfolgen und der Syntax (Struktur) des Texts angewendet. Ein System, das NLP verwendet, kann Konzepte, u. a. Wortfolgen, auf intelligente Art und Weise extrahieren. Außerdem ermöglicht die Kenntnis der zugrunde liegenden Sprache eine Klassifizierung von Konzepten in verwandte Gruppen, beispielsweise Produkte, Organisationen oder Personen, wobei Bedeutung und Kontext verwendet werden.
Linguistisch basiertes Textmining sucht auf dieselbe Weise nach der Bedeutung im Text, wie Menschen es tun - indem sie erkennen, dass eine Reihe von Wortformen eine ähnliche Bedeutung haben und indem sie die Satzstruktur als Rahmen für das Textverständnis analysieren. Dieser Ansatz bietet dieselbe Geschwindigkeit und Kosteneffektivität wie statistikbasierte Systeme, er bietet jedoch einen wesentlich höheren Genauigkeitsgrad, während ein wesentlich geringerer Grad an Benutzereingriffen erforderlich ist.
Zur Veranschaulichung des Unterschieds zwischen statistikbasierten und linguistisch basierten Ansätzen beim Extraktionsprozessdient die Überlegung, wie der jeweilige Ansatz auf eine Anfrage zum Term Dokumentreproduktion reagieren würde. Sowohl bei den statistikbasierten als auch bei den linguistisch basierten Lösungen müsste eine Erweiterung für das Wort Reproduktion erfolgen, damit auch Synonyme wie Kopie und Vervielfältigung berücksichtigt werden. Andernfalls werden relevante Informationen übersehen. Wenn jedoch bei einer statistikbasierten Lösung eine derartige Synonymik - die Suche nach anderen Termen mit derselben Bedeutung - angewendet werden soll, wird wahrscheinlich auch der Term Geburt berücksichtigt, was zur Generierung einer Reihe von irrelevanten Ergebnissen führt. Das Verstehen von Sprache beseitigt die Mehrdeutigkeit von Texten, weshalb das linguistisch basierte Textmining definitionsgemäß den verlässlicheren Ansatz darstellt.
Wenn Sie verstehen, wie der Extraktionsprozess funktioniert, fällt es Ihnen leichter, bei der Optimierung Ihrer linguistischen Ressourcen (Bibliotheken, Typen, Synonyme und anderer) zentrale Entscheidungen zu treffen. Der Extraktionsprozess umfasst folgende Schritte:
- Konvertieren von Quellendaten in ein Standardformat
- Ermittlung von Kandidaten
- Ermittlung von Äquivalenzklassen und Integration von Synonymen
- Zuweisung eines Typs
- Indexerstellung und, falls gewünscht, Musterabgleich mit einem Sekundäranalysator
Schritt 1. Konvertieren von Quellendaten in ein Standardformat
Im ersten Schritt werden die importierten Daten in ein einheitliches Format konvertiert, das für weitergehende Analysen genutzt werden kann. Diese Konvertierung erfolgt intern. Ihre Ausgangsdaten werden dabei nicht geändert.
Schritt 2. Ermittlung von infrage kommenden Termen
Es ist wichtig zu verstehen, welche Rolle die linguistischen Ressourcen während der linguistischen Extraktion bei der Ermittlung von infrage kommenden Termen spielen. Linguistische Ressourcen kommen jedes Mal zum Einsatz, wenn ein Extraktionsvorgang ausgeführt wird. Sie liegen in Form von Vorlagen, Bibliotheken und kompilierten Ressourcen vor. Bibliotheken bestehen aus Wortlisten, Beziehungen und weiteren Informationen, die eingesetzt werden, um die Extraktion abzustimmen oder zu spezifizieren. Die kompilierten Ressourcen können nicht angezeigt oder bearbeitet werden. Die übrigen Ressourcen können jedoch im Vorlageneditor bzw., wenn eine interaktive Workbenchsitzung gestartet wurde, im Ressourceneditor bearbeitet werden.
Kompilierte Ressourcen sind interne Kernkomponenten der Extraktionsengine in IBM SPSS Modeler Text Analytics . Diese Ressourcen umfassen ein allgemeines Wörterbuch, in dem eine Liste von Grundformen mit einem Code für die Wortart enthalten ist (Nomen, Verb, Adjektiv usw.).
Zusätzlich zu diesen kompilierten Ressourcen sind auch mehrere Bibliotheken im Lieferumfang enthalten. Diese können verwendet werden, um die Typen und Konzeptdefinitionen der kompilierten Ressourcen zu ergänzen und Synonyme zu liefern. Diese Bibliotheken - sowie sämtliche benutzerdefinierte Bibliotheken, die Sie erstellen - bestehen aus mehreren Wörterbüchern. Diese umfassen Typwörterbücher, Synonymwörterbücher sowie Ausschlusswörterbücher.
Sobald die Daten importiert und konvertiert wurden, beginnt die Extraktionsengine, Kandidaten für die Extraktion zu identifizieren. Infrage kommende Terme (Kandidaten) sind Wörter oder Wortgruppen, die verwendet werden, um Konzepte im Text zu ermitteln. Bei der Verarbeitung des Texts werden einzelne Wörter (Uniterme) und zusammengesetzte Wörter (Multiterme) über Extraktoren auf der Grundlage von Wortartmustern (POS-Muster; POS - Part of Speech) ermittelt. Anschließend werden mithilfe der Stimmungstextlinkanalyse Kandidaten für Stimmungsstichwörter identifiziert.
Schritt 3. Ermittlung von Äquivalenzklassen und Integration von Synonymen
Im Anschluss an die Ermittlung von Unitermen und Multitermen, die als Kandidaten infrage kommen, werden über ein Normalisierungswörterbuch der Software Äquivalenzklassen ermittelt. Bei einer Äquivalenzklasse handelt es sich um eine Grundform einer Wortfolge oder einer einzelnen Form von zwei Varianten derselben Wortfolge.Wortfolgen werden Äquivalenzklassen zugewiesen, damit beispielsweise Nebenwirkung und 副作用 nicht als unterschiedliche Konzepte betrachtet werden. Um festzustellen, welches Konzept für die betreffende Äquivalenzklasse als Hauptterm verwendet wird — Nebenwirkung oder 副作用, werden die folgenden Regeln in der aufgeführten Reihenfolge durch die Extraktionsengine angewendet:
- Die vom Benutzer festgelegte Form in einer Bibliothek.
- Die häufigste Form, wie von vorkompilierten Ressourcen definiert.
Schritt 4. Zuweisen eines Typs
Anschließend werden den extrahierten Konzepten Typen zugewiesen. Bei einem Typ handelt es sich um Konzepte, die nach semantischen Gesichtspunkten gruppiert werden. Für diesen Schritt werden sowohl kompilierte Ressourcen als auch die Bibliotheken verwendet. Zu den Typen gehören beispielsweise übergeordnete Konzepte, positive und negative Wörter, Vornamen, Orte, Organisationen und anderes. Weitere Informationen finden Sie im Thema Typwörterbücher.
Linguistische Systeme sind wissensintensiv: Je mehr Informationen in den Wörterbüchern enthalten sind, desto höher ist die Qualität der Ergebnisse. Eine Änderung des Wörterbuchinhalts, z. B. Synonymdefinitionen, kann die resultierenden Informationen vereinfachen. Dabei handelt es sich häufig um einen schrittweisen Prozess, der für einen genauen Konzeptabruf erforderlich ist. NLP ist ein Kernelement von IBM SPSS Modeler Text Analytics.