Was ist Textmining?
Erfahren Sie mehr über Textmining, d. h. die Analyse umfangreicher Textsammlungen, um Schlüsselkonzepte, Trends und verborgene Zusammenhänge zu ermitteln
Blauer und schwarzer Hintergrund
Was ist Textmining?

Textmining, auch Text-Data-Mining genannt, ist der Prozess der Umwandlung von unstrukturiertem Text in ein strukturiertes Format, um aussagekräftige Muster und neue Erkenntnisse zu gewinnen. Durch die Anwendung fortschrittlicher Analysetechniken wie Naive Bayes, Support Vector Machines (SVM) und anderer Deep-Learning-Algorithmen können Unternehmen verborgene Zusammenhänge in ihren unstrukturierten Daten suchen und erkennen.

Text ist einer der häufigsten Datentypen in Datenbanken. Je nach Datenbank können diese Daten wie folgt organisiert werden:

  • Strukturierte Daten: Diese Daten werden in einem Tabellenformat mit zahlreichen Zeilen und Spalten standardisiert, was das Speichern und Verarbeiten für Analysen und Machine-Learning-Algorithmen erleichtert. Strukturierte Daten sind z. B. Namen, Adressen und Telefonnummern.

  • Unstrukturierte Daten: Diese Daten haben kein vordefiniertes Datenformat. Dabei kann es sich um Text aus Quellen wie sozialen Medien oder Produktbewertungen oder um Rich-Media-Formate wie Video- und Audiodateien handeln.

  • Teilstrukturierte Daten: Wie bereits der Name vermuten lässt, sind diese Daten eine Mischung aus strukturierten und unstrukturierten Datenformaten. Diese Daten sind zwar relativ geordnet, aber nicht strukturiert genug, um die Anforderungen einer relationalen Datenbank zu erfüllen. Beispiele für teilstrukturierte Daten sind XML-, JSON- und HTML-Dateien.

Da etwa 80 % der Daten weltweit in einem unstrukturierten Format sind (Link befindet sich außerhalb von ibm.com), ist Textmining ein äußerst wertvolles Verfahren in Unternehmen. Textmining-Tools und Verfahren zur Verarbeitung natürlicher Sprache (NLP, Natural Language Processing) wie die Informationsextraktion (PDF, 131 KB) (Link befindet sich außerhalb von IBM) ermöglichen es, unstrukturierte Dokumente in ein strukturiertes Format umzuwandeln, das eine Analyse und die Gewinnung hochwertiger Erkenntnisse gestattet. Dies wiederum verbessert die Entscheidungsfindung von Unternehmen und führt zu besseren Geschäftsergebnissen.

Textmining vs. Textanalyse

Die Begriffe „Textmining“ und „Textanalyse“ werden weitgehend synonym gebraucht, können aber auch eine differenziertere Bedeutung haben. Textmining und Textanalyse identifizieren Textmuster und Trends in unstrukturierten Daten durch den Einsatz von maschinellem Lernen, Statistik und Linguistik. Durch die Umwandlung der Daten in ein strukturierteres Format mittels Textmining und Textanalyse lassen sich durch Textanalyse mehr quantitative Erkenntnisse gewinnen. Datenvisualisierungstechniken können dann genutzt werden, um die Ergebnisse einem breiteren Publikum zu vermitteln.

Textmining-Techniken

Der Prozess des Text Mining umfasst mehrere Aktivitäten, die es Ihnen ermöglichen, Informationen aus unstrukturierten Textdaten abzuleiten. Bevor Sie verschiedene Textmining-Techniken anwenden können, müssen Sie mit der Textvorverarbeitung beginnen, d. h. mit der Bereinigung und Umwandlung von Textdaten in ein verwendbares Format. Diese Praxis ist ein Kernaspekt der Verarbeitung natürlicher Sprache (NLP) und beinhaltet in der Regel den Einsatz von Techniken wie Sprachidentifikation, Tokenisierung, Part-of-Speech-Tagging, Chunking und Syntaxanalyse (Parsing), um Daten für die Analyse angemessen zu formatieren. Wenn die Textvorverarbeitung abgeschlossen ist, können Sie Textmining-Algorithmen anwenden, um Erkenntnisse aus den Daten zu gewinnen. Gängige Textmining-Techniken sind:

Informationsabruf

Informationsabruf (IR, Information Retrieval) liefert relevante Informationen oder Dokumente auf der Grundlage vordefinierter Suchanfragen oder Phrasen. IR-Systeme verwenden Algorithmen, um das Nutzerverhalten zu verfolgen und relevante Daten zu identifizieren. Information Retrieval wird häufig in Bibliothekskatalogsystemen und beliebten Suchmaschinen wie Google verwendet. Beispiele für IR-Teilaufgaben:

  • Tokenisierung: Bei diesem Verfahren wird ein langer Text in Sätze und Wörter, sogenannte „Tokens“, zerlegt. Diese werden dann in den Modellen, wie z. B. Bag-of-Words, für das Clustering von Texten und den Abgleich von Dokumenten verwendet. 

  • Stemming: Bei diesem Prozess werden Präfixe und Suffixe von Wörtern abgetrennt, um die Form und Bedeutung des Wortstamms zu ermitteln (Normalformenreduktion). Diese Technik verbessert das Auffinden von Informationen, indem sie die Größe der Indizierungsdateien verringert.

Verarbeitung natürlicher Sprache

Die Verarbeitung natürlicher Sprache, die sich aus der Computerlinguistik entwickelt hat, nutzt Methoden aus verschiedenen Disziplinen wie Informatik, künstliche Intelligenz, Linguistik und Data-Science, um Computer in die Lage zu versetzen, menschliche Sprache in schriftlicher und mündlicher Form zu verstehen. Durch die Analyse von Satzstruktur und Grammatik ermöglichen NLP-Teilfunktionen Computern das „Lesen“. Gängige NLP-Teilfunktionen sind:

  • Zusammenfassung: Diese Technik bietet eine Übersicht über lange Textabschnitte, um eine prägnante, kohärente Zusammenfassung der wichtigsten Punkte eines Dokuments zu erstellen.

  • Part-of-Speech-Tagging (PoS): Bei dieser Technik wird jedem Token in einem Dokument ein Tag zugewiesen, das auf seiner Wortart basiert, d. h. es kennzeichnet Substantive, Verben, Adjektive usw. Dieser Schritt ermöglicht die semantische Analyse von unstrukturiertem Text.

  • Kategorisierung: Diese Funktion, die auch als Textklassifikation bezeichnet wird, ist für die Analyse von Textdokumenten und deren Klassifizierung anhand von vordefinierten Themen oder Kategorien vorgesehen. Diese Teilfunktion ist besonders geeignet für die Kategorisierung von Synonymen und Abkürzungen.

  • Stimmungsanalyse: Diese Funktion erkennt positive oder negative Stimmungen in internen oder externen Datenquellen und ermöglicht es Ihnen, Veränderungen in der Einstellung der Kunden im Laufe der Zeit zu verfolgen. Sie wird häufig verwendet, um Informationen über die Wahrnehmung von Marken, Produkten und Dienstleistungen zu erhalten. Diese Erkenntnisse können Unternehmen dazu bringen, mit Kunden in Kontakt zu treten und Prozesse und das Benutzererlebnis zu verbessern.

Informationsextraktion

Die Informationsextraktion zeigt bei der Suche in verschiedenen Dokumenten die relevanten Daten auf. Ein weiterer Schwerpunkt ist das Extrahieren strukturierter Informationen aus freiem Text und das Speichern dieser Entitäten, Attribute und Beziehungsinformationen in einer Datenbank. Gängige Teilfunktionen der Informationsextraktion sind:

  • Merkmalauswahl oder Attributauswahl beschreibt den Prozess der Auswahl der wichtigsten Merkmale (Dimensionen), die am meisten zum Ergebnis eines Vorhersagenanalysemodells beitragen.

  • Merkmalextraktion ist der Prozess der Auswahl eines Subsets von Merkmalen zur Verbesserung der Genauigkeit einer Klassifizierungsfunktion. Dies ist besonders wichtig für die Reduzierung der Dimensionalität.

  • Named Entity Recognition (NER) Die Erkennung von benannten Entitäten, auch bekannt als Entitätsidentifizierung oder Entitätsextraktion, zielt darauf ab, bestimmte Entitäten in Texten zu finden und zu kategorisieren, z. B. Namen oder Orte. Zum Beispiel identifiziert NER „Kalifornien“ als Ort und „Mary“ als weiblichen Vornamen.

Data-Mining

Data-Mining ist der Prozess der Erkennung von Mustern und der Gewinnung nützlicher Erkenntnisse aus großen Datenbeständen. Dieses Verfahren wertet sowohl strukturierte als auch unstrukturierte Daten aus, um neue Informationen zu ermitteln, und wird häufig zur Analyse des Verbraucherverhaltens in Marketing und Vertrieb eingesetzt. Textmining ist im Wesentlichen ein Teilbereich des Data-Mining, da es sich darauf konzentriert, unstrukturierte Daten zu strukturieren und sie zu analysieren, um neue Erkenntnisse zu gewinnen. Die oben genannten Techniken sind Formen des Data-Mining, fallen aber in den Bereich der Textdatenanalyse.

Textmining-Anwendungen

Text-Analytics-Software hat sich auf die Arbeitsweise vieler Branchen ausgewirkt und ermöglicht es ihnen, die Erfahrungen der Produktnutzer zu verbessern und Geschäftsentscheidungen schneller und besser zu treffen. Einige der Anwendungsfälle umschließen:

Kundenservice: Es gibt verschiedene Möglichkeiten, Kundenfeedback von den Nutzern einzuholen. In Kombination mit Textanalyse-Tools ermöglichen Feedback-Systeme wie Chatbots, Kundenbefragungen, NPS (Net-Promoter-Scores), Online-Rezensionen, Support-Tickets und Social-Media-Profile den Unternehmen, das Kundenerlebnis in kürzester Zeit zu verbessern. Textmining und Stimmungsanalyse können Unternehmen dabei helfen, die wichtigsten Problembereiche ihrer Kunden zu priorisieren, so dass sie auf dringende Anliegen in Echtzeit reagieren und die Kundenzufriedenheit erhöhen können. Erfahren Sie, wie Verizon Textanalysefunktionen im Kundenservice einsetzt.

Risikomanagement: Textmining findet auch im Risikomanagement Anwendung, wo es durch die Beobachtung von Stimmungsschwankungen und die Extraktion von Informationen aus Analystenberichten und Whitepapers Erkenntnisse über Branchentrends und Finanzmärkte liefern kann. Dies ist besonders wertvoll für Finanzinstitute, da diese Daten mehr Vertrauen bei der Prüfung von Unternehmensinvestitionen in verschiedenen Sektoren schaffen. Erfahren Sie, wie CIBC und EquBot Textanalyse zur Risikominderung einsetzen.

Instandhaltung: Textmining liefert ein umfassendes Bild vom Betriebszustand und der Funktionalität von Produkten und Maschinen. Im Laufe der Zeit automatisiert das Textmining die Entscheidungsfindung, indem es Muster aufdeckt, die mit Problemen sowie präventiven und reaktiven Wartungsverfahren korrelieren. Text-Analytics hilft Instandhaltungsfachleuten, die Ursachen von Problemen und Ausfällen schneller zu erkennen.

Gesundheitswesen: Textmining-Techniken haben sich für Forscher im biomedizinischen Bereich als zunehmend wertvoll erwiesen, insbesondere für das Clustern von Informationen. Manuelle Recherchen in der medizinischen Forschung können kostspielig und zeitaufwendig sein. Textmining bietet eine automatisierte Methode, um wertvolle Informationen aus der medizinischen Fachliteratur zu extrahieren.

Spam-Filter: Spam dient Hackern häufig als Einfallstor, um Computersysteme mit Schadprogrammen zu infizieren. Textmining kann eine Methode bieten, um diese E-Mails aus dem Posteingang zu filtern und auszuschließen, wodurch das Benutzererlebnis verbessert und das Risiko von Cyberangriffen für Endbenutzer minimiert wird.

Zugehörige Lösungen
IBM Watson Discovery

IBM Watson Discovery ist eine mehrfach ausgezeichnete Suchtechnologie auf KI-Basis, die Datensilos aufbricht und in Unternehmensdaten verborgene Informationen abruft.

Watson Discovery erkunden
Verstehen natürlicher Sprache

Watson Natural Language Understanding ist ein cloudnatives Produkt, das Deep Learning einsetzt, um Metadaten wie Schlüsselwörter, Emotionen und Syntax aus Texten zu extrahieren.

Watson Natural Language Understanding kennenlernen
Verarbeitung natürlicher Sprache

NLP ist KI, die die Sprache Ihrer Branche spricht. Nutzen Sie Watson Discovery und entwickeln Sie Lösungen, die innerhalb von drei Jahren einen ROI von 383 % erzielen.

Verarbeitung natürlicher Sprache kennenlernen
Ressourcen Starten Sie in Ihrem Unternehmen mit der Textanalyse mit IBM Watson

Erfahren Sie, wie IBM Watson Ihnen bei der Textanalyse helfen kann.

Text mining for history: First steps on building a large dataset

Dieses Papier stellt die ersten Versuche zur Erstellung eines neuen Korpus im Fachgebiet Geschichte vor.

Machen Sie den nächsten Schritt

Ermitteln Sie Trends mit IBM Watson Discovery, damit Ihr Unternehmen bessere Entscheidungen auf der Grundlage von Daten treffen kann. Text-Analytics durchsucht Ihre Daten in Echtzeit, um versteckte Muster, Trends und Zusammenhänge zwischen verschiedenen Inhalten aufzudecken. Nutzen Sie die Textanalyse, um Einblicke in das Kunden- und Nutzerverhalten zu gewinnen, Trends in sozialen Medien und im E-Commerce zu analysieren, die Ursachen von Problemen zu finden und vieles mehr. In Ihren unerforschten Informationen liegt ein unschätzbarer Geschäftswert.

Testen Sie IBM Watson Discovery noch heute