Textmining, auch Text-Data-Mining genannt, ist der Prozess der Umwandlung von unstrukturiertem Text in ein strukturiertes Format, um aussagekräftige Muster und neue Erkenntnisse zu gewinnen. Durch die Anwendung fortschrittlicher Analysetechniken wie Naive Bayes, Support Vector Machines (SVM) und anderer Deep-Learning-Algorithmen können Unternehmen verborgene Zusammenhänge in ihren unstrukturierten Daten suchen und erkennen.
Text ist einer der häufigsten Datentypen in Datenbanken. Je nach Datenbank können diese Daten wie folgt organisiert werden:
Da etwa 80 % der Daten weltweit in einem unstrukturierten Format sind (Link befindet sich außerhalb von ibm.com), ist Textmining ein äußerst wertvolles Verfahren in Unternehmen. Textmining-Tools und Verfahren zur Verarbeitung natürlicher Sprache (NLP, Natural Language Processing) wie die Informationsextraktion (PDF, 131 KB) (Link befindet sich außerhalb von IBM) ermöglichen es, unstrukturierte Dokumente in ein strukturiertes Format umzuwandeln, das eine Analyse und die Gewinnung hochwertiger Erkenntnisse gestattet. Dies wiederum verbessert die Entscheidungsfindung von Unternehmen und führt zu besseren Geschäftsergebnissen.
Die Begriffe „Textmining“ und „Textanalyse“ werden weitgehend synonym gebraucht, können aber auch eine differenziertere Bedeutung haben. Textmining und Textanalyse identifizieren Textmuster und Trends in unstrukturierten Daten durch den Einsatz von maschinellem Lernen, Statistik und Linguistik. Durch die Umwandlung der Daten in ein strukturierteres Format mittels Textmining und Textanalyse lassen sich durch Textanalyse mehr quantitative Erkenntnisse gewinnen. Datenvisualisierungstechniken können dann genutzt werden, um die Ergebnisse einem breiteren Publikum zu vermitteln.
Der Prozess des Text Mining umfasst mehrere Aktivitäten, die es Ihnen ermöglichen, Informationen aus unstrukturierten Textdaten abzuleiten. Bevor Sie verschiedene Textmining-Techniken anwenden können, müssen Sie mit der Textvorverarbeitung beginnen, d. h. mit der Bereinigung und Umwandlung von Textdaten in ein verwendbares Format. Diese Praxis ist ein Kernaspekt der Verarbeitung natürlicher Sprache (NLP) und beinhaltet in der Regel den Einsatz von Techniken wie Sprachidentifikation, Tokenisierung, Part-of-Speech-Tagging, Chunking und Syntaxanalyse (Parsing), um Daten für die Analyse angemessen zu formatieren. Wenn die Textvorverarbeitung abgeschlossen ist, können Sie Textmining-Algorithmen anwenden, um Erkenntnisse aus den Daten zu gewinnen. Gängige Textmining-Techniken sind:
Informationsabruf (IR, Information Retrieval) liefert relevante Informationen oder Dokumente auf der Grundlage vordefinierter Suchanfragen oder Phrasen. IR-Systeme verwenden Algorithmen, um das Nutzerverhalten zu verfolgen und relevante Daten zu identifizieren. Information Retrieval wird häufig in Bibliothekskatalogsystemen und beliebten Suchmaschinen wie Google verwendet. Beispiele für IR-Teilaufgaben:
Die Verarbeitung natürlicher Sprache, die sich aus der Computerlinguistik entwickelt hat, nutzt Methoden aus verschiedenen Disziplinen wie Informatik, künstliche Intelligenz, Linguistik und Data-Science, um Computer in die Lage zu versetzen, menschliche Sprache in schriftlicher und mündlicher Form zu verstehen. Durch die Analyse von Satzstruktur und Grammatik ermöglichen NLP-Teilfunktionen Computern das „Lesen“. Gängige NLP-Teilfunktionen sind:
Die Informationsextraktion zeigt bei der Suche in verschiedenen Dokumenten die relevanten Daten auf. Ein weiterer Schwerpunkt ist das Extrahieren strukturierter Informationen aus freiem Text und das Speichern dieser Entitäten, Attribute und Beziehungsinformationen in einer Datenbank. Gängige Teilfunktionen der Informationsextraktion sind:
Data-Mining ist der Prozess der Erkennung von Mustern und der Gewinnung nützlicher Erkenntnisse aus großen Datenbeständen. Dieses Verfahren wertet sowohl strukturierte als auch unstrukturierte Daten aus, um neue Informationen zu ermitteln, und wird häufig zur Analyse des Verbraucherverhaltens in Marketing und Vertrieb eingesetzt. Textmining ist im Wesentlichen ein Teilbereich des Data-Mining, da es sich darauf konzentriert, unstrukturierte Daten zu strukturieren und sie zu analysieren, um neue Erkenntnisse zu gewinnen. Die oben genannten Techniken sind Formen des Data-Mining, fallen aber in den Bereich der Textdatenanalyse.
Text-Analytics-Software hat sich auf die Arbeitsweise vieler Branchen ausgewirkt und ermöglicht es ihnen, die Erfahrungen der Produktnutzer zu verbessern und Geschäftsentscheidungen schneller und besser zu treffen. Einige der Anwendungsfälle umschließen:
Kundenservice: Es gibt verschiedene Möglichkeiten, Kundenfeedback von den Nutzern einzuholen. In Kombination mit Textanalyse-Tools ermöglichen Feedback-Systeme wie Chatbots, Kundenbefragungen, NPS (Net-Promoter-Scores), Online-Rezensionen, Support-Tickets und Social-Media-Profile den Unternehmen, das Kundenerlebnis in kürzester Zeit zu verbessern. Textmining und Stimmungsanalyse können Unternehmen dabei helfen, die wichtigsten Problembereiche ihrer Kunden zu priorisieren, so dass sie auf dringende Anliegen in Echtzeit reagieren und die Kundenzufriedenheit erhöhen können. Erfahren Sie, wie Verizon Textanalysefunktionen im Kundenservice einsetzt.
Risikomanagement: Textmining findet auch im Risikomanagement Anwendung, wo es durch die Beobachtung von Stimmungsschwankungen und die Extraktion von Informationen aus Analystenberichten und Whitepapers Erkenntnisse über Branchentrends und Finanzmärkte liefern kann. Dies ist besonders wertvoll für Finanzinstitute, da diese Daten mehr Vertrauen bei der Prüfung von Unternehmensinvestitionen in verschiedenen Sektoren schaffen. Erfahren Sie, wie CIBC und EquBot Textanalyse zur Risikominderung einsetzen.
Instandhaltung: Textmining liefert ein umfassendes Bild vom Betriebszustand und der Funktionalität von Produkten und Maschinen. Im Laufe der Zeit automatisiert das Textmining die Entscheidungsfindung, indem es Muster aufdeckt, die mit Problemen sowie präventiven und reaktiven Wartungsverfahren korrelieren. Text-Analytics hilft Instandhaltungsfachleuten, die Ursachen von Problemen und Ausfällen schneller zu erkennen.
Gesundheitswesen: Textmining-Techniken haben sich für Forscher im biomedizinischen Bereich als zunehmend wertvoll erwiesen, insbesondere für das Clustern von Informationen. Manuelle Recherchen in der medizinischen Forschung können kostspielig und zeitaufwendig sein. Textmining bietet eine automatisierte Methode, um wertvolle Informationen aus der medizinischen Fachliteratur zu extrahieren.
Spam-Filter: Spam dient Hackern häufig als Einfallstor, um Computersysteme mit Schadprogrammen zu infizieren. Textmining kann eine Methode bieten, um diese E-Mails aus dem Posteingang zu filtern und auszuschließen, wodurch das Benutzererlebnis verbessert und das Risiko von Cyberangriffen für Endbenutzer minimiert wird.
IBM Watson Discovery ist eine mehrfach ausgezeichnete Suchtechnologie auf KI-Basis, die Datensilos aufbricht und in Unternehmensdaten verborgene Informationen abruft.
Watson Natural Language Understanding ist ein cloudnatives Produkt, das Deep Learning einsetzt, um Metadaten wie Schlüsselwörter, Emotionen und Syntax aus Texten zu extrahieren.
NLP ist KI, die die Sprache Ihrer Branche spricht. Nutzen Sie Watson Discovery und entwickeln Sie Lösungen, die innerhalb von drei Jahren einen ROI von 383 % erzielen.