Was ist Textklassifizierung?

Autoren

Cole Stryker

Staff Editor, AI Models

IBM Think

Was ist Textklassifizierung?

Textklassifizierung ist eine Aufgabe des maschinellen Lernens, bei der Textdaten vordefinierte Labels zugewiesen werden, um sie automatisch in Gruppen zu kategorisieren. Da Unternehmen und Plattformen mit ständig wachsenden Mengen unstrukturierter Texte konfrontiert sind, bietet die Textklassifizierung eine leistungsstarke Möglichkeit, Textdaten in großem Umfang zu organisieren, zu interpretieren und zu verarbeiten.

Heutzutage erzeugen Unternehmen eine beträchtliche Menge an Textdaten auf Websites, in Apps und anderen Netzwerken in Form von Kundenbewertungen, Social-Media-Beiträgen, Rechtsdokumenten, E-Mails und vielem mehr. In diesen Daten sind Erkenntnisse enthalten, die dem Unternehmen helfen könnten, bessere Entscheidungen zu treffen. Die Textklassifizierung ist der erste Schritt des Prozesses.

Ein Support-Ticket mit dem Vermerk „dringend“ kann an einen priorisierten Workflow weitergeleitet werden. Eine als „Spam“ gekennzeichnete E-Mail kann automatisch archiviert werden. Eine als „positiv“ bewertete Kundenrezension kann in einen Bericht zur Kundenstimmung über ein neues Produkt einfließen. Klassifizierte Daten können aggregiert und visualisiert werden, um Trends und Muster aufzudecken, die sonst verborgen bleiben würden.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Funktionsweise der Textklassifizierung

Die Textklassifizierung ist eine grundlegende Aufgabe in der Verarbeitung natürlicher Sprache (NLP), die in einer Vielzahl von Anwendungen eingesetzt wird. Ein Textklassifikator ist ein maschinelles Lernmodell, das verschiedene Klassifizierungsprobleme löst, wie z. B. die Klassifizierung von Texten nach Thema, Stimmung oder Absicht. Und so funktioniert es:

Überwachte Textklassifizierung

Zur Durchführung der Textklassifizierung werden in der Regel überwachte Modelle verwendet. Der erste Schritt besteht darin, einen großen Datensatz mit Textbeispielen zu sammeln. Dies können E-Mails, Social-Media-Beiträge, Kundenbewertungen oder Dokumente sein.

Menschliche Kommentatoren versehen jedes Textstück mit einer Kennzeichnung. Zum Beispiel „Spam“ oder „kein Spam“ oder „positive“ vs. „negative“ Stimmung. Dieser gelabelte Trainingsdatensatz bildet die Grundlage für das Training eines maschinellen Lernmodells. Je mehr Daten vorhanden sind, desto genauer ist in der Regel das Ergebnis.

Durch die Vorverarbeitung des Eingabetextes wird dieser in ein standardisiertes, maschinenlesbares Format umgewandelt. Klassifikatoren können nur mit Text arbeiten, der in numerische Darstellungen übersetzt wurde, häufig unter Verwendung von Wort-Embeddings oder fortgeschritteneren Encoder-Architekturen, die die semantische Bedeutung von Sprache erfassen.

Hyperparameter konfigurieren Variablen wie die Anzahl der Schichten eines neuronalen Netzwerks, die Anzahl der Neuronen pro Schicht oder die Verwendung einer Aktivierungsfunktion. Diese Hyperparameter werden vor Beginn des Trainings festgelegt.

Dann werden die Daten in einen Klassifizierungsalgorithmus eingespeist, der lernt, Muster in den Daten mit den zugehörigen Bezeichnungen zu verknüpfen.

Zu den Algorithmen zur Textklassifizierung gehören:

Das trainierte Modell wird anhand eines separaten Validierungs- oder Test-Datensatzes getestet, um die Modellleistung anhand von Metriken wie Genauigkeit, Präzision, Recall und F1-Score zu bewerten, und anhand etablierter Benchmarks evaluiert.

Ein leistungsfähiges Textklassifizierungsmodell kann in Produktionssysteme integriert werden, wo es eingehenden Text in Echtzeit klassifiziert.

Advanced Modelle können im Laufe der Zeit durch die Integration neuer Daten und das erneute Trainieren verbessert werden. Vortrainierte Sprachmodelle wie BERT haben bereits ein tiefes Verständnis der Sprache erlernt und können mit relativ wenigen Daten auf spezifische Klassifizierungsaufgaben abgestimmt werden. Fine-tuning reduziert die Trainingszeit und steigert die Leistung, insbesondere bei komplexen oder differenzierten Kategorien.

Unüberwachte Textklassifizierung

Während überwachte Methoden weitaus häufiger eingesetzt werden, können Modelle durch unüberwachtes Lernen auch ohne gelabelte Daten trainiert werden. Anstatt für jeden Text die richtige Kategorie vorgegeben zu bekommen, versucht das Modell selbstständig Strukturen oder Muster in den Daten zu finden. Dies steht im Gegensatz zur überwachten Textklassifizierung, bei der jedes Trainingsbeispiel mit einer vordefinierten Kategorisierung gekennzeichnet ist. Überwachte Methoden sind weitaus häufiger.

Mit einer Technik namens Clustering gruppiert das Modell beispielsweise ähnliche Textteile in Cluster basierend auf gemeinsamen Merkmalen, die dann als Kategorie interpretiert werden können.

AI Academy

Nutzen Sie KI für Ihren Kundenservice

Erfahren Sie, wie der Einsatz von generativer KI mit einer nahtloseren Erfahrung die Kundenzufriedenheit erhöht und die Produktivität des Unternehmens in diesen drei Schlüsselbereichen steigert: Self-Service, Servicemitarbeiter und Abläufe im Contact Center.

Anwendungsfall für die Textklassifizierung

Im Folgenden werden einige gängige NLP-Aufgaben, die Klassifizierung beinhalten, aufgeführt:

  • Spam-Erkennung
  • Stimmungsanalyse
  • Klassifikation des Themas
  • Absichtserkennung
  • Erkennung von Toxizität und Missbrauch

Spam-Erkennung

Spam-Erkennungssysteme analysieren eingehende Nachrichten und klassifizieren sie entweder als „Spam“ oder als „kein Spam“. Sie verwenden eine Mischung aus Regeln, statistischen Mustern und Techniken des maschinellen Lernens, um Phishing-E-Mails, Massen-Marketingnachrichten von unbekannten Absendern, verdächtige Links, Malware und mehr zu erkennen.

Stimmungsanalyse

Bei der Stimmungsanalyse werden große Textmengen analysiert, um die Stimmung zu bestimmen. Mithilfe der Stimmungsanalyse können Unternehmen feststellen, ob Menschen an digitalen Touchpoints positive oder negative Assoziationen haben.

Ein Algorithmus für maschinelles Lernen kann die Stimmung anhand von Wörtern, die im Text vorkommen, sowie anhand der Reihenfolge, in der sie vorkommen, messen. Die Entwickler verwenden Algorithmen zur Stimmungsanalyse, um der Software beizubringen, Emotionen in Texten zu erkennen, ähnlich wie es Menschen tun.

Klassifizierung von Themen

Das Ziel der Themenklassifizierung besteht darin, einem Text vordefinierte Themenkategorien zuzuordnen. Sie wird häufig in den Bereichen Content Management, Aggregation, akademische Forschung und Kundenfeedback-Analyse eingesetzt, um große Mengen unstrukturierter Texte zu organisieren.

Erkennung von Absichten

Während die Themenklassifizierung Aufschluss darüber gibt, worum es in einer Nachricht geht, gibt die Absichtserkennung Aufschluss darüber, was der Benutzer zu tun versucht. Die Absichtserkennung ist nützlich für die Automatisierung von Gesprächen und die Weiterleitung von Aufgaben im Kundenservice oder E-Commerce. Ohne sie würden die Systeme Schwierigkeiten haben, sinnvolle Unterstützung zu leisten.

Erkennung von Toxizität und Missbrauch

Die Erkennung von toxischen Inhalten und Missbrauch ist eine Textklassifizierungsaufgabe, die sich auf die Identifizierung und Kennzeichnung schädlicher, beleidigender oder missbräuchlicher Online-Inhalte konzentriert. Dies kann Sprache umfassen, die hasserfüllt, bedrohlich, belästigend, obszön oder anderweitig unangemessen ist. Große Social-Media-Plattformen nutzen Klassifizierungsalgorithmen, um ihre Support-Mitarbeiter bei der Verwaltung riesiger globaler Nutzerbasen zu unterstützen.

Frameworks, Tools und APIs

Es gibt viele Open-Source-Tools zum Erstellen von Textklassifikatoren. Frameworks wie TensorFlow und PyTorch bieten Komponenten zum Erstellen und Trainieren von Modellen. Zum Beispiel könnte ein TensorFlow-basierter Klassifikator eine Keras-API mit Modulen wie validation_data, optimizer und loss verwenden, um ein Modell mit beschrifteten Daten zu trainieren. PyTorch, eine Python-basierte Bibliothek für maschinelles Lernen, die für ihre Flexibilität bekannt ist, wird auch häufig mit Dienstprogrammen wie DataLoader und nn.Module verwendet.

Während herkömmliche Klassifikatoren feste Bezeichnungen verwenden, hat die zunehmende Verbreitung von großen Sprachmodellen (LLMs) generative Ansätze für die Klassifizierung eingeführt. Modelle können dazu aufgefordert werden, sowohl Beschriftungen als auch Erklärungen in natürlicher Sprache zu erstellen. Beispielsweise könnte man ein LLM mit einem Satz konfrontieren und es bitten, die Stimmung zu klassifizieren, eine Begründung zu generieren oder ähnliche Kategorien vorzuschlagen – und das alles ohne zusätzliches Training.

Mit GPU-Beschleunigung werden die Trainingszeiten erheblich verkürzt, insbesondere bei großen Datensätzen oder komplexen Deep-Learning-Architekturen. Forscher und Entwickler teilen ihre Trainingspipelines und -modelle häufig auf GitHub.

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen