Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ist ein Teilgebiet der Informatik und künstlichen Intelligenz (KI), das maschinelles Lernen nutzt, damit Computer die menschliche Sprache verstehen und mit ihr kommunizieren können.
NLP ermöglicht es Computern und digitalen Geräten, Text und Sprache zu erkennen, zu verstehen und zu generieren, indem Computerlinguistik – die regelbasierte Modellierung der menschlichen Sprache – mit statistischer Modellierung, maschinellem Lernen (ML) und Deep Learning kombiniert wird.
Die NLP-Forschung hat das Zeitalter der generativen KI ermöglicht, von den Kommunikationsfähigkeiten großer Sprachmodelle (LLMs) bis hin zur Fähigkeit von Bildgenerierungsmodellen, Anfragen zu verstehen. NLP ist für viele bereits Teil des Alltags: Suchmaschinen,Chatbots für den Kundenservice mit Sprachbefehlen, sprachgesteuerte GPS-Systeme und digitale Assistenten für Smartphones, die Fragen beantworten, wie Amazons Alexa, Apples Siri und Microsofts Cortana.
Auch in Unternehmenslösungen, die dabei helfen, Geschäftsabläufe zu rationalisieren und zu automatisieren, die Produktivität der Mitarbeiter zu steigern und Geschäftsprozesse zu vereinfachen, spielt NLP eine immer größere Rolle.
NLP erleichtert Menschen die Kommunikation und Zusammenarbeit mit Maschinen, indem es ihnen ermöglicht, dies in der natürlichen menschlichen Sprache zu tun, die sie täglich verwenden. Dies bietet Vorteile für viele Branchen und Anwendungen.
NLP ist besonders nützlich bei der vollständigen oder teilweisen Automatisierung von Aufgaben wie Kundensupport, Dateneingabe und Dokumentenverwaltung. NLP-gestützte Chatbots können beispielsweise routinemäßige Kundenanfragen bearbeiten und so menschliche Mitarbeiter für komplexere Probleme freistellen. Bei der Dokumentenverarbeitung können NLP-Tools automatisch klassifizieren, Schlüsselinformationen extrahieren und Inhalte zusammenfassen. Dadurch kann der Zeitaufwand und die Fehlerquote im Zusammenhang mit der manuellen Datenverarbeitung reduziert werden. NLP erleichtert die Übersetzung von Sprache, indem Text von einer Sprache in eine andere übertragen wird und gleichzeitig Bedeutung, Kontext und Nuancen erhalten bleiben.
NLP verbessert die Datenanalyse, indem es die Gewinnung von Erkenntnissen aus unstrukturierten Textdaten wie Kundenbewertungen, Social-Media-Beiträgen und Nachrichtenartikeln ermöglicht. Durch den Einsatz von Text-Mining -Techniken kann NLP Muster, Trends und Stimmungen identifizieren, die in großen Datensätzen nicht sofort ersichtlich sind. Die Stimmungsanalyse ermöglicht die Extraktion von subjektiven Eigenschaften– Stimmungen, Emotionen, Sarkasmus, Verwirrung oder Misstrauen – aus Texten. Dies wird häufig verwendet, um die Kommunikation an das System oder die Person weiterzuleiten, die am wahrscheinlichsten die nächste Antwort geben wird.
So können Unternehmen die Vorlieben ihrer Kunden, die Marktbedingungen und die öffentliche Meinung besser verstehen. NLP-Tools können auch große Textmengen kategorisieren und zusammenfassen, was es Analysten erleichtert, wichtige Informationen zu identifizieren und datengestützte Entscheidungen effizienter zu treffen.
NLP unterstützt die Suche, indem es Systemen ermöglicht, die Absicht hinter den Benutzeranfragen zu verstehen. Mithilfe dieser Informationen können genauere und kontextuell relevantere Ergebnisse erzielt werden. Anstatt sich ausschließlich auf die Übereinstimmung von Schlüsselwörtern zu verlassen, analysieren NLP-gestützte Suchmaschinen die Bedeutung von Wörtern und Phrasen und erleichtern so das Auffinden von Informationen, selbst wenn die Suchanfragen vage oder komplex sind. Dies verbessert die Benutzererfahrung, sei es bei der Websuche, beim Abrufen von Dokumenten oder bei Unternehmensdatensystemen.
NLP ermöglicht fortschrittliche Sprachmodelle, um menschenähnliche Texte für verschiedene Zwecke zu erstellen. Vortrainierte Modelle wie GPT-4 können Artikel, Berichte, Marketingtexte, Produktbeschreibungen und sogar kreatives Schreiben auf der Grundlage von Eingabeaufforderungen der Benutzer erstellen. NLP-gestützte Tools können auch bei der Automatisierung von Aufgaben wie dem Verfassen von E-Mails, Social-Media-Beiträgen oder juristischen Dokumenten helfen. Durch das Verständnis von Kontext, Ton und Stil stellt NLP sicher, dass die generierten Inhalte kohärent, relevant und auf die beabsichtigte Botschaft abgestimmt sind, wodurch Zeit und Aufwand bei der Erstellung von qualitativen Inhalten gespart werden.
NLP kombiniert die Leistungsfähigkeit der Computerlinguistik mit Algorithmen des maschinellen Lernens und Deep Learning. Die Computerlinguistik nutzt Data Science zur Analyse von Sprache und Sprechweise. Sie umfasst zwei Hauptarten der Analyse: die syntaktische Analyse und die semantische Analyse. Die syntaktische Analyse bestimmt die Bedeutung eines Wortes, einer Phrase oder eines Satzes, indem sie die Syntax der Wörter analysiert und die vorprogrammierten Regeln der Grammatik anwendet. Die semantische Analyse verwendet die syntaktische Ausgabe, um die Bedeutung der Wörter zu ermitteln und ihre Bedeutung innerhalb der Satzstruktur zu interpretieren.
Das Parsen von Wörtern kann auf zwei Arten erfolgen. Beim Dependency Parsing werden die Beziehungen zwischen den Wörtern untersucht, z. B. die Identifizierung von Substantiven und Verben, während beim Constituency Parsing ein Parse-Baum (oder Syntaxbaum) erstellt wird: eine verwurzelte und geordnete Darstellung der syntaktischen Struktur des Satzes oder der Wortfolge. Die daraus resultierenden Parse-Bäume bilden die Grundlage für die Funktionen von Language Translators und Spracherkennung. Im Idealfall macht diese Analyse die Ausgabe – entweder Text oder Sprache – sowohl für NLP-Modelle als auch für Menschen verständlich.
Selbstüberwachtes Lernen (SSL) ist insbesondere für die Unterstützung von NLP nützlich, da NLP große Mengen an gekennzeichneten Daten benötigt, um KI-Modelle zu trainieren. Da diese gekennzeichneten Datensätze eine zeitaufwändige Annotation erfordern – ein Prozess, der die manuelle Kennzeichnung durch Menschen beinhaltet – kann es äußerst schwierig sein, genügend Daten zu sammeln. Selbstüberwachte Ansätze können zeit- und kosteneffizienter sein, da sie das manuelle Kennzeichnen von Trainingsdaten teilweise oder vollständig ersetzen.
Zu den drei verschiedenen NLP-Ansätzen gehören:
Die ersten NLP-Anwendungen waren einfache Wenn-Dann-Decision-Trees, für die man vorprogrammierte Regeln benötigte. Sie können nur auf bestimmte Anfragen antworten, wie die ursprüngliche Version von Moviefone, die über grundlegende Fähigkeiten zur natürlichen Sprachgenerierung (NLG) verfügte. Da es im regelbasierten NLP weder maschinelles Lernen noch KI-Fähigkeiten gibt, ist diese Funktion stark eingeschränkt und nicht skalierbar.
Das später entwickelte statistische NLP extrahiert, klassifiziert und kennzeichnet automatisch Elemente von Text- und Sprachdaten und weist dann jeder möglichen Bedeutung dieser Elemente eine statistische Wahrscheinlichkeit zu. Dies beruht auf maschinellem Lernen und ermöglicht eine ausgeklügelte Aufschlüsselung der Linguistik, wie z. B. Part-of-Speech-Tagging.
Statistisches NLP führte die wesentliche Technik ein, Sprachelemente – wie Wörter und grammatikalische Regeln – auf einer Vektordarstellung abzubilden, sodass Sprache mithilfe mathematischer (statistischer) Methoden, einschließlich Regression oder Markov-Modellen, modelliert werden kann. Dies beeinflusste frühe NLP-Entwicklungen wie Rechtschreibprüfungen und T9-Textnachrichten (Text auf 9 Tasten, zur Verwendung auf Tonwahltelefonen).
In letzter Zeit haben sich Deep-Learning-Modelle zur vorherrschenden Methode des NLP entwickelt, indem sie riesige Mengen an unstrukturierten Rohdaten – sowohl Text als auch Sprache – nutzen, um immer genauer zu werden. Deep Learning kann als eine Weiterentwicklung des statistischen NLP betrachtet werden, mit dem Unterschied, dass es Neural Networks verwendet. Es gibt mehrere Unterkategorien von Modellen:
Sequence-to-Sequence (seq2seq)-Modelle: Sie basieren auf wiederkehrenden neuronalen Netzen (RNN) und werden meist für die maschinelle Übersetzung verwendet, indem sie einen Satz aus einer Sprache (z. B. Deutsch) in einen Satz aus einer anderen Sprache (z. B. Englisch) umwandeln.
Transformer-Modelle: Sie verwenden die Tokenisierung der Sprache (die Position jedes Tokens – Wörter oder Teilwörter) und Selbstaufmerksamkeit (Erfassung von Abhängigkeiten und Beziehungen), um die Beziehung verschiedener Sprachteile zueinander zu berechnen. Transformer-Modelle können durch selbstüberwachtes Lernen effizient auf riesigen Textdatenbanken trainiert werden. Ein Meilenstein bei den Transformer-Modellen war Googles bidirektionale Encoder-Repräsentationen von Transformern (BERT), die zur Grundlage der Funktionsweise der Google-Suchmaschine wurden und es bis heute sind.
Autoregressive Modelle: Diese Art von Transformer-Modell wird speziell trainiert, um das nächste Wort in einer Sequenz vorherzusagen, was einen enormen Fortschritt in der Fähigkeit zur Textgenerierung darstellt. Beispiele für autoregressive LLMs sind GPT, Llama, Claude und das Open-Source-Programm Mistral.
Foundation Models: Vorgefertigte und kuratierte Foundation Models können die Einführung eines NLP-Projekts beschleunigen und das Vertrauen in seine Arbeit stärken. Die IBM Granite Foundation Models sind beispielsweise branchenübergreifend anwendbar. Sie unterstützen NLP-Aufgaben wie die Generierung von Inhalten und die Gewinnung von Erkenntnissen. Darüber hinaus erleichtern sie Retrieval Augmented Generation, ein Framework zur Verbesserung der Antwortqualität durch die Verknüpfung des Modells mit externen Wissensquellen. Die Modelle führen auch Named Entity Recognition durch, bei der Schlüsselinformationen in einem Text identifiziert und extrahiert werden.
Verschiedene NLP-Aufgaben helfen typischerweise dabei, menschliche Text- und Sprachdaten so zu verarbeiten, dass der Computer das, was er aufnimmt, verstehen kann. Einige dieser Aufgaben umfassen:
Ko-Referenzauflösung
Named Entity Recognition
Part-of-Speech-Tagging
Begriffsklärung der Wortbedeutung
Hierbei geht es darum, festzustellen, ob und wann sich zwei Wörter auf dieselbe Entität beziehen. Das häufigste Beispiel ist die Bestimmung der Person oder des Objekts, auf das sich ein bestimmtes Pronomen bezieht (z. B. „sie“ = „Maria“). Aber es kann auch darum gehen, eine Metapher oder eine Redewendung im Text zu identifizieren (z. B. wenn mit dem Begriff „Bär“ kein Tier, sondern eine große und behaarte Person gemeint ist).
NER identifiziert Wörter oder Phrasen als nützliche Entitäten. NER identifiziert „London“ als Ort oder „Maria“ als den Namen einer Person.
Auch als „grammatische Tagging“ bezeichnet, ist dies der Prozess, bei dem anhand der Verwendung und des Kontexts bestimmt wird, um welche Wortart es sich bei einem Wort oder einem Textabschnitt handelt. Beispielsweise wird „lachen“ in „Wir lachen über den Witz“ vom Part-of-Speech-Tagging als Verb und in „Marias Lachen ist so schön“ als Substantiv identifiziert.
Dies ist die Auswahl einer Wortbedeutung für ein Wort mit mehreren möglichen Bedeutungen. Dabei wird ein Prozess der semantischen Analyseverwendet, um das Wort im Kontext zu untersuchen. Zum Beispiel hilft die Wortsinn-Disambiguierung bei der Unterscheidung der Bedeutung des Verbs „make“ (machen) in „make the grade“ (qualifizieren) und „make a bet“ (wetten). Die Unterscheidung von „I will be merry when I marry Mary“ (Ich werde mich freuen, wenn ich Mary heirate) erfordert ein ausgeklügeltes NLP-System.
Die NLP kombiniert verschiedene computergestützte Verfahren, um die menschliche Sprache so zu analysieren, zu verstehen und zu generieren, dass Maschinen sie verarbeiten können. Hier ist eine Übersicht über eine typische NLP-Pipeline und ihre Schritte:
Die NLP-Textvorverarbeitung bereitet Rohtexte für die Analyse vor, indem sie sie in ein Format umwandelt, das von Maschinen leichter verstanden werden kann. Es beginnt mit der Tokenisierung, bei der der Text in kleinere Einheiten wie Wörter, Sätze oder Phrasen aufgeteilt wird. Dies hilft, komplexe Texte in überschaubare Teile zu zerlegen. Als Nächstes wird die Kleinschreibung angewendet, um den Text zu standardisieren, indem alle Zeichen in Kleinbuchstaben umgewandelt werden, wodurch sichergestellt wird, dass Wörter wie „Apple“ und „apple“ gleich behandelt werden. Die Entfernung von Stoppwörtern ist ein weiterer häufiger Schritt, bei dem häufig verwendete Wörter wie „ist“ oder „der/die/das“ herausgefiltert werden, da sie dem Text keine wesentliche Bedeutung hinzufügen. Stemming oder Lemmatisierung reduziert Wörter auf ihre Grundform (z. B. wird „running“ zu „run“), wodurch es einfacher wird, Sprache zu analysieren, indem verschiedene Formen desselben Wortes gruppiert werden. Zusätzlich entfernt die Textbereinigung unerwünschte Elemente wie Satzzeichen, Sonderzeichen und Zahlen, die die Analyse belasten können.
Nach der Vorverarbeitung ist der Text bereinigt, standardisiert und bereit für eine effektive Interpretation durch maschinelle Lernmodelle.
Bei der Merkmalsextraktion wird Rohtext in numerische Darstellungen umgewandelt, die von Maschinen analysiert und interpretiert werden können. Dabei wird Text mithilfe von NLP-Techniken wie Bag of Words und TF-IDF, die die Präsenz und Bedeutung von Wörtern in einem Dokument quantifizieren, in strukturierte Daten umgewandelt. Zu den fortschrittlicheren Methoden gehören Wort-Einbettungen wie Word2Vec oder GloVe, die Wörter als dichte Vektoren in einem kontinuierlichen Raum darstellen und semantische Beziehungen zwischen Wörtern einfangen. Kontextuelle Einbettungen verbessern dies noch weiter, indem sie den Kontext berücksichtigen, in dem Wörter erscheinen, und so reichhaltigere, nuanciertere Darstellungen ermöglichen.
Die Textanalyse umfasst die Interpretation und Extraktion aussagekräftiger Informationen aus Textdaten mithilfe verschiedener rechnergestützter Verfahren. Dieser Prozess umfasst Aufgaben wie die POS-Tagging (Part-of-Speech) zur Identifizierung der grammatikalischen Rolle von Wörtern und die NER (Named Entity Recognition) zur Erkennung bestimmter Entitäten wie Namen, Orte und Daten. Die Abhängigkeitsanalyse analysiert die grammatikalischen Beziehungen zwischen Wörtern, um die Satzstruktur zu verstehen, während die Stimmungsanalyse den emotionalen Ton des Textes bestimmt und beurteilt, ob er positiv, negativ oder neutral ist. Die Themenmodellierung identifiziert zugrunde liegende Themen oder Themen innerhalb eines Textes oder in einem Bestand von Dokumenten. Natural Language Understanding (NLU) ist eine Untergruppe von NLP, die sich auf die Analyse der Bedeutung von Sätzen konzentriert. NLU ermöglicht es Software, ähnliche Bedeutungen in verschiedenen Sätzen zu finden oder Wörter mit unterschiedlichen Bedeutungen zu verarbeiten. Durch diese Techniken verwandelt die NLP-Textanalyse unstrukturierten Text in Erkenntnisse.
Die verarbeiteten Daten werden dann zum Trainieren von Modellen für maschinelles Lernen verwendet, die Muster und Beziehungen innerhalb der Daten erkennen. Während des Trainings passt das Modell seine Parameter an, um Fehler zu minimieren und seine Leistung zu verbessern. Nach dem Training kann das Modell verwendet werden, um Vorhersagen zu treffen oder Ergebnisse für neue, unbekannte Daten zu generieren. Die Effektivität der NLP-Modellierung wird durch Evaluierung, Validierung und Feinabstimmung kontinuierlich verbessert, um die Genauigkeit und Relevanz in realen Anwendungen zu erhöhen.
Verschiedene Softwareumgebungen sind während der genannten Prozesse nützlich. Das Natural Language Toolkit (NLTK) beispielsweise ist eine Suite von Bibliotheken und Programmen für Englisch, die in der Programmiersprache Python geschrieben sind. Es unterstützt Textklassifizierung, Tokenisierung, Stemming, Tagging, Parsing und semantische Schlussfolgerung. TensorFlow ist eine kostenlose Open-Source-Softwarebibliothek für maschinelles Lernen und KI, die zum Trainieren von Modellen für NLP-Anwendungen verwendet werden kann. Es gibt eine Fülle von Tutorials und Zertifizierungen für diejenigen, die sich mit solchen Tools vertraut machen möchten.
Selbst modernste NLP-Modelle sind nicht perfekt, genauso wie die menschliche Sprache fehleranfällig ist. Wie jede KI-Technologie birgt auch NLP potenzielle Fallstricke. Die menschliche Sprache ist voller Mehrdeutigkeiten, die es Programmierern unglaublich schwierig machen, Software zu schreiben, die die beabsichtigte Bedeutung von Text- oder Sprachdaten genau bestimmt. Es kann Jahre dauern, bis Menschen die menschliche Sprache lernen – und viele hören nie auf zu lernen. Aber dann müssen die Programmierer den auf natürlicher Sprache basierenden Anwendungen beibringen, Unregelmäßigkeiten zu erkennen und zu verstehen, damit ihre Anwendungen genau und sinnvoll eingesetzt werden können.Damit verbundene Risiken können Folgendes umfassen:
Wie bei jeder KI-Funktion verfälschen verzerrte Daten, die beim Training verwendet werden, die Antworten. Je vielfältiger die Nutzer einer NLP-Funktion sind, desto bedeutender wird dieses Risiko, z. B. bei Regierungsdiensten, im Gesundheitswesen und bei Interaktionen im Personalwesen. Trainingsdatensätze aus dem Internet sind beispielsweise anfällig für Verzerrungen.
Wie bei der Programmierung besteht das Risiko von Garbage In, Garbage Out (GIGO, wörtlich übersetzt „Müll rein, Müll raus“). Spracherkennung, auch bekannt als „Speech to Text”, ist die Aufgabe, Sprachdaten zuverlässig in Textdaten umzuwandeln. Aber NLP-Lösungen können verwässern, wenn die gesprochene Eingabe in einem unklaren Dialekt, genuschelt, zu umgangssprachlich, Homonymen, falscher Grammatik, Idiomen, Fragmenten, falscher Aussprache, Kontraktionen oder mit zu viel Hintergrundgeräuschen aufgezeichnet wurde.
Es werden ständig neue Wörter erfunden oder importiert. Die Konventionen der Grammatik können sich weiterentwickeln oder absichtlich missachtet werden. In diesen Fällen kann NLP entweder eine Vermutung anstellen oder zugeben, dass es unsicher ist – so oder so führt dies zu einer Komplikation.
Wenn Menschen sprechen, kann ihre verbale Ausdrucksweise oder sogar ihre Körpersprache eine ganz andere Bedeutung haben als die Worte allein. Übertreibungen für einen bestimmten Effekt, die Betonung von Wörtern zur Darstellung ihrer Bedeutung oder Sarkasmus können von NLP missverstanden werden, was die semantische Analyse erschwert und weniger zuverlässig macht.
NLP-Anwendungen finden sich heute in nahezu jeder Branche.
Bei Finanzgeschäften können Nanosekunden den Unterschied zwischen Erfolg und Misserfolg ausmachen, wenn es um den Zugriff auf Daten oder den Abschluss von Geschäften geht. NLP kann die Auswertung von Informationen aus Jahresabschlüssen, Geschäfts- und Aufsichtsberichten, Pressemitteilungen und sogar sozialen Medien beschleunigen.
Neue medizinische Erkenntnisse und Durchbrüche können schneller erzielt werden, als viele medizinische Fachkräfte mithalten können. NLP- und KI-basierte Tools können dazu beitragen, die Analyse von Krankenakten und medizinischen Forschungsarbeiten zu beschleunigen und so besser informierte medizinische Entscheidungen zu ermöglichen oder bei der Erkennung oder sogar Prävention von Krankheiten zu helfen.
NLP kann Forderungen analysieren, um nach Mustern zu suchen, die Problembereiche identifizieren und Ineffizienzen bei der Bearbeitung von Forderungen aufdecken können, wodurch die Bearbeitung optimiert und der Aufwand der Mitarbeiter verringert werden kann.
Bei fast jedem Rechtsfall ist es erforderlich, Unmengen von Unterlagen, Hintergrundinformationen und rechtlichen Präzedenzfällen zu prüfen. NLP kann dabei helfen, die juristische Recherche zu automatisieren, indem es bei der Organisation von Informationen hilft, die Überprüfung beschleunigt und sicherstellt, dass alle relevanten Details für die Prüfung erfasst werden.
Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.
Steigern Sie den Geschäftswert der künstlichen Intelligenz mit einem leistungsstarken und flexiblen Portfolio aus Bibliotheken, Diensten und Anwendungen.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Erfahren Sie, wie die Verarbeitung natürlicher Sprache Ihnen dabei helfen kann, sich natürlicher mit Computern zu unterhalten.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
Auf der IBM Developer's Website finden Sie Blogs, Artikel und Newsletter und erfahren mehr über IBM Embeddable AI.
Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.