Was ist Spracherkennung?
Erfahren Sie mehr über die Geschichte der Spracherkennung und ihre vielfältigen Anwendungen in der Welt von heute
IBM Newsletter abonnieren
Computergenerierte abstrakte Bilder, die viele bunte Linien in einem Strudel zeigen
Was ist Spracherkennung?

Spracherkennung, auch bekannt als automatische Spracherkennung (ASR), Computer-Spracherkennung oder Sprache-zu-Text, ist eine Funktion, die es einem Programm ermöglicht, menschliche Sprache in ein schriftliches Format umzuwandeln. Sie wird häufig mit der Stimmerkennung verwechselt, konzentriert sich aber auf die Übersetzung von Sprache aus einem verbalen Format in ein Textformat, während die Stimmerkennung lediglich dazu dient, die Stimme eines einzelnen Benutzers zu identifizieren.

IBM hat seit den Anfängen der Spracherkennung eine herausragende Rolle in diesem Bereich gespielt – so erstmals mit der Veröffentlichung von „Shoebox“ im Jahr 1962. Diese Maschine war in der Lage, 16 verschiedene Wörter zu erkennen, was eine Weiterentwicklung der ursprünglichen Arbeit von Bell Labs aus den 1950er Jahren darstellte. IBM beließ es jedoch nicht dabei, sondern entwickelte im Laufe der Jahre weitere Innovationen und brachte 1996 die Anwendung VoiceType Simply Speaking auf den Markt. Diese Spracherkennungssoftware hatte einen Wortschatz von 42.000 Wörtern, unterstützte Englisch und Spanisch und enthielt ein Rechtschreibwörterbuch mit 100.000 Wörtern. Während die Sprachtechnologie in den Anfängen nur einen begrenzten Wortschatz hatte, wird sie heute in einer Vielzahl von Branchen eingesetzt, z. B. in der Automobilindustrie, der Technik und dem Gesundheitswesen. In den letzten Jahren hat sich der Einsatz dieser Technologie aufgrund der Fortschritte in den Bereichen Deep Learning und Big Data weiter beschleunigt. Untersuchungen (Link befindet sich außerhalb von ibm.com) zeigen, dass dieser Markt bis 2025 voraussichtlich einen Wert von 24,9 Mrd. US-Dollar haben wird.

Ausgewählte Produkte

IBM Watson Speech to Text

IBM Watson Text to Speech

Wesentliche Merkmale einer effektiven Spracherkennung

Es gibt viele Anwendungen und Geräte für die Spracherkennung, aber die fortschrittlicheren Lösungen nutzen KI und maschinelles Lernen. Sie integrieren Grammatik, Syntax, Struktur und Zusammensetzung von Audio- und Sprachsignalen, um menschliche Sprache zu verstehen und zu verarbeiten. Im Idealfall lernen sie im Laufe der Zeit dazu und entwickeln mit jeder Interaktion neue Antworten.

Die besten Systeme ermöglichen es Unternehmen auch, die Technologie an ihre spezifischen Anforderungen anzupassen – angefangen bei der Sprache über Sprachnuancen bis hin zur Markenerkennung. Beispiele:

  • Sprachgewichtung: Verbessert die Genauigkeit, indem bestimmte Wörter, die häufig erwähnt werden (z. B. Produktnamen oder Branchenjargon), stärker gewichtet werden als die im Basiswortschatz enthaltenen Begriffe.
  • Sprecherkennzeichnung: Gibt eine Transkription aus, die die Beiträge jedes Sprechers in einem Gespräch mit mehreren Teilnehmern zitiert oder markiert.
  • Akustiktraining: Berücksichtigt akustische Besonderheiten der Unternehmensumgebung. Trainieren Sie das System, damit es sich an die akustische Umgebung (z. B. die Hintergrundgeräusche in einem Call-Center) und spezielle Sprechweisen (z. B. Stimmlage, Lautstärke und Tempo) anpasst.
  • Filterung von Schimpfwörtern: Verwenden Sie Filter, um bestimmte Wörter oder Ausdrücke zu erkennen und die Sprachausgabe zu bereinigen.

Aber die Spracherkennung entwickelt sich weiter. Unternehmen wie IBM arbeiten in mehreren Bereichen daran, die Interaktion zwischen Mensch und Maschine zu verbessern.

 

Algorithmen zur Spracherkennung

Aufgrund der Unregelmäßigkeiten der menschlichen Sprache war die Entwicklung von Spracherkennungssystemen schon immer eine große Herausforderung. Sie gilt als eines der komplexesten Gebiete der Computerwissenschaft, welche Linguistik, Mathematik und Statistik umfasst. Spracherkennungsprogramme umfassen mehrere Komponenten, wie z. B. die Spracheingabe, die Merkmalsextraktion, die Merkmalsvektoren, einen Decoder und eine Wortausgabe. Der Decoder nutzt akustische Modelle, ein Wortausspracheverzeichnis und Sprachmodelle, um die entsprechende Ausgabe zu bestimmen.

Die Spracherkennungstechnologie wird nach ihrer Genauigkeit (d. h. der Wortfehlerrate) und ihrer Verarbeitungsgeschwindigkeit bewertet. Eine Reihe von Faktoren wie Aussprache, Akzent, Tonhöhe, Lautstärke und Hintergrundgeräusche können die Wortfehlerrate beeinflussen. Das Ziel von Spracherkennungssystemen ist es seit langem, eine Fehlerquote zu erreichen, die der von zwei miteinander sprechenden Menschen gleichkommt. Untersuchungen von Lippmann (Link befindet sich außerhalb von ibm.com) (PDF, 352 KB) schätzen die Wortfehlerrate auf etwa 4 Prozent, aber es ist schwierig, die Ergebnisse dieser Untersuchung zu reproduzieren.

Lesen Sie mehr dazu, welche Fortschritte IBM hier bereits gemacht hat und welche Bestmarken IBM im Bereich der Spracherkennung erreicht hat.

Zur Umwandlung von Sprache in Text und zur Verbesserung der Transkriptionsgenauigkeit werden verschiedene Algorithmen und Berechnungsmethoden eingesetzt. Nachstehend finden Sie kurze Erläuterungen zu einigen der am häufigsten verwendeten Methoden:

  • Verarbeitung natürlicher Sprache (NLP): NLP ist zwar nicht unbedingt ein spezifischer Algorithmus, der bei der Spracherkennung verwendet wird, aber es ist ein Bereich der künstlichen Intelligenz, der sich auf die Sprachinteraktion zwischen Mensch und Maschine in Form von gesprochener oder als Text vorliegender Sprache konzentriert. Viele Mobilgeräte verfügen über eine Spracherkennung, um eine Sprachsuche durchzuführen (z. B. Siri) oder um das Schreiben von Textnachrichten zu erleichtern. 
  • Hidden-Markov-Modelle (HMM): Diese Modelle bauen auf dem Markov-Kettenmodell auf, das besagt, dass die Wahrscheinlichkeit eines bestimmten Zustands vom aktuellen Zustand abhängt, nicht von den vorhergehenden Zuständen. Während ein Markov-Kettenmodell für beobachtbare Ereignisse, wie z. B. Texteingaben, nützlich ist, ermöglichen uns Hidden-Markov-Modelle, versteckte Ereignisse, wie z. B. Part-of-Speech-Tags, in ein probabilistisches Modell einzubeziehen. Sie werden in der Spracherkennung als Sequenzmodelle verwendet, die jeder Einheit – d. h. Wörtern, Silben, Sätzen usw. – in der Sequenz Kennzeichnungen zuweisen. Diese Labels bilden eine Zuordnung zu den bereitgestellten Eingaben und ermöglichen es, die am besten geeignete Labelsequenz zu bestimmen.
  • N-Gramme: Dies ist der einfachste Typ eines Sprachmodells (LM), das Sätzen oder Phrasen Wahrscheinlichkeiten zuweist. Ein N-Gramm ist eine Sequenz von N-Wörtern. Zum Beispiel ist „Bestelle die Pizza“ ein Trigramm oder 3-Gramm und „Bitte bestelle die Pizza“ ein 4-Gramm. Die Grammatik und die Wahrscheinlichkeit bestimmter Wortfolgen werden verwendet, um die Erkennung und Genauigkeit zu verbessern.
  • Neuronale Netze: Neuronale Netze werden in erster Linie für Deep-Learning-Algorithmen eingesetzt und verarbeiten Trainingsdaten, indem sie die Vernetzung des menschlichen Gehirns durch Schichten von Knoten nachahmen. Jeder Knoten besteht aus Eingaben, Gewichten, einer Verzerrung (oder einem Schwellenwert) und einer Ausgabe. Wenn dieser Ausgabewert einen bestimmten Schwellenwert überschreitet, wird der Knoten „gezündet“ oder aktiviert und die Daten werden an die nächste Schicht des Netzes weitergeleitet. Neuronale Netze erlernen diese Zuordnungsfunktion durch überwachtes Lernen (Supervised Learning) und passen sich auf der Grundlage der Verlustfunktion durch den Prozess des Gradientenabstiegs an.  Neuronale Netze sind zwar in der Regel genauer und können mehr Daten verarbeiten, doch geht dies zu Lasten der Leistungseffizienz, denn ihr Training nimmt im Vergleich zu herkömmlichen Sprachmodellen mehr Zeit in Anspruch.
  • Sprecherdiarisierung (SD): Algorithmen zur Sprecherdiarisierung identifizieren und segmentieren Sprache nach der Sprecheridentität. Dies hilft Programmen, einzelne Personen in einem Gespräch besser zu unterscheiden, und wird häufig in Call-Centern zur Unterscheidung von Kunden und Vertriebsmitarbeitern eingesetzt.
Anwendungsfälle für die Spracherkennung

In zahlreichen Branchen wird die Sprachtechnologie heute auf unterschiedliche Weise eingesetzt und hilft Unternehmen und Verbrauchern, Zeit zu sparen und sogar Leben zu retten. Beispiele:

Automobilbranche: Spracherkennung erhöht die Fahrsicherheit in Form von sprachgesteuerten Navigationssystemen und Suchfunktionen in Autoradios.

Technologie: Virtuelle Agenten finden zunehmend Eingang in unser tägliches Leben, insbesondere auf unseren mobilen Geräten. Wir verwenden Sprachbefehle, um sie über unsere Smartphones aufzurufen, z. B. über Google Assistant oder Apples Siri für Aufgaben wie die Sprachsuche, oder über unsere Lautsprecher, über Amazons Alexa oder Microsofts Cortana, um Musik abzuspielen. Auch in Zukunft werden virtuelle Agenten immer mehr Bestandteil unserer Alltagsprodukte werden und das „Internet der Dinge“ vorantreiben.

Gesundheitswesen: Ärzte und Pflegepersonal nutzen Diktieranwendungen zur Erfassung und Protokollierung von Patientendiagnosen und Behandlungsnotizen.

Vertrieb: Die Spracherkennungstechnologie wird auch im Vertrieb in mehreren Bereichen eingesetzt. Sie kann einem Call-Center helfen, Tausende von Telefongesprächen zwischen Kunden und Agenten zu transkribieren, um häufige Anrufmuster und Probleme zu erkennen. KI-Chatbots auf Webseiten können Kundengespräche führen, allgemeine Fragen beantworten und einfache Anfragen lösen, ohne auf die Verfügbarkeit eines Contact-Center-Mitarbeiters warten zu müssen. In solchen Fällen tragen Spracherkennungssysteme dazu bei, die Zeit bis zur Lösung von Kundenanfragen zu verkürzen.

Sicherheit: Mit der Integration der Technologie in unser tägliches Leben gewinnen Sicherheitsprotokolle zunehmend an Bedeutung. Die sprachbasierte Authentifizierung bietet eine zusätzliche Sicherheitsstufe.

Weiterführende Lösungen
IBM Watson® Speech to Text

Konvertierung von Sprache in Text mithilfe von KI-basierter Spracherkennung und Transkription.

Mehr über IBM Watson Speech to Text erfahren
IBM Watson® Text to Speech

Konvertierung von Text in natürlich klingende Sprache in einer Vielzahl von Sprachen und Stimmen.

Mehr über IBM Watson Text to Speech erfahren
IBM® Cloud Pak-Lösungen

KI-gestützte Hybrid-Cloud-Software.

Mehr über Cloud Pak-Lösungen erfahren
Ressourcen Erfahren Sie, wie IBM Watson Speech to Text-Technologie die KI-gestützte Spracherkennung und Transkription nutzt

Ermöglichen Sie die Sprachtranskription in mehreren Sprachen für eine Vielzahl von Anwendungsfällen, darunter Kunden-Self-Service, Agentenunterstützung und Sprachanalysen.

Übersetzungs-App erreicht 95 % Genauigkeit

Erfahren Sie, wie Lingmo Spracherkennung und Modelltraining mit weniger Daten verbessert.

IBM Cloud Paks – ein Weg zur digitalen Transformation

Erfahren Sie, wie Sie mit der Entwicklung Schritt halten, wie Sie Technologien wie Cloud, KI und Automatisierung nutzen können, um Innovationen zu beschleunigen und immer neue Kundenerwartungen zu erfüllen.

Gehen Sie den nächsten Schritt

IBM hat Pionierarbeit bei der Entwicklung von Spracherkennungstools und -services geleistet, die es Unternehmen ermöglichen, ihre komplexen Geschäftsprozesse zu automatisieren und Erkenntnisse zu gewinnen, die für ihre Geschäftstätigkeit wichtig sind.IBM Watson Speech to Text ist eine cloudnative Lösung, die Deep-Learning-KI-Algorithmen nutzt und Wissen über Grammatik, Sprachstruktur und Komposition von Audio- und Sprachsignalen anwendet, um eine anpassbare Spracherkennung für eine optimale Texttranskription zu ermöglichen.

Testen Sie noch heute IBM Watson Speech to Text