Spracherkennung

menu icon

Spracherkennung

Erfahren Sie mehr über die Geschichte der Spracherkennung und ihre vielfältigen Anwendungen in der heutigen Welt

Was ist Spracherkennung?

Spracherkennung, auch bekannt als automatische Spracherkennung (ASR), Computerspracherkennung oder Sprache-zu-Text-Spracherkennung, ist eine Fähigkeit, die es einem Programm ermöglicht, menschliche Sprache in ein schriftliches Format umzuwandeln. Sie wird zwar häufig mit der Stimmerkennung verwechselt, aber die Spracherkennung konzentriert sich auf die Übersetzung von Sprache aus einem verbalen Format in ein Textformat, während die Stimmerkennung lediglich versucht, die Stimme eines einzelnen Benutzers zu identifizieren.

IBM hat seit den Anfängen der Spracherkennung mit der Veröffentlichung von „Shoebox“ im Jahr 1962 eine herausragende Rolle in diesem Bereich gespielt. Diese Maschine war in der Lage, 16 verschiedene Wörter zu erkennen, was eine Weiterentwicklung der ursprünglichen Arbeit von Bell Labs aus den 1950er Jahren darstellt. IBM beließ es jedoch nicht dabei, sondern entwickelte im Laufe der Jahre weitere Innovationen und brachte 1996 die Anwendung VoiceType Simply Speaking auf den Markt. Diese Spracherkennungssoftware hatte einen Wortschatz von 42.000 Wörtern, unterstützte Englisch und Spanisch und enthielt ein Rechtschreibwörterbuch mit 100.000 Wörtern. Während die Sprachtechnologie in den Anfängen nur einen begrenzten Wortschatz hatte, wird sie heute in einer Vielzahl von Branchen eingesetzt, z. B. in der Automobilindustrie, der Technik und dem Gesundheitswesen. In den letzten Jahren hat sich der Einsatz dieser Technologie aufgrund von Fortschritten im Bereich Deep Learning und Big Data weiter beschleunigt. Untersuchungen (Link befindet sich außerhalb von IBM) zeigen, dass dieser Markt bis 2025 einen Wert von 24,9 Milliarden Dollar haben wird.

Wesentliche Merkmale einer effektiven Spracherkennung

Es gibt viele Spracherkennungsanwendungen und -geräte, doch die fortschrittlichsten Lösungen nutzen KI und maschinelles Lernen. Sie integrieren Grammatik, Syntax, Struktur und Zusammensetzung von Audio- und Sprachsignalen, um menschliche Sprache zu verstehen und zu verarbeiten. Im Idealfall lernen sie im Laufe der Zeit stets dazu und entwickeln mit jeder Interaktion neue Antworten.

Die besten Systeme ermöglichen es Unternehmen auch, die Technologie an ihre spezifischen Anforderungen anzupassen – von der Sprache über die Nuancen der Sprechweise bis hin zur Markenerkennung. Beispiele:

  • Sprachgewichtung: Verbessert die Genauigkeit, indem bestimmte Wörter, die häufig gesprochen werden (z. B. Produktnamen oder Branchenjargon), höher gewichtet werden, als die bereits im Basiswortschatz enthaltenen Begriffe.
  • Kennzeichnung eines Sprechers: Ausgabe einer Transkription, die die Beiträge jedes Sprechers in einem Gespräch mit mehreren Teilnehmern zitiert oder markiert.
  • Akustisches Training: Wendet sich der akustischen Seite des Geschäfts zu. Trainieren Sie das System, damit es sich an die akustische Umgebung (z. B. die Umgebungsgeräusche in einem Call-Center) und die Sprechweise (z. B. Stimmlage, Lautstärke und Tempo) anpasst.
  • Filterung von Schimpfwörtern: Verwendet Filter, um bestimmte Wörter oder Ausdrücke zu identifizieren und die Sprachausgabe zu entschärfen.

Unterdessen entwickelt sich die Spracherkennung kontinuierlich weiter. Unternehmen wie IBM sind in verschiedenen Bereichen auf dem Vormarsch, um die Interaktion zwischen Mensch und Maschine zu verbessern.

Algorithmen zur Spracherkennung

Die Unbeständigkeit der menschlichen Sprache hat die Entwicklung zu einer wahren Herausforderung gemacht. Sie gilt als eines der komplexesten Gebiete der Computerwissenschaft – welche Linguistik, Mathematik und Statistik umfasst. Spracherkennungsprogramme bestehen aus einigen Komponenten, wie z. B. der Spracheingabe, der Merkmalsextraktion, den Merkmalsvektoren, einem Decoder und einer Wortausgabe. Der Decoder nutzt akustische Modelle, ein Wortausspracheverzeichnis und Sprachmodelle, um die entsprechende Ausgabe zu bestimmen.

Eine Spracherkennungstechnologie wird nach ihrer Genauigkeit, d. h. der Wortfehlerrate (WER), und ihrer Geschwindigkeit bewertet. Eine Reihe von Faktoren wie Aussprache, Akzent, Tonhöhe, Lautstärke und Hintergrundgeräusche können die Fehlerquote bei Wörtern beeinflussen. Das Ziel von Spracherkennungssystemen ist es seit langem, eine Fehlerquote zu erreichen, die der von zwei sprechenden Menschen gleichkommt. Eine Untersuchung von Lippmann (Link befindet sich außerhalb von IBM) (PDF, 344 KB) schätzt die Fehlerrate bei Wörtern auf etwa 4 Prozent, aber es erwies sich als schwierig, die Ergebnisse dieser Veröffentlichung zu reproduzieren.

Mehr erfahren über die Fortschritte, die IBM in dieser Hinsicht gemacht hat und die zu Branchenrekorden im Bereich der Spracherkennung geführt haben.

Verschiedene Algorithmen und Berechnungstechniken werden eingesetzt, um Sprache in Text zu erkennen und die Genauigkeit der Transkription zu verbessern. Nachstehend finden Sie kurze Erläuterungen zu einigen der am häufigsten verwendeten Methoden:

  • Verarbeitung natürlicher Sprache (Natural language processing, NLP): NLP ist zwar nicht unbedingt ein spezifischer Algorithmus, der bei der Spracherkennung verwendet wird, aber es ist ein Bereich der künstlichen Intelligenz, der sich auf die Interaktion zwischen Menschen und Maschinen durch Sprache in Form von gesprochenen Wörtern und Text konzentriert. Viele mobile Geräte integrieren Spracherkennung in ihre Systeme, um Suchen anhand Sprache durchzuführen - z. B. Siri - oder um mehr Barrierefreiheit rund um das Schreiben von Texten zu bieten.
  • Hidden-Markov-Modelle (HMM): Hidden-Markov-Modelle bauen auf dem Markov-Kettenmodell auf, das besagt, dass die Wahrscheinlichkeit eines bestimmten Zustands vom aktuellen Zustand abhängt, nicht von den vorherigen Zuständen. Während ein Markov-Kettenmodell für beobachtbare Ereignisse, wie z. B. Texteingaben, nützlich ist, ermöglichen uns Hidden-Markov-Modelle, versteckte Ereignisse, wie z. B. Part-of-Speech-Tags, in ein probabilistisches Modell einzubeziehen. Sie werden in der Spracherkennung als Sequenzmodelle verwendet, die jeder Einheit – d. h. Wörtern, Silben, Sätzen usw. – in der Sequenz Kennzeichnungen zuweisen. Diese Kennzeichnungen erstellen Zuordnungen anhand der bereitgestellten Eingaben, sodass die am besten geeignete Kennzeichnungsreihenfolge ermittelt werden kann.
  • N-Gramme: Dies ist der einfachste Typ eines Sprachmodells (Language Model, LM), das Sätzen oder Phrasen Wahrscheinlichkeiten zuweist. Ein N-Gramm ist eine Sequenz von N-Wörtern. Zum Beispiel ist „Bestelle die Pizza“ ein Trigramm oder 3-Gramm und „Bitte bestelle die Pizza“ ein 4-Gramm. Die Grammatik und die Wahrscheinlichkeit bestimmter Wortfolgen werden genutzt, um die Erkennung und Genauigkeit zu verbessern.
  • Neuronale Netze: Neuronale Netze werden in erster Linie für Deep-Learning-Algorithmen eingesetzt und verarbeiten Trainingsdaten, indem sie die Vernetzung des menschlichen Gehirns durch Knotenschichten nachahmen. Jeder Knoten besteht aus Eingaben, Gewichten, einer Verzerrung (oder einem Schwellenwert) und einer Ausgabe. Wenn dieser Ausgangswert einen bestimmten Schwellenwert überschreitet, wird der Knoten „gezündet“ oder aktiviert und die Daten werden an die nächste Schicht des Netzes weitergeleitet. Neuronale Netze lernen diese Zuordnungsfunktionen durch überwachtes Lernen und passen sich auf der Grundlage der Verlustfunktion durch den Prozess des Gradientenabstiegs an. Neuronale Netze sind zwar in der Regel genauer und können mehr Daten verarbeiten, doch geht dies zu Lasten der Leistungseffizienz, da sie im Vergleich zu herkömmlichen Sprachmodellen langsamer trainiert werden können.
  • Sprecherdiarisierung (SD): Algorithmen zur Sprecherdiarisierung identifizieren und segmentieren Sprache nach der Sprecheridentität. Dies hilft Programmen, einzelne Personen in einem Gespräch besser zu unterscheiden, und wird häufig in Call-Centern zur Unterscheidung von Kunden und Vertriebsmitarbeitern eingesetzt.

Erfahren Sie mehr darüber im Watson-Blog wie IBM SD-Modelle im Rahmen seiner Sprache-Text-Services nutzt.

Anwendungsfälle für die Spracherkennung

Zahlreiche Branchen nutzen heute verschiedene Anwendungen im Bereich der Sprachtechnologie, die Unternehmen und Verbrauchern helfen, Zeit zu sparen und sogar Leben zu retten. Hierzu zählen:

Automobilindustrie: Spracherkenner verbessern die Fahrsicherheit, indem sie sprachgesteuerte Navigationssysteme und Suchfunktionen in Autoradios ermöglichen.

Technologie: Virtuelle Assistenten werden zunehmend in unser tägliches Leben integriert, insbesondere auf unseren mobilen Geräten. Wir verwenden Sprachbefehle, um sie über unsere Smartphones aufzurufen, z. B. über Google Assistant oder Apples Siri für Aufgaben wie die Sprachsuche, oder über unsere Lautsprecher, über Amazons Alexa oder Microsofts Cortana, um Musik abzuspielen. Sie werden sich immer mehr in unsere alltäglich genutzten Produkte integrieren und die Entwicklung des „Internet der Dinge“ vorantreiben.

Gesundheitswesen: Ärzte und Krankenschwestern nutzen Diktieranwendungen zur Erfassung und Protokollierung von Patientendiagnosen und Behandlungsnotizen.

Vertrieb: Die Spracherkennungstechnologie wird in verschiedenen Bereichen des Vertriebs eingesetzt. Sie kann einem Call-Center helfen, Tausende von Telefongesprächen zwischen Kunden und Agenten zu transkribieren, um häufige Anrufmuster und Probleme zu erkennen. Kognitive Bots können auch über eine Webseite mit Menschen sprechen, allgemeine Fragen beantworten und einfache Anfragen lösen, ohne dass ein Contact-Center-Agent verfügbar sein muss. In beiden Fällen tragen Spracherkennungssysteme dazu bei, die Zeit bis zur Lösung der Anliegen der Verbraucher zu verkürzen.

Sicherheit: Mit der Integration der Technologie in unser tägliches Leben gewinnen Sicherheitsprotokolle zunehmend an Bedeutung. Die sprachbasierte Authentifizierung bietet eine zusätzliche Sicherheitsebene.

Erfahren Sie mehr darüber, wie Unternehmen wie Audioburst Spracherkennungssoftware nutzen, um Audiodaten von Radiosendern und Podcasts in Echtzeit zu indizieren, in unserem Blog hier.

Spracherkennung und IBM

IBM hat Pionierarbeit bei der Entwicklung von Spracherkennungs-Tools und -Services geleistet, die es Unternehmen ermöglichen, ihre komplexen Geschäftsprozesse zu automatisieren und gleichzeitig wichtige Geschäftseinblicke zu gewinnen.

  • IBM Watson Speech to Text ist eine cloudnative Lösung, die mithilfe von Deep-Learning-KI-Algorithmen Wissen über Grammatik, Sprachstruktur und die Zusammensetzung von Audio- und Sprachsignalen anwendet, um eine anpassbare Spracherkennung für eine optimale Texttranskription zu schaffen.
  • IBM Watson Text to Speech generiert aus schriftlichem Text menschenähnliche Audiodaten und steigert so die Kundenbindung und -zufriedenheit, indem es die Zugänglichkeit in verschiedenen Sprachen und Interaktionsmodalitäten verbessert.

Weitere Informationen über den Einstieg in die Spracherkennungstechnologie finden Sie in den Ressourcen über IBM Watson Speech to Text und IBM Watson Text to Speech.

Melden Sie sich für eine IBMid an und erstellen Sie Ihr IBM Cloud-Konto.