Spracherkennung– auch bekannt als automatische Spracherkennung (ASR), Computer-Spracherkennung oder Speech-to-Text-Funktion – ist eine Funktion, die es einem Programm ermöglicht, menschliche Rede in einem schriftlichen Format zu verarbeiten.
Während Spracherkennung häufig mit Stimmerkennung verwechselt wird, konzentriert sich die Spracherkennung auf die Übersetzung von Sprache aus einem verbalen Format in ein Textformat, während die Spracherkennung lediglich versucht, die Stimme eines einzelnen Benutzers zu identifizieren.
Seit der Markteinführung von „Shoebox“ im Jahr 1962 spielt IBM eine herausragende Rolle in der Spracherkennung. Diese Maschine konnte 16 verschiedene Wörter erkennen und stellte eine Weiterentwicklung der ersten Arbeiten von Bell Labs aus den 1950er Jahren dar. IBM blieb jedoch nicht stehen, sondern setzte seine Innovationen im Laufe der Jahre fort und brachte 1996 die Anwendung „VoiceType Simply Speaking“ auf den Markt. Diese Spracherkennungssoftware verfügte über einen Wortschatz von 42.000 Wörtern, unterstützte Englisch und Spanisch und enthielt ein Rechtschreibwörterbuch mit 100.000 Wörtern.
Während die Sprachtechnologie in ihren Anfängen nur über einen begrenzten Wortschatz verfügte, wird sie heute in einer Vielzahl von Branchen eingesetzt, wie z. B. in der Automobilindustrie, im Technologiesektor und im Gesundheitswesen. Ihre Anwendung hat sich in den letzten Jahren aufgrund der Fortschritte im Bereich maschinelles Lernen und Big Data nur noch beschleunigt. Recherchen (Link befindet sich außerhalb von ibm.com) zeigen, dass dieser Markt bis 2025 voraussichtlich einen Wert von 24,9 Milliarden US-Dollar erreichen wird.
Es gibt viele Spracherkennungsanwendungen und -geräte, aber die fortschrittlicheren Lösungen nutzen KI und maschinelles Lernen. Sie integrieren Grammatik, Syntax, Struktur und Zusammensetzung von Audio- und Sprachsignalen, um menschliche Sprache zu verstehen und zu verarbeiten. Im Idealfall lernen sie im Laufe der Zeit und entwickeln mit jeder Interaktion neue Reaktionen.
Die besten Systeme ermöglichen es Organisationen auch, die Technologie an ihre spezifischen Anforderungen anzupassen – von der Sprache und den Sprachnuancen bis hin zur Markenbekanntheit. Einige Beispiele:
In der Zwischenzeit schreitet die Spracherkennung weiter voran. Unternehmen wie IBM machen in verschiedenen Bereichen Fortschritte, um die Interaktion zwischen Mensch und Maschine zu verbessern.
Die Unwägbarkeiten der menschlichen Sprache haben die Entwicklung zu einer Herausforderung gemacht. Es gilt als eines der komplexesten Gebiete der Informatik – mit Linguistik, Mathematik und Statistik. Spracherkenner bestehen aus einigen Komponenten, wie z. B. Spracheingabe, Merkmalsextraktion, Merkmalsvektoren, einem Decoder und einer Wortausgabe. Der Decoder nutzt akustische Modelle, ein Aussprachewörterbuch und Sprachmodelle, um die entsprechende Ausgabe zu ermitteln.
Die Spracherkennungstechnologie wird anhand ihrer Genauigkeitsrate, d. h. der Wortfehlerrate (Word Error Rate, WER), und ihrer Geschwindigkeit bewertet. Eine Reihe von Faktoren kann die Wortfehlerrate beeinflussen, wie z. B. Aussprache, Akzent, Tonhöhe, Lautstärke und Hintergrundgeräusche. Das Erreichen der menschlichen Parität – d. h. eine Fehlerquote, die der von zwei Menschen entspricht, die miteinander sprechen – ist seit langem das Ziel von Spracherkennungssystemen. Untersuchungen von Lippmann (Link befindet sich außerhalb von ibm.com) schätzen die Wortfehlerrate auf etwa 4 Prozent, aber es war schwierig, die Ergebnisse dieser Studie zu reproduzieren.
Es werden verschiedene Algorithmen und Berechnungsverfahren eingesetzt, um Sprache in Text umzuwandeln und die Genauigkeit der Transkription zu verbessern. Nachfolgend finden Sie kurze Erläuterungen zu einigen der am häufigsten verwendeten Methoden:
Eine Vielzahl von Branchen nutzt heute verschiedene Anwendungen der Sprachtechnologie und hilft Unternehmen und Verbrauchern, Zeit zu sparen und sogar Leben zu retten. Einige Beispiele:
Automobilindustrie: Spracherkennungssysteme verbessern die Sicherheit der Fahrer, indem sie sprachaktivierte Navigationssysteme und Suchfunktionen in Autoradios ermöglichen.
Technologie: Virtuelle Agenten werden zunehmend in unser tägliches Leben integriert, insbesondere auf unseren Mobilgeräten. Wir verwenden Sprachbefehle, um über unsere Smartphones auf sie zuzugreifen, z. B. über Google Assistant oder Apples Siri, für Aufgaben wie die Sprachsuche, oder über unsere Lautsprecher, über Amazons Alexa oder Microsofts Cortana, um Musik abzuspielen. Sie werden sich nur weiter in die alltäglichen Produkte integrieren, die wir verwenden, und die Bewegung „Internet der Dinge“ vorantreiben.
Gesundheitswesen: Ärzte und Krankenschwestern nutzen Diktieranwendungen, um Patientendiagnosen und Behandlungsnotizen zu erfassen und zu protokollieren.
Vertrieb: Spracherkennungstechnologie hat im Vertrieb einige Anwendungsmöglichkeiten. Sie kann einem Call-Center dabei helfen, Tausende von Telefongesprächen zwischen Kunden und Mitarbeitern zu transkribieren, um gemeinsame Anrufmuster und Probleme zu identifizieren. Intelligente Chatbots können auch über eine Webseite mit Menschen kommunizieren und häufige Fragen beantworten und einfache Anliegen lösen, ohne dass auf die Verfügbarkeit eines Mitarbeiters im Kontaktzentrum gewartet werden muss. In beiden Fällen helfen Spracherkennungssysteme dabei, die Zeit bis zur Lösung von Verbraucherproblemen zu verkürzen.
Sicherheit: Da Technologie immer mehr Einzug in unser tägliches Leben hält, gewinnen Sicherheitsprotokolle zunehmend an Bedeutung. Die sprachbasierte Authentifizierung bietet ein zusätzliches Maß an Sicherheit.
Umwandlung von Sprache in Text mit KI-gestützter Spracherkennung und Transkription.
Wandeln Sie Text in natürlich klingende Sprache in verschiedenen Sprachen und Stimmen um
