Spracherkennung, auch bekannt als automatische Spracherkennung (ASR), Computer-Spracherkennung oder Sprache-zu-Text, ist eine Funktion, die es einem Programm ermöglicht, menschliche Sprache in ein schriftliches Format umzuwandeln. Sie wird häufig mit der Stimmerkennung verwechselt, konzentriert sich aber auf die Übersetzung von Sprache aus einem verbalen Format in ein Textformat, während die Stimmerkennung lediglich dazu dient, die Stimme eines einzelnen Benutzers zu identifizieren.
IBM hat seit den Anfängen der Spracherkennung eine herausragende Rolle in diesem Bereich gespielt – so erstmals mit der Veröffentlichung von „Shoebox“ im Jahr 1962. Diese Maschine war in der Lage, 16 verschiedene Wörter zu erkennen, was eine Weiterentwicklung der ursprünglichen Arbeit von Bell Labs aus den 1950er Jahren darstellte. IBM beließ es jedoch nicht dabei, sondern entwickelte im Laufe der Jahre weitere Innovationen und brachte 1996 die Anwendung VoiceType Simply Speaking auf den Markt. Diese Spracherkennungssoftware hatte einen Wortschatz von 42.000 Wörtern, unterstützte Englisch und Spanisch und enthielt ein Rechtschreibwörterbuch mit 100.000 Wörtern. Während die Sprachtechnologie in den Anfängen nur einen begrenzten Wortschatz hatte, wird sie heute in einer Vielzahl von Branchen eingesetzt, z. B. in der Automobilindustrie, der Technik und dem Gesundheitswesen. In den letzten Jahren hat sich der Einsatz dieser Technologie aufgrund der Fortschritte in den Bereichen Deep Learning und Big Data weiter beschleunigt. Untersuchungen (Link befindet sich außerhalb von ibm.com) zeigen, dass dieser Markt bis 2025 voraussichtlich einen Wert von 24,9 Mrd. US-Dollar haben wird.
IBM Watson Speech to Text
IBM Watson Text to Speech
Es gibt viele Anwendungen und Geräte für die Spracherkennung, aber die fortschrittlicheren Lösungen nutzen KI und maschinelles Lernen. Sie integrieren Grammatik, Syntax, Struktur und Zusammensetzung von Audio- und Sprachsignalen, um menschliche Sprache zu verstehen und zu verarbeiten. Im Idealfall lernen sie im Laufe der Zeit dazu und entwickeln mit jeder Interaktion neue Antworten.
Die besten Systeme ermöglichen es Unternehmen auch, die Technologie an ihre spezifischen Anforderungen anzupassen – angefangen bei der Sprache über Sprachnuancen bis hin zur Markenerkennung. Beispiele:
Aber die Spracherkennung entwickelt sich weiter. Unternehmen wie IBM arbeiten in mehreren Bereichen daran, die Interaktion zwischen Mensch und Maschine zu verbessern.
Aufgrund der Unregelmäßigkeiten der menschlichen Sprache war die Entwicklung von Spracherkennungssystemen schon immer eine große Herausforderung. Sie gilt als eines der komplexesten Gebiete der Computerwissenschaft, welche Linguistik, Mathematik und Statistik umfasst. Spracherkennungsprogramme umfassen mehrere Komponenten, wie z. B. die Spracheingabe, die Merkmalsextraktion, die Merkmalsvektoren, einen Decoder und eine Wortausgabe. Der Decoder nutzt akustische Modelle, ein Wortausspracheverzeichnis und Sprachmodelle, um die entsprechende Ausgabe zu bestimmen.
Die Spracherkennungstechnologie wird nach ihrer Genauigkeit (d. h. der Wortfehlerrate) und ihrer Verarbeitungsgeschwindigkeit bewertet. Eine Reihe von Faktoren wie Aussprache, Akzent, Tonhöhe, Lautstärke und Hintergrundgeräusche können die Wortfehlerrate beeinflussen. Das Ziel von Spracherkennungssystemen ist es seit langem, eine Fehlerquote zu erreichen, die der von zwei miteinander sprechenden Menschen gleichkommt. Untersuchungen von Lippmann (Link befindet sich außerhalb von ibm.com) (PDF, 352 KB) schätzen die Wortfehlerrate auf etwa 4 Prozent, aber es ist schwierig, die Ergebnisse dieser Untersuchung zu reproduzieren.
Lesen Sie mehr dazu, welche Fortschritte IBM hier bereits gemacht hat und welche Bestmarken IBM im Bereich der Spracherkennung erreicht hat.
Zur Umwandlung von Sprache in Text und zur Verbesserung der Transkriptionsgenauigkeit werden verschiedene Algorithmen und Berechnungsmethoden eingesetzt. Nachstehend finden Sie kurze Erläuterungen zu einigen der am häufigsten verwendeten Methoden:
In zahlreichen Branchen wird die Sprachtechnologie heute auf unterschiedliche Weise eingesetzt und hilft Unternehmen und Verbrauchern, Zeit zu sparen und sogar Leben zu retten. Beispiele:
Automobilbranche: Spracherkennung erhöht die Fahrsicherheit in Form von sprachgesteuerten Navigationssystemen und Suchfunktionen in Autoradios.
Technologie: Virtuelle Agenten finden zunehmend Eingang in unser tägliches Leben, insbesondere auf unseren mobilen Geräten. Wir verwenden Sprachbefehle, um sie über unsere Smartphones aufzurufen, z. B. über Google Assistant oder Apples Siri für Aufgaben wie die Sprachsuche, oder über unsere Lautsprecher, über Amazons Alexa oder Microsofts Cortana, um Musik abzuspielen. Auch in Zukunft werden virtuelle Agenten immer mehr Bestandteil unserer Alltagsprodukte werden und das „Internet der Dinge“ vorantreiben.
Gesundheitswesen: Ärzte und Pflegepersonal nutzen Diktieranwendungen zur Erfassung und Protokollierung von Patientendiagnosen und Behandlungsnotizen.
Vertrieb: Die Spracherkennungstechnologie wird auch im Vertrieb in mehreren Bereichen eingesetzt. Sie kann einem Call-Center helfen, Tausende von Telefongesprächen zwischen Kunden und Agenten zu transkribieren, um häufige Anrufmuster und Probleme zu erkennen. KI-Chatbots auf Webseiten können Kundengespräche führen, allgemeine Fragen beantworten und einfache Anfragen lösen, ohne auf die Verfügbarkeit eines Contact-Center-Mitarbeiters warten zu müssen. In solchen Fällen tragen Spracherkennungssysteme dazu bei, die Zeit bis zur Lösung von Kundenanfragen zu verkürzen.
Sicherheit: Mit der Integration der Technologie in unser tägliches Leben gewinnen Sicherheitsprotokolle zunehmend an Bedeutung. Die sprachbasierte Authentifizierung bietet eine zusätzliche Sicherheitsstufe.
Konvertierung von Sprache in Text mithilfe von KI-basierter Spracherkennung und Transkription.
Konvertierung von Text in natürlich klingende Sprache in einer Vielzahl von Sprachen und Stimmen.
KI-gestützte Hybrid-Cloud-Software.
Ermöglichen Sie die Sprachtranskription in mehreren Sprachen für eine Vielzahl von Anwendungsfällen, darunter Kunden-Self-Service, Agentenunterstützung und Sprachanalysen.
Erfahren Sie, wie Lingmo Spracherkennung und Modelltraining mit weniger Daten verbessert.
Erfahren Sie, wie Sie mit der Entwicklung Schritt halten, wie Sie Technologien wie Cloud, KI und Automatisierung nutzen können, um Innovationen zu beschleunigen und immer neue Kundenerwartungen zu erfüllen.