Was ist Spracherkennung?

Spracherkennung– auch bekannt als automatische Spracherkennung (ASR), Computer-Spracherkennung oder Speech-to-Text-Funktion – ist eine Funktion, die es einem Programm ermöglicht, menschliche Rede in einem schriftlichen Format zu verarbeiten.

Während Spracherkennung häufig mit Stimmerkennung verwechselt wird, konzentriert sich die Spracherkennung auf die Übersetzung von Sprache aus einem verbalen Format in ein Textformat, während die Spracherkennung lediglich versucht, die Stimme eines einzelnen Benutzers zu identifizieren.

Seit der Markteinführung von „Shoebox“ im Jahr 1962 spielt IBM eine herausragende Rolle in der Spracherkennung. Diese Maschine konnte 16 verschiedene Wörter erkennen und stellte eine Weiterentwicklung der ersten Arbeiten von Bell Labs aus den 1950er Jahren dar. IBM blieb jedoch nicht stehen, sondern setzte seine Innovationen im Laufe der Jahre fort und brachte 1996 die Anwendung „VoiceType Simply Speaking“ auf den Markt. Diese Spracherkennungssoftware verfügte über einen Wortschatz von 42.000 Wörtern, unterstützte Englisch und Spanisch und enthielt ein Rechtschreibwörterbuch mit 100.000 Wörtern.

Während die Sprachtechnologie in ihren Anfängen nur über einen begrenzten Wortschatz verfügte, wird sie heute in einer Vielzahl von Branchen eingesetzt, wie z. B. in der Automobilindustrie, im Technologiesektor und im Gesundheitswesen. Ihre Anwendung hat sich in den letzten Jahren aufgrund der Fortschritte im Bereich maschinelles Lernen und Big Data nur noch beschleunigt. Recherchen (Link befindet sich außerhalb von ibm.com) zeigen, dass dieser Markt bis 2025 voraussichtlich einen Wert von 24,9 Milliarden US-Dollar erreichen wird.

Presto kennenlernen und bedienen

Lesen Sie das kostenlose O’Reilly-E-Book, um zu erfahren, wie Sie mit Presto, der Open-Source-SQL-Engine für Datenanalysen, loslegen können.

Ähnliche Inhalte

Registrieren Sie sich, um den Leitfaden zu Foundation Models zu lesen

Hauptmerkmale einer effektiven Spracherkennung

Es gibt viele Spracherkennungsanwendungen und -geräte, aber die fortschrittlicheren Lösungen nutzen KI und maschinelles Lernen. Sie integrieren Grammatik, Syntax, Struktur und Zusammensetzung von Audio- und Sprachsignalen, um menschliche Sprache zu verstehen und zu verarbeiten. Im Idealfall lernen sie im Laufe der Zeit und entwickeln mit jeder Interaktion neue Reaktionen.

Die besten Systeme ermöglichen es Organisationen auch, die Technologie an ihre spezifischen Anforderungen anzupassen – von der Sprache und den Sprachnuancen bis hin zur Markenbekanntheit. Einige Beispiele:

Sprachgewichtung: Verbessern Sie die Genauigkeit, indem Sie bestimmte häufig gesprochene Wörter (wie Produktnamen oder Fachbegriffe) über die bereits im Basisvokabular enthaltenen Begriffe hinaus gewichten.
Sprecherkennzeichnung: Geben Sie eine Transkription aus, in der die Beiträge jedes Sprechers zu einer Unterhaltung mit mehreren Teilnehmern zitiert oder gekennzeichnet werden.
Akustikschulung: Befassen Sie sich mit der akustischen Seite des Geschäfts. Trainieren Sie das System, damit es sich an eine akustische Umgebung (wie die Umgebungsgeräusche in einem Callcenter) und an verschiedene Sprechweisen (wie Stimmlage, Lautstärke und Sprechgeschwindigkeit) anpasst.
Filtern von Obszönitäten: Verwenden Sie Filter, um bestimmte Wörter oder Ausdrücke zu identifizieren und die Sprachausgabe zu bereinigen.

In der Zwischenzeit schreitet die Spracherkennung weiter voran. Unternehmen wie IBM machen in verschiedenen Bereichen Fortschritte, um die Interaktion zwischen Mensch und Maschine zu verbessern.

Algorithmen zur Spracherkennung

Die Unwägbarkeiten der menschlichen Sprache haben die Entwicklung zu einer Herausforderung gemacht. Es gilt als eines der komplexesten Gebiete der Informatik – mit Linguistik, Mathematik und Statistik. Spracherkenner bestehen aus einigen Komponenten, wie z. B. Spracheingabe, Merkmalsextraktion, Merkmalsvektoren, einem Decoder und einer Wortausgabe. Der Decoder nutzt akustische Modelle, ein Aussprachewörterbuch und Sprachmodelle, um die entsprechende Ausgabe zu ermitteln.

Die Spracherkennungstechnologie wird anhand ihrer Genauigkeitsrate, d. h. der Wortfehlerrate (Word Error Rate, WER), und ihrer Geschwindigkeit bewertet. Eine Reihe von Faktoren kann die Wortfehlerrate beeinflussen, wie z. B. Aussprache, Akzent, Tonhöhe, Lautstärke und Hintergrundgeräusche. Das Erreichen der menschlichen Parität – d. h. eine Fehlerquote, die der von zwei Menschen entspricht, die miteinander sprechen – ist seit langem das Ziel von Spracherkennungssystemen. Untersuchungen von Lippmann (Link befindet sich außerhalb von ibm.com) schätzen die Wortfehlerrate auf etwa 4 Prozent, aber es war schwierig, die Ergebnisse dieser Studie zu reproduzieren.

Es werden verschiedene Algorithmen und Berechnungsverfahren eingesetzt, um Sprache in Text umzuwandeln und die Genauigkeit der Transkription zu verbessern. Nachfolgend finden Sie kurze Erläuterungen zu einigen der am häufigsten verwendeten Methoden:

Verarbeitung natürlicher Sprache (NLP): NLP ist zwar nicht unbedingt ein spezifischer Algorithmus, der in der Spracherkennung verwendet wird, aber es ist der Bereich der künstlichen Intelligenz, der sich auf die Interaktion zwischen Menschen und Maschinen durch Sprache, Rede und Text konzentriert. Viele Mobilgeräte verfügen über eine integrierte Spracherkennung, die eine Sprachsuche ermöglicht – z. B. Siri – oder für mehr Barrierefreiheit rund um das Versenden von Textnachrichten sorgen.
Hidden-Markov-Modelle (HMM): Hidden-Markov-Modelle bauen auf dem Markov-Kettenmodell auf, das besagt, dass die Wahrscheinlichkeit eines bestimmten Zustands vom aktuellen Zustand und nicht von seinen vorherigen Zuständen abhängt. Während ein Markov-Kettenmodell für beobachtbare Ereignisse wie Texteingaben nützlich ist, ermöglichen uns Hidden-Markov-Modelle, verborgene Ereignisse wie Part-of-Speech-Tags in ein probabilistisches Modell zu integrieren. Sie werden als Sequenzmodelle in der Spracherkennung verwendet, wobei jeder Einheit in der Sequenz – d. h. Wörtern, Silben, Sätzen usw. – Kennzeichnungen zugewiesen werden. Diese Kennzeichnungen erstellen eine Zuordnung mit den bereitgestellten Eingaben, sodass die am besten geeignete Kennzeichnungsreihenfolge bestimmt werden kann.
N-Grams: Dies ist die einfachste Art von Sprachmodell (LM), das Sätzen oder Phrasen Wahrscheinlichkeiten zuweist. Ein N-Gram ist eine Folge von N-Wörtern. Zum Beispiel ist die Aufforderung, „die Pizza bestellen“, ein Trigram oder 3-Gram und „bitte die Pizza bestellen“, ein 4-Gram. Die Grammatik und die Wahrscheinlichkeit bestimmter Wortfolgen werden genutzt, um die Erkennungsrate und Genauigkeit zu verbessern.
Neural Networks: Neural Networks werden hauptsächlich für Deep-Learning-Algorithmen eingesetzt und verarbeiten Trainingsdaten, indem sie die Vernetzung des menschlichen Gehirns durch Schichten von Knoten nachahmen. Jeder Knoten besteht aus Eingaben, Gewichtungen, einem Bias (Schwellenwert) und einer Ausgabe. Wenn dieser Ausgabewert einen bestimmten Schwellenwert überschreitet, wird der Knoten „ausgelöst“ oder aktiviert und Daten an die nächste Schicht im Netz übergeben. Neural Networks lernen diese Mapping-Funktion durch überwachtes Lernen kennen und passen sich durch Gradientenabstieg an die Verlustfunktion an. Neural Networks sind zwar in der Regel genauer und können mehr Daten aufnehmen, doch dies geht auf Kosten der Leistungseffizienz, da sie im Vergleich zu herkömmlichen Sprachmodellen langsamer trainiert werden können.
Speaker Diarization (SD): Algorithmen zur Diarisierung von Sprechern identifizieren und segmentieren Sprache nach Sprecheridentität. Dies hilft Programmen, Personen in einem Gespräch besser zu unterscheiden, und wird häufig in Call-Centern eingesetzt, um Kunden und Vertriebsmitarbeiter zu unterscheiden.

Anwendungsfälle für die Spracherkennung

Eine Vielzahl von Branchen nutzt heute verschiedene Anwendungen der Sprachtechnologie und hilft Unternehmen und Verbrauchern, Zeit zu sparen und sogar Leben zu retten. Einige Beispiele:

Automobilindustrie: Spracherkennungssysteme verbessern die Sicherheit der Fahrer, indem sie sprachaktivierte Navigationssysteme und Suchfunktionen in Autoradios ermöglichen.

Technologie: Virtuelle Agenten werden zunehmend in unser tägliches Leben integriert, insbesondere auf unseren Mobilgeräten. Wir verwenden Sprachbefehle, um über unsere Smartphones auf sie zuzugreifen, z. B. über Google Assistant oder Apples Siri, für Aufgaben wie die Sprachsuche, oder über unsere Lautsprecher, über Amazons Alexa oder Microsofts Cortana, um Musik abzuspielen. Sie werden sich nur weiter in die alltäglichen Produkte integrieren, die wir verwenden, und die Bewegung „Internet der Dinge“ vorantreiben.

Gesundheitswesen: Ärzte und Krankenschwestern nutzen Diktieranwendungen, um Patientendiagnosen und Behandlungsnotizen zu erfassen und zu protokollieren.

Vertrieb: Spracherkennungstechnologie hat im Vertrieb einige Anwendungsmöglichkeiten. Sie kann einem Call-Center dabei helfen, Tausende von Telefongesprächen zwischen Kunden und Mitarbeitern zu transkribieren, um gemeinsame Anrufmuster und Probleme zu identifizieren. Intelligente Chatbots können auch über eine Webseite mit Menschen kommunizieren und häufige Fragen beantworten und einfache Anliegen lösen, ohne dass auf die Verfügbarkeit eines Mitarbeiters im Kontaktzentrum gewartet werden muss. In beiden Fällen helfen Spracherkennungssysteme dabei, die Zeit bis zur Lösung von Verbraucherproblemen zu verkürzen.

Sicherheit: Da Technologie immer mehr Einzug in unser tägliches Leben hält, gewinnen Sicherheitsprotokolle zunehmend an Bedeutung. Die sprachbasierte Authentifizierung bietet ein zusätzliches Maß an Sicherheit.

Weiterführende Lösungen

IBM Watson® Speech to Text

Umwandlung von Sprache in Text mit KI-gestützter Spracherkennung und Transkription.

IBM Watson Speech to Text kennenlernen

IBM Watson® Text to Speech

Wandeln Sie Text in natürlich klingende Sprache in verschiedenen Sprachen und Stimmen um

Entdecken Sie Watson Text to Speech

IBM Cloud Pak-Lösungen

KI-gestützte hybride Cloud-Software.

Entdecken Sie Cloud Pak Lösungen

Ressourcen

Erfahren Sie, wie die IBM Watson Speech-to-Text-Technologie KI-gestützte Spracherkennung und Transkription nutzt

Aktivieren Sie die Sprachtranskription in mehreren Sprachen für eine Vielzahl von Anwendungsfällen, einschließlich, aber nicht beschränkt auf Self-Service für Kunden, Unterstützung durch Agenten und Sprachanalyse.

IBM Cloud Paks ebnet den Weg zur digitalen Transformation

Erfahren Sie, wie Sie Schritt halten, überdenken Sie, wie Sie Technologien wie die Cloud, KI und Automatisierung nutzen können, um Innovationen zu beschleunigen und die sich wandelnden Kundenerwartungen zu erfüllen.

Machen Sie den nächsten Schritt

IBM watsonx Assistant hilft Unternehmen bei der Bereitstellung besserer Customer Experiences mit einem KI-Chatbot, der die Sprache des Unternehmens versteht, sich mit bestehenden Kundenbetreuungssystemen verbindet und überall mit Unternehmenssicherheit und Skalierbarkeit eingesetzt werden kann. watsonx Assistant automatisiert sich wiederholende Aufgaben und nutzt maschinelles Lernen, um Kundensupportprobleme schnell und effizient zu lösen.

watsonx Assistant entdecken

Buchen Sie eine Live-Demo