Was ist Spracherkennung?

Was ist Spracherkennung?

Spracherkennung– auch bekannt als automatische Spracherkennung (ASR), Computer-Spracherkennung oder Speech-to-Text-Funktion – ist eine Funktion, die es einem Programm ermöglicht, menschliche Rede in einem schriftlichen Format zu verarbeiten.

Während Spracherkennung häufig mit Stimmerkennung verwechselt wird, konzentriert sich die Spracherkennung auf die Übersetzung von Sprache aus einem verbalen Format in ein Textformat, während die Spracherkennung lediglich versucht, die Stimme eines einzelnen Benutzers zu identifizieren.

Seit der Markteinführung von „Shoebox“ im Jahr 1962 spielt IBM eine herausragende Rolle in der Spracherkennung. Diese Maschine konnte 16 verschiedene Wörter erkennen und stellte eine Weiterentwicklung der ersten Arbeiten von Bell Labs aus den 1950er Jahren dar. IBM blieb jedoch nicht stehen, sondern setzte seine Innovationen im Laufe der Jahre fort und brachte 1996 die Anwendung „VoiceType Simply Speaking“ auf den Markt. Diese Spracherkennungssoftware verfügte über einen Wortschatz von 42.000 Wörtern, unterstützte Englisch und Spanisch und enthielt ein Rechtschreibwörterbuch mit 100.000 Wörtern.

Während die Sprachtechnologie in ihren Anfängen nur über einen begrenzten Wortschatz verfügte, wird sie heute in einer Vielzahl von Branchen eingesetzt, wie z. B. in der Automobilindustrie, im Technologiesektor und im Gesundheitswesen. Ihre Anwendung hat sich in den letzten Jahren aufgrund der Fortschritte im Bereich maschinelles Lernen und Big Data nur noch beschleunigt. Untersuchungen zeigen, dass dieser Markt bis 2025 voraussichtlich 24,9 Milliarden USD wert sein wird.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Hauptmerkmale einer effektiven Spracherkennung

Es sind viele Anwendungen und Geräte zur Spracherkennung verfügbar, aber die fortschrittlicheren Lösungen nutzen künstliche Intelligenz (KI) und maschinelles Lernen. Sie integrieren Grammatik, Syntax, Struktur und Zusammensetzung von Audio- und Sprachsignalen, um menschliche Sprache zu verstehen und zu verarbeiten. Im Idealfall lernen sie im Laufe der Zeit und entwickeln mit jeder Interaktion neue Reaktionen.

Die besten Systeme ermöglichen es Organisationen auch, die Technologie an ihre spezifischen Anforderungen anzupassen – von der Sprache und den Sprachnuancen bis hin zur Markenbekanntheit. Einige Beispiele:

  • Sprachgewichtung: Verbessern Sie die Genauigkeit, indem Sie bestimmte häufig gesprochene Wörter (wie Produktnamen oder Fachbegriffe) über die bereits im Basisvokabular enthaltenen Begriffe hinaus gewichten.

  • Sprecherkennzeichnung: Geben Sie eine Transkription aus, in der die Beiträge jedes Sprechers zu einer Unterhaltung mit mehreren Teilnehmern zitiert oder gekennzeichnet werden.

  • Akustikschulung: Befassen Sie sich mit der akustischen Seite des Geschäfts. Trainieren Sie das System, damit es sich an eine akustische Umgebung (wie die Umgebungsgeräusche in einem Call-Center) und an verschiedene Sprechweisen (wie Stimmlage, Lautstärke und Sprechgeschwindigkeit) anpasst.

  • Filtern von Obszönitäten: Verwenden Sie Filter, um bestimmte Wörter oder Ausdrücke zu identifizieren und die Sprachausgabe zu bereinigen.

In der Zwischenzeit schreitet die Spracherkennung weiter voran. Unternehmen wie IBM machen in verschiedenen Bereichen Fortschritte, um die Interaktion zwischen Mensch und Maschine zu verbessern.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Algorithmen zur Spracherkennung

Die Unwägbarkeiten der menschlichen Sprache haben die Entwicklung zu einer Herausforderung gemacht. Es gilt als eines der komplexesten Gebiete der Informatik – mit Linguistik, Mathematik und Statistik. Spracherkenner bestehen aus einigen Komponenten, wie z. B. Spracheingabe, Merkmalsextraktion, Merkmalsvektoren, einem Decoder und einer Wortausgabe. Der Decoder nutzt akustische Modelle, ein Aussprachewörterbuch und Sprachmodelle, um die entsprechende Ausgabe zu ermitteln.

Die Spracherkennungstechnologie wird anhand ihrer Genauigkeitsrate, d. h. der Wortfehlerrate (Word Error Rate, WER), und ihrer Geschwindigkeit bewertet. Eine Reihe von Faktoren kann die Wortfehlerrate beeinflussen, wie z. B. Aussprache, Akzent, Tonhöhe, Lautstärke und Hintergrundgeräusche. Das Erreichen der menschlichen Parität – d. h. eine Fehlerquote, die der von zwei Menschen entspricht, die miteinander sprechen – ist seit langem das Ziel von Spracherkennungssystemen. Untersuchungen von Lippmann gehen davon aus, dass die Wortfehlerquote bei etwa 4 Prozent liegt, aber es hat sich als schwierig erwiesen, die Ergebnisse dieses Papiers zu replizieren.

Es werden verschiedene Algorithmen und Berechnungsverfahren eingesetzt, um Sprache in Text umzuwandeln und die Genauigkeit der Transkription zu verbessern. Nachfolgend finden Sie kurze Erläuterungen zu einigen der am häufigsten verwendeten Methoden:

  • Verarbeitung natürlicher Sprache (NLP): NLP ist zwar nicht unbedingt ein spezifischer Algorithmus, der in der Spracherkennung verwendet wird, aber es ist der Bereich der künstlichen Intelligenz, der sich auf die Interaktion zwischen Menschen und Maschinen durch Sprache, Rede und Text konzentriert. Viele Mobilgeräte verfügen über eine integrierte Spracherkennung, die eine Sprachsuche ermöglicht – z. B. Siri – oder für mehr Barrierefreiheit rund um das Versenden von Textnachrichten sorgen. 

  • Hidden-Markov-Modelle (HMM): Hidden-Markov-Modelle bauen auf dem Markov-Kettenmodell auf, das besagt, dass die Wahrscheinlichkeit eines bestimmten Zustands vom aktuellen Zustand und nicht von seinen vorherigen Zuständen abhängt. Während ein Markov-Kettenmodell für beobachtbare Ereignisse wie Texteingaben nützlich ist, ermöglichen uns Hidden-Markov-Modelle, verborgene Ereignisse wie Part-of-Speech-Tags in ein probabilistisches Modell zu integrieren. Sie werden als Sequenzmodelle in der Spracherkennung verwendet, wobei jeder Einheit in der Sequenz – d. h. Wörtern, Silben, Sätzen usw. – Kennzeichnungen zugewiesen werden. Diese Kennzeichnungen erstellen eine Zuordnung mit den bereitgestellten Eingaben, sodass die am besten geeignete Kennzeichnungsreihenfolge bestimmt werden kann.

  • N-Grams: Dies ist die einfachste Art von Sprachmodell (LM), das Sätzen oder Phrasen Wahrscheinlichkeiten zuweist. Ein N-Gram ist eine Folge von N-Wörtern. Zum Beispiel ist die Aufforderung, „die Pizza bestellen“, ein Trigram oder 3-Gram und „bitte die Pizza bestellen“, ein 4-Gram. Die Grammatik und die Wahrscheinlichkeit bestimmter Wortfolgen werden genutzt, um die Erkennungsrate und Genauigkeit zu verbessern.

  • Neural Networks: Neural Networks werden hauptsächlich für Deep-Learning -Algorithmen eingesetzt und verarbeiten Trainingsdaten, indem sie die Vernetzung des menschlichen Gehirns durch Schichten von Knoten nachahmen. Jeder Knoten besteht aus Eingaben, Gewichtungen, einer Verzerrung (Schwellenwert) und einer Ausgabe. Wenn dieser Ausgabewert einen bestimmten Schwellenwert überschreitet, wird der Knoten „ausgelöst“ oder aktiviert und Daten an die nächste Schicht im Netz übergeben. Neural Networks lernen diese Mapping-Funktion durch überwachtes Lernen kennen und passen sich durch Gradientenabstieg an die Verlustfunktion an. Neural Networks sind zwar in der Regel genauer und können mehr Daten aufnehmen, doch dies geht auf Kosten der Leistungseffizienz, da sie im Vergleich zu herkömmlichen Sprachmodellen langsamer trainiert werden können.

  • Speaker Diarization (SD): Algorithmen zur Diarisierung von Sprechern identifizieren und segmentieren Sprache nach Sprecheridentität. Dies hilft Programmen, Personen in einem Gespräch besser zu unterscheiden, und wird häufig in Call-Centern eingesetzt, um Kunden und Vertriebsmitarbeiter zu unterscheiden.

Anwendungsfälle für die Spracherkennung

Eine Vielzahl von Branchen nutzt heute verschiedene Anwendungen der Sprachtechnologie und hilft Unternehmen und Verbrauchern, Zeit zu sparen und sogar Leben zu retten. Einige Beispiele:

Automobilindustrie: Spracherkennungssysteme verbessern die Sicherheit der Fahrer, indem sie sprachaktivierte Navigationssysteme und Suchfunktionen in Autoradios ermöglichen.

Technologie: Virtuelle Agenten werden zunehmend in unser tägliches Leben integriert, insbesondere auf unseren Mobilgeräten. Wir verwenden Sprachbefehle, um über unsere Smartphones auf sie zuzugreifen, z. B. über Google Assistant oder Apples Siri, für Aufgaben wie die Sprachsuche, oder über unsere Lautsprecher, über Amazons Alexa oder Microsofts Cortana, um Musik abzuspielen. Sie werden sich nur weiter in die alltäglichen Produkte integrieren, die wir verwenden, und die Bewegung „Internet der Dinge“ vorantreiben.

Gesundheitswesen: Ärzte und Krankenschwestern nutzen Diktieranwendungen, um Patientendiagnosen und Behandlungsnotizen zu erfassen und zu protokollieren.

Vertrieb: Spracherkennungstechnologie hat im Vertrieb einige Anwendungsmöglichkeiten. Sie kann einem Call-Center dabei helfen, Tausende von Telefongesprächen zwischen Kunden und Mitarbeitern zu transkribieren, um gemeinsame Anrufmuster und Probleme zu identifizieren. Intelligente Chatbots können auch über eine Webseite mit Menschen kommunizieren und häufige Fragen beantworten und einfache Anliegen lösen, ohne dass auf die Verfügbarkeit eines Mitarbeiters im Kontaktzentrum gewartet werden muss. In beiden Fällen helfen Spracherkennungssysteme dabei, die Zeit bis zur Lösung von Verbraucherproblemen zu verkürzen.

Sicherheit: Da Technologie immer mehr Einzug in unser tägliches Leben hält, gewinnen Sicherheitsprotokolle zunehmend an Bedeutung. Die sprachbasierte Authentifizierung bietet ein zusätzliches Maß an Sicherheit.

Weitere Lösungen
IBM® watsonx™ Orchestrate®

Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate
Tools und APIs zur Verarbeitung natürlicher Sprache

Steigern Sie den Geschäftswert der künstlichen Intelligenz mit einem leistungsstarken und flexiblen Portfolio aus Bibliotheken, Diensten und Anwendungen.

NLP-Lösungen erkunden
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate NLP-Lösungen erkunden