Speech to Text beschreibt die Umwandlung von gesprochenem Wort in ein Texttranskript. Manchmal auch als Voice to Text bezeichnet, ist es meist als softwarebasierter Dienst (SaaS) verfügbar.
Es kombiniert in der Regel eine auf künstlicher Intelligenz basierende Spracherkennungstechnologie, auch bekannt als automatische Spracherkennung, mit Transkription. Ein Computerprogramm nimmt Audio in Form von Schallwellen auf und wandelt die Audioeingabe mithilfe linguistischer Algorithmen in digitale Zeichen, Wörter und Phrasen um.
Maschinelles Lernen, Deep Learning und Large Language Models wie der Generative Pre-Trained Transformer (GPT) von OpenAI haben Speech-to-Text-Software fortschrittlicher und effizienter gemacht, da sie aus einer großen Menge an Audio- und Textbeispielen Muster in der gesprochenen Sprache ableiten können.
Generative KI kann in eine Software für Speech to Text integriert werden, um Assistenten zu erstellen, die Kunden bei einem Telefonanruf helfen oder mit sprachgesteuerten Apps interagieren können. Generative KI kann auch Text in Sprache umwandeln, auch bekannt als Text to Speech, und zwar mit einer realistischen, natürlich klingenden Stimme.
Speech to Text-Software enthält mehrere Komponenten. Dazu gehören:
Spracheingabe: Ein Mikrofon nimmt gesprochene Worte auf.
Merkmalsextraktion: Der Computer identifiziert charakteristische Tonhöhen und Muster in der Sprache.
Decoder: Der Algorithmus gleicht die Sprachmerkmale mithilfe eines Sprachmodells mit Zeichen und Wörtern ab.
Wortausgabe: Der endgültige Text wird mit der korrekten Zeichensetzung und Groß-/Kleinschreibung formatiert, sodass er für Menschen lesbar ist.
Grundsätzlich besteht der Speech-to-Text-Prozess aus den folgenden Schritten:
Audio-Vorverarbeitung: Nach der Aufnahme werden die Audioaufnahmen vorverarbeitet, damit die Erkennungsqualität und -genauigkeit verbessert wird. Dazu gehört das Entfernen von Hintergrundgeräuschen und irrelevanten Frequenzen, die Stabilisierung der Lautstärke, die Segmentierung des Clips zur einfacheren Bearbeitung und die Konvertierung der Audiodatei in ein Standardformat.
Klanganalyse und Merkmalsextraktion: Sprachsignale werden häufig als Spektrogramme (Link befindet sich außerhalb von ibm.com) dargestellt, die eine visuelle Darstellung von Frequenzen über die Zeit hinweg sind.1 Die relevanten Teile der Audioaufnahmen werden in eine Folge von Phonemen zerlegt, die die kleinste Spracheinheit darstellen, die ein Wort von einem anderen unterscheidet. Die wichtigsten Klassen von Phonemen sind Vokale und Konsonanten (Link befindet sich außerhalb von ibm.com).2 Sprachmodelle und Decoder können Phoneme zu Wörtern und dann zu Sätzen zuordnen. Auf Deep Learning basierende akustische Modelle können vorhersagen, welche Zeichen und Wörter wahrscheinlich als Nächstes auftreten werden, basierend auf dem Kontext.
Es gibt drei Hauptmethoden für die Spracherkennung: synchron, asynchron und Streaming.
Von einer synchronen Erkennung spricht man, wenn eine sofortige Umwandlung von Speech to Text erfolgt. Es können nur Audiodateien verarbeitet werden, die kürzer als eine Minute sind. Dies wird bei Live-Untertiteln für das Fernsehen verwendet.
Streaming-Erkennung bedeutet, dass gestreamte Audiodaten in Echtzeit verarbeitet werden, sodass fragmentierte Texte möglicherweise angezeigt werden, während der Benutzer noch spricht.
Asynchrone Erkennung bedeutet, dass große, vorab aufgezeichnete Audiodateien zur Transkription eingereicht werden. Es könnte in die Warteschlange gestellt und später zugestellt werden.
Unternehmen wie Google3 (Link führt außerhalb von ibm.com), Microsoft4 (liegt außerhalb von ibm.com), Amazon5 (Link befindet sich außerhalb von ibm.com) und IBM bieten eine Speech-to-Text-Software als APIs über die Cloud an, die in Kombination mit anderen Anwendungen, Tools und Geräten genutzt werden kann.
Apple iPhones verfügen über eine Diktierfunktion (Link befindet sich außerhalb von ibm.com), die die in iOS integrierte „Speech to Text“-Technologie nutzt.6 Android-Nutzer können Apps wie Gboard (Link befindet sich außerhalb von ibm.com) für Speech-to-Text-Funktionen herunterladen. Mit einigen Pixel-Geräten können Benutzer über den Assistenten per Spracheingabe schreiben.7 Es gibt verschiedene Optionen für Open-Source- und proprietäre Speech-to-Text-Software.
Zu Beginn ihrer Entwicklung stützte sich Spracherkennungssoftware auf eine begrenzte Wörterdatenbank. Die jüngste Einführung durch Branchen von der Automobilindustrie bis zum Gesundheitswesen wurde durch Fortschritte in den Bereichen Data Science, Deep Learning und künstliche Intelligenz unterstützt.
In den 1950er Jahren entwickelten die Bell Laboratories die erste Lösung zur Spracherkennung (Link befindet sich außerhalb von ibm.com) namens AUDREY, die gesprochene Zahlen erkennen kann.8 Dann brachte IBM 1962 „Shoebox“ auf den Markt, der Zahlen und 16 verschiedene Wörter erkennen konnte.
In diesen Jahrzehnten (Link befindet sich außerhalb von ibm.com) entwickelten Informatiker Modelle zur Phonemerkennung und statistische Modelle wie die Hidden-Markov-Modelle, die nach wie vor beliebte Algorithmen für die Spracherkennung sind.9 Um die 1970er Jahre ermöglichte ein Programm namens HARPY von der Carnegie Mellon University, dass Computer 1.000 Wörter erkennen konnten.
In den 1980er Jahren nutzte das IBM-Transkriptionssystem Tangora statistische Methoden, um bis zu 20.000 Wörter zu erkennen. Es wurde im ersten sprachaktivierten Diktiergerät für Büroangestellte verwendet und legte den Grundstein für moderne Speech-to-Text-Software. Diese Art von Software wurde weiterentwickelt und verbessert, bis sie in den 2000er Jahren auf den Markt kam.
Als Algorithmen für maschinelles Lernen und Deep Learning eingeführt wurden, ersetzten sie statistische Modelle, verbesserten die Erkennungsgenauigkeit und ermöglichten eine Skalierung der Anwendungen. Deep Learning könnte Nuancen und informelle Ausdrücke besser erfassen. Large Language Models (LLMs) können genutzt werden, um Kontext hinzuzufügen, was bei mehrdeutigen Wortwahlen oder bei unterschiedlicher Aussprache aufgrund von Akzentuierungen hilfreich sein kann. Im Zuge der Entwicklung von virtuellen Assistenten und intelligenten Lautsprechern konnten diese Speech to Text mit Large Language Models, Verarbeitung natürlicher Sprache (NLP) und anderen cloudbasierten Diensten integrieren.
End-to-End-Modelle für Deep Learning wie die Transformer sind für Large Language Models von grundlegender Bedeutung. Sie werden anhand großer, nicht gekennzeichneter Datensätze von Audio-Text-Paaren darauf trainiert, Audiosignale mit Transkriptionen zu korrelieren.
Während dieses Trainings lernt das Modell implizit, wie Wörter klingen und welche Wörter wahrscheinlich zusammen in einer Sequenz auftauchen. Das Modell kann auch Grammatik- und Sprachstrukturregeln ableiten, die es selbst anwenden kann. Deep Learning konsolidiert einige der langwierigeren Schritte der traditionellen Speech-to-Text-Techniken.
Es gibt verschiedene Anwendungsfälle für Speech-to-Text-Software:
Mittels Speech-to-Text-Software können Kundeninteraktionen automatisch transkribiert, Anrufe nach Bedarf weitergeleitet, Erkenntnisse aus Kundengesprächen gewonnen und Stimmungsanalysen durchgeführt werden.
Beispiel: In Kundenservice-Call-Centern können künstliche Sprachassistenten die einfacheren, sich wiederholenden Fragen von Kunden per Speech to Text bearbeiten und komplexere Anfragen an menschliche Mitarbeiter weiterleiten.
Die Software kann Protokolle von Online-Meetings oder Webinaren transkribieren und Untertitel, Bildunterschriften oder Synchronisationen für Videos erstellen. Es kann auch mit einer Übersetzungssoftware verwendet werden, um Transkriptionsdokumente in mehreren Sprachen anzubieten. Spezielle Anwendungen ermöglichen die Transkription für Anwendungen im Gesundheitswesen, in der Rechtswissenschaft und im Bildungswesen.
Beispiel: Amazon (Link befindet sich außerhalb von ibm.com) bietet einen medizinischen Transkriptionsdienst an, der mithilfe von Speech to Text Arzt- und Patientengespräche für klinische Notizen transkribiert und Telemedizin-Konsultationen untertitelt.10
Durch die Verarbeitung natürlicher Sprache kann die Spracherkennung aus dem transkribierten Text Bedeutungen ableiten, umsetzbare Befehle herausfiltern und diese ausführen. Dies kann Benutzern dabei helfen, Sprachbefehle zu erteilen, wie z. B. Anrufe zu tätigen, im Internet zu suchen oder die Beleuchtung, Thermostate und andere vernetzte Geräte in einem Smart Home über Chatbots oder digitale Assistenten wie Alexa, Cortana, Google Assistant und Siri zu steuern.
Beispiel: Amazon's Alexa (Link befindet sich außerhalb von ibm.com) verwendet jetzt Speech to Text und Text to Speech, um das Licht einzuschalten, die Temperatur in einem bestimmten Raum anzupassen oder Rezepte vorzuschlagen, die auf Ihren letzten Lebensmitteleinkäufen basieren.11
Menschen mit Behinderungen können diese Apps verwenden, um mit Computern und Smartphones zu interagieren, ohne physisch tippen zu müssen. Sie können stattdessen Textnachrichten, Notizen, E-Mails und mehr diktieren.
Beispiel: Schüler mit Legasthenie oder einer kürzlich erlittenen Armverletzung können Notizen immer noch mit ihrer Stimme auf einem Microsoft-Computer (Link befindet sich außerhalb von ibm.com) eingeben.12 Diese Funktion wird von Azure Speech Services unterstützt.
KI kann Transkripte von Videos und Audioclips nach unangemessenen Inhalten durchsuchen und als Moderator fungieren, um fragwürdiges Material zur Überprüfung durch den Menschen zu kennzeichnen.
Beispiel: Vatis Tech (Link befindet sich außerhalb von ibm.com) bietet ein Tool an, das Speech to Text für die Überwachung sozialer Medien im Marketing verwendet, um Marken dabei zu helfen, Trends und die Absicht hinter Kundeninteraktionen zu erkennen.13
1. From Sound to Images, Part 1: A deep dive on spectrogram creation (Link befindet sich außerhalb von ibm.com), Cornell Lab Macaulay Library, 19. Juli 2021
2. Lecture 12: An Overview of Speech Recognition (Link befindet sich außerhalb von ibm.com), University of Rochester Computer Science
3. Turn speech into text using Google AI (Link befindet sich außerhalb von ibm.com), Google Cloud
4. Speech to text REST API (Link befindet sich außerhalb von ibm.com), Microsoft
5. Amazon Transcribe API Reference (Link befindet sich außerhalb von ibm.com), AWS
6. iPhone-Benutzerhandbuch (Link führt zu Seite außerhalb von ibm.com), Apple
7. Type with your voice (Link befindet sich außerhalb von ibm.com), Google-Support
8. Audrey, Alexa, Hall und andere (Link befindet sich außerhalb von ibm.com), Computer History Museum, 9. Juni 2021
9. Speech Recognition: Past, Present, Future (Link befindet sich außerhalb von ibm.com), Carnegie Mellon University Computer Science
10. Amazon Transcribe Medical (Link befindet sich außerhalb von ibm.com), AWS
11. Alexa unveils new speech recognition, text-to-speech technologies (Link befindet sich außerhalb von ibm.com), Amazon, 20. September 2023
12. Use voice typing to talk instead of type on your PC (Link befindet sich außerhalb von ibm.com), Microsoft
13. Media Monitoring Intelligence - Verwandeln Sie jedes Audio in Erkenntnisse (Link befindet sich außerhalb von ibm.com), Vatis Tech
Umwandlung von Sprache in Text mit KI-gestützter Spracherkennung und Transkription
Erstellen Sie Ihren KI-Assistenten mit Orchestrate, um die Bemühungen Ihres Teams zu optimieren und mehr Zeit für sich zu gewinnen.
Arbeiten Sie mit IBM zusammen, um Sprachfunktionen in Ihre Lösungen einzubetten
Lernprogramm ansehen
watsonx testen
Erste Schritte
Video ansehen