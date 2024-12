Speech to Text beschreibt die Umwandlung von gesprochenem Wort in ein Texttranskript. Manchmal auch als Voice to Text bezeichnet, ist es meist als softwarebasierter Dienst (SaaS) verfügbar.

Es kombiniert in der Regel eine auf künstlicher Intelligenz basierende Spracherkennungstechnologie, auch bekannt als automatische Spracherkennung, mit Transkription. Ein Computerprogramm nimmt Audio in Form von Schallwellen auf und wandelt die Audioeingabe mithilfe linguistischer Algorithmen in digitale Zeichen, Wörter und Phrasen um.



Maschinelles Lernen, Deep Learning und Large Language Models wie der Generative Pre-Trained Transformer (GPT) von OpenAI haben Speech-to-Text-Software fortschrittlicher und effizienter gemacht, da sie aus einer großen Menge an Audio- und Textbeispielen Muster in der gesprochenen Sprache ableiten können.

Generative KI kann in eine Software für Speech to Text integriert werden, um Assistenten zu erstellen, die Kunden bei einem Telefonanruf helfen oder mit sprachgesteuerten Apps interagieren können. Generative KI kann auch Text in Sprache umwandeln, auch bekannt als Text to Speech, und zwar mit einer realistischen, natürlich klingenden Stimme.