Was ist Text to Speech?

Autoren

IBM Content Contributor

Staff Editor

IBM Think

Text to Speech (TTS) ist eine Technologie, die Text auf einer digitalen Schnittstelle in natürlich klingendes Audiosignal umwandelt. Sie wird auch als „Vorlesetechnologie“, computergenerierte Sprache oder Sprachsynthese bezeichnet. Die meisten Unternehmen bieten die Text-to-Speech-Technologie als Programmierschnittstelle (API) an.

Ursprünglich wurden TTS-Systeme als unterstützende Technologie entwickelt, die bestimmte Dienste für Nutzer mit Sehbehinderungen und Lernschwächen wie Legasthenie zugänglicher machen sollten. Jetzt ermöglichen es auf künstlicher Intelligenz basierende Sprachgeneratoren, dass die Text-to-Speech-Software die menschliche Sprache besser nachahmen kann. Eine Welle neuer Anwendungsfälle eröffnet sich, wie z. B. die Beantwortung von Anrufen im Kundenservice, KI-generierte Podcasts, Voice-Over und Hörbucherzählung.

Entwicklung der Text-to-Speech-Technologie

Die ersten elektrischen Sprachsynthesizer tauchten in den 1930er Jahren auf¹. Die frühen Maschinen waren jedoch eingeschränkt und kompliziert zu bedienen.

Mit der Einführung von Computern arbeiteten Programmierer ab den späten 1950er Jahren an Algorithmen, die auf eine große Datenbank mit Audiodateien als Quellen zugreifen sollten. Diese Algorithmen konnten Klangübereinstimmungen für Texteinheiten finden und Sprachelemente zusammensetzen. Zu Beginn klang die generierte Stimme roboterhaft. Als die Modellierungsarbeit die Sprache besser charakterisierte, verbesserten sich die Algorithmen zur Umwandlung von Text in Sprache.

Als in den 2000er Jahren Deep-Learning-Techniken und neuronale Netze aufkamen, begannen Programmierer, Wellenformen direkt mit Sprachaufnahmen zu modellieren. Dies führte zu hochwertigen Stimmen, die realistischer klangen. Parallel dazu verfeinerten Informatiker die Spracherkennungssoftware und die Verarbeitung natürlicher Sprache. Die Entwicklung von dialogorientierter KI beruhte auf der Kombination der beiden Technologien Speech to Text und Text to Speech.

Obwohl KI und maschinelles Lernen die Erzeugung natürlich klingender Sprache vereinfachten, eröffneten sie neue Kontroversen, wie z. B. Deepfakes. Technologieunternehmen arbeiten an der Entwicklung von System für die Echtzeit-Stimmenanalyse, um Audio-Deefakes zu erkennen.

Bleiben Sie über die neuesten Tech-News auf dem Laufenden.

Erhalten Sie im Newsletter Think wöchentlich Erkenntnisse, Forschungsergebnisse und Expertenmeinungen zu KI, Sicherheit, Cloud und mehr.

Wie funktioniert Text to Speech?

Deep-Learning-Techniken ermöglichen es Sprachsynthesemodellen, mehr Daten zu analysieren und die Beziehung zwischen Wörtern und ihren akustischen Merkmalen besser zu verstehen. All dies lässt die KI-Stimme natürlicher klingen. Die Umwandlung von Text in Sprache ist ein mehrstufiger Prozess, der sowohl die linguistische Analyse als auch die Sprachsynthese umfasst.

Die Hauptbestandteile von Text to Speech sind:

Sprachanalyse
Sprachsynthese

Sprachanalyse

Tiefe neuronale Netzwerke im Modell erhalten Audiodatensätze und entsprechende Transkriptionen in Englisch und manchmal in anderen Sprachen. Dadurch versteht das System besser, inwiefern Wörter mit der gesprochenen Sprache übereinstimmen und erkennt Akzente, Tonhöhe, Lautstärke, Tonfall, Rhythmus und mehr. Nach einer Texteingabe analysiert das Text-to-Speech-Modell die Wörter, die Zeichensetzung und die Satzstruktur. Es kann Abkürzungen und Ausdrücke erweitern, die Dauer von Wörtern berechnen, die passenden Aussprachen finden und die Prosodie von Phrasen und Sätzen darstellen.

Sprachsynthese

Nachdem der Text analysiert wurde, wandelt das Modell ihn in einem zweistufigen Prozess in eine Sprachausgabe um.

Schritt 1: Das Modell wandelt den Text in an der Zeit ausgerichtete Funktionen, etwa Spektrogramme, um, um die Variation von Frequenzen im Laufe der Zeit abzubilden. Dabei werden die detaillierten Merkmale der Sprache erfasst und kontextabhängige Aussprachen, Betonungen und das Timing von Wörtern berücksichtigt.
Schritt 2: Ein Netzwerk zur Sprachcodierung (Vocoder) kann die zeitlich ausgerichteten Merkmale in Audiowellen umwandeln, die Computer in natürlich klingende Sprache umwandeln können. Bestimmte Text-to-Speech-Modelle ermöglichen es Benutzern, die Lautstärke, die Tonhöhe und die Geschwindigkeit zu ändern und zwischen verschiedenen Sprachen, Akzenten und Sprechstilen zu wählen.

In vielen Geräten wie Smartphones ist ein Text-to-Speech-System integriert. Text to Speech ist auch in Form von Softwareprogrammen, Browsererweiterungen, webbasierten Tools und herunterladbaren Apps erhältlich.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Verwendung von Text to Speech

Die Text-to-Speech-Technologie wurde ursprünglich entwickelt, um die Zugänglichkeit für ein breites Spektrum von Nutzern zu verbessern und Menschen mit Seh- oder Leseschwächen die Interaktion mit Texten über Computer und andere Geräte zu ermöglichen. So verwendete zum Beispiel Stephen Hawkings eine Version der Text-to-Speech-Technologie.

Text to Speech hat sich seither zu einer breiteren Palette von Anwendungsfällen entwickelt. Die Technologie wird vor allem dann genutzt, wenn Lesen nicht praktikabel ist oder die Zeit eines menschlichen Mitarbeiters eingespart werden kann. Zu den wichtigsten Anwendungen für die Technologie gehören:

Audioinhalte
Schulung
Chatbots und virtuelle Assistenten
Navigation
Mehrsprachige Kommunikation und Sprachenlernen
Medien und Unterhaltung
Gesundheitswesen

Audioinhalte

Text-to-Speech-Software kann digitale Texte, Bücher, Unterrichtseinheiten, Leitfäden, Anleitungen und vieles mehr vorlesen, um E-Learning und Online-Schulungen zu unterstützen. Auch Nachrichtenorganisationen können diese Technologie zur Umwandlung ihrer Artikel in ein Audioformat einsetzen.

Schulung

Text-to-Speech-Funktionen können Lernenden helfen, geschriebenen Text aufmerksam mitzulesen, sodass sie geschriebene Wörter mit der Aussprache verknüpfen können. Es kann auch das Leseverständnis und das Engagement verbessern, wenn Lernende mit neuen Grammatikstrukturen oder Vokabeln konfrontiert werden. Außerdem hilft die Technologie Menschen mit Seh- oder Lernschwierigkeiten wie Legasthenie. Text to Speech kann auch schriftliche Arbeiten vorlesen, die von Lernenden geschrieben wurden, um sie beim Korrekturlesen zu unterstützen.

Chatbots und virtuelle Assistenten

Virtuelle Assistenten wie Siri von Apple oder Cortana von Microsoft verbinden Text-to-Speech mit Speech-to-Text, um Anfragen von Benutzern zu verstehen und auf natürliche Art und Weise mit ihnen zu kommunizieren. Sie können auch Benachrichtigungen übermitteln und Texte vorlesen, wenn der Benutzer zum Beispiel gerade mit dem Auto unterwegs ist.

In Unternehmen können TTS-Systeme die Qualität der Benutzererfahrung verbessern, indem sie den Kundenservice interaktiver und natürlicher gestalten. TTS-Systeme können Anrufe entgegennehmen, Optionen präsentieren und dem Benutzer antworten. Sie sind ein wichtiger Bestandteil von automatisierten Telefonsystemen.

Navigation

Mithilfe der Text-to-Speech-Funktion können GPS und andere Karten-Apps Wegbeschreibungen in Echtzeit an den Fahrer weitergeben. Vor der Einführung der Text-to-Speech-Funktion waren Navigationsgeräte auf aufgezeichnete Stimmen und feste Aufforderungen wie „links abbiegen“ oder „rechts abbiegen“ angewiesen. Durch Text-to-Speech werden die Fahranweisungen persönlicher. Beispielsweise kann das GPS die genaue Straße angeben, in die Sie links abbiegen müssen.

Mehrsprachige Kommunikation und Sprachenlernen

Text to Speech kann Benutzern helfen, in verschiedenen Sprachen zu kommunizieren, z. B. über eine App wie Google Translate. Diese Art von App-Funktion kann Audio von einer Sprache in eine andere übersetzen, was zum Synchronisieren von Videoinhalten verwendet werden kann. Sie kann Sprachlernende mit natürlicher Sprache vertraut machen, was ihnen helfen kann, zu verstehen, wie verschiedene Wörter ausgesprochen werden.

Medien und Unterhaltung

Mit der Weiterentwicklung der TTS-Technologie können Kosten bei der Medienproduktion eingespart werden. So kann die Technologie beispielsweise Kommentare und Erzählungen in Videospielen sowie Voiceover für die Charaktere erzeugen. Einige Studios arbeiten dabei mit menschlichen Synchronsprechern zusammen, um die Leistung ihrer KI-Stimmen zu verbessern.

Gesundheitswesen

Unternehmen im Gesundheitswesen nutzen Text-to-Speech-Technologie, um auf zugängliche Weise mit Patienten zu kommunizieren. Dazu gehört auch das Hinzufügen von Audioversionen von Inhalten und Literatur auf Webseiten oder in sozialen Medien veröffentlicht. Einige Einrichtungen bieten audiogeführte Anweisungen zur Verwendung bestimmter medizinischer Geräte an. Generative KI-gestützte Sprachschnittstellen können dabei helfen, Patienten in Form von Anrufen an bevorstehende Termine zu erinnern oder sie auf Neuigkeiten oder Aktualisierungen ihrer Diagramme aufmerksam zu machen. Dies kann besonders wichtig für Patienten mit Sehbehinderungen, Sprachproblemen, Mobilitätseinschränkungen und Lernschwächen sein.

Fußnoten

¹Text-to-Speech Technology (Speech Synthesis), American National Standards Institute, 7. Dezember 2015.

Jenseits des Hypes – Wie KI-Assistenten echten geschäftlichen Mehrwert schaffen

Entdecken Sie die wichtigsten Anwendungsfälle für den Einsatz von KI-Assistenten, verstehen Sie die potenziellen Auswirkungen von generativer KI und Automatisierung auf Ihr Unternehmen und erfahren Sie, wie Sie loslegen können.