Text to Speech (TTS) ist eine Technologie, die Text auf einer digitalen Schnittstelle in natürlich klingendes Audiosignal umwandelt. Sie wird auch als „Vorlesetechnologie“, computergenerierte Sprache oder Sprachsynthese bezeichnet. Die meisten Unternehmen bieten die Text-to-Speech-Technologie als Programmierschnittstelle (API) an.
Ursprünglich wurden TTS-Systeme als unterstützende Technologie entwickelt, die bestimmte Dienste für Nutzer mit Sehbehinderungen und Lernschwächen wie Legasthenie zugänglicher machen sollten. Jetzt ermöglichen es auf künstlicher Intelligenz basierende Sprachgeneratoren, dass die Text-to-Speech-Software die menschliche Sprache besser nachahmen kann. Eine Welle neuer Anwendungsfälle eröffnet sich, wie z. B. die Beantwortung von Anrufen im Kundenservice, KI-generierte Podcasts, Voice-Over und Hörbucherzählung.
Die ersten elektrischen Sprachsynthesizer tauchten in den 1930er Jahren auf1. Die frühen Maschinen waren jedoch eingeschränkt und kompliziert zu bedienen.
Mit der Einführung von Computern arbeiteten Programmierer ab den späten 1950er Jahren an Algorithmen, die auf eine große Datenbank mit Audiodateien als Quellen zugreifen sollten. Diese Algorithmen konnten Klangübereinstimmungen für Texteinheiten finden und Sprachelemente zusammensetzen. Zu Beginn klang die generierte Stimme roboterhaft. Als die Modellierungsarbeit die Sprache besser charakterisierte, verbesserten sich die Algorithmen zur Umwandlung von Text in Sprache.
Als in den 2000er Jahren Deep-Learning-Techniken und neuronale Netze aufkamen, begannen Programmierer, Wellenformen direkt mit Sprachaufnahmen zu modellieren. Dies führte zu hochwertigen Stimmen, die realistischer klangen. Parallel dazu verfeinerten Informatiker die Spracherkennungssoftware und die Verarbeitung natürlicher Sprache. Die Entwicklung von dialogorientierter KI beruhte auf der Kombination der beiden Technologien Speech to Text und Text to Speech.
Obwohl KI und maschinelles Lernen die Erzeugung natürlich klingender Sprache vereinfachten, eröffneten sie neue Kontroversen, wie z. B. Deepfakes. Technologieunternehmen arbeiten an der Entwicklung von System für die Echtzeit-Stimmenanalyse, um Audio-Deefakes zu erkennen.
Deep-Learning-Techniken ermöglichen es Sprachsynthesemodellen, mehr Daten zu analysieren und die Beziehung zwischen Wörtern und ihren akustischen Merkmalen besser zu verstehen. All dies lässt die KI-Stimme natürlicher klingen. Die Umwandlung von Text in Sprache ist ein mehrstufiger Prozess, der sowohl die linguistische Analyse als auch die Sprachsynthese umfasst.
Die Hauptbestandteile von Text to Speech sind:
Sprachanalyse
Sprachsynthese
Tiefe neuronale Netzwerke im Modell erhalten Audiodatensätze und entsprechende Transkriptionen in Englisch und manchmal in anderen Sprachen. Dadurch versteht das System besser, inwiefern Wörter mit der gesprochenen Sprache übereinstimmen und erkennt Akzente, Tonhöhe, Lautstärke, Tonfall, Rhythmus und mehr. Nach einer Texteingabe analysiert das Text-to-Speech-Modell die Wörter, die Zeichensetzung und die Satzstruktur. Es kann Abkürzungen und Ausdrücke erweitern, die Dauer von Wörtern berechnen, die passenden Aussprachen finden und die Prosodie von Phrasen und Sätzen darstellen.
Nachdem der Text analysiert wurde, wandelt das Modell ihn in einem zweistufigen Prozess in eine Sprachausgabe um.
Schritt 1: Das Modell wandelt den Text in an der Zeit ausgerichtete Funktionen, etwa Spektrogramme, um, um die Variation von Frequenzen im Laufe der Zeit abzubilden. Dabei werden die detaillierten Merkmale der Sprache erfasst und kontextabhängige Aussprachen, Betonungen und das Timing von Wörtern berücksichtigt.
Schritt 2: Ein Netzwerk zur Sprachcodierung (Vocoder) kann die zeitlich ausgerichteten Merkmale in Audiowellen umwandeln, die Computer in natürlich klingende Sprache umwandeln können. Bestimmte Text-to-Speech-Modelle ermöglichen es Benutzern, die Lautstärke, die Tonhöhe und die Geschwindigkeit zu ändern und zwischen verschiedenen Sprachen, Akzenten und Sprechstilen zu wählen.
In vielen Geräten wie Smartphones ist ein Text-to-Speech-System integriert. Text to Speech ist auch in Form von Softwareprogrammen, Browsererweiterungen, webbasierten Tools und herunterladbaren Apps erhältlich.
Die Text-to-Speech-Technologie wurde ursprünglich entwickelt, um die Zugänglichkeit für ein breites Spektrum von Nutzern zu verbessern und Menschen mit Seh- oder Leseschwächen die Interaktion mit Texten über Computer und andere Geräte zu ermöglichen. So verwendete zum Beispiel Stephen Hawkings eine Version der Text-to-Speech-Technologie.
Text to Speech hat sich seither zu einer breiteren Palette von Anwendungsfällen entwickelt. Die Technologie wird vor allem dann genutzt, wenn Lesen nicht praktikabel ist oder die Zeit eines menschlichen Mitarbeiters eingespart werden kann. Zu den wichtigsten Anwendungen für die Technologie gehören:
Audioinhalte
Schulung
Chatbots und virtuelle Assistenten
Navigation
Mehrsprachige Kommunikation und Sprachenlernen
Medien und Unterhaltung
Gesundheitswesen
Text-to-Speech-Software kann digitale Texte, Bücher, Unterrichtseinheiten, Leitfäden, Anleitungen und vieles mehr vorlesen, um E-Learning und Online-Schulungen zu unterstützen. Auch Nachrichtenorganisationen können diese Technologie zur Umwandlung ihrer Artikel in ein Audioformat einsetzen.
Text-to-Speech-Funktionen können Lernenden helfen, geschriebenen Text aufmerksam mitzulesen, sodass sie geschriebene Wörter mit der Aussprache verknüpfen können. Es kann auch das Leseverständnis und das Engagement verbessern, wenn Lernende mit neuen Grammatikstrukturen oder Vokabeln konfrontiert werden. Außerdem hilft die Technologie Menschen mit Seh- oder Lernschwierigkeiten wie Legasthenie. Text to Speech kann auch schriftliche Arbeiten vorlesen, die von Lernenden geschrieben wurden, um sie beim Korrekturlesen zu unterstützen.
Virtuelle Assistenten wie Siri von Apple oder Cortana von Microsoft verbinden Text-to-Speech mit Speech-to-Text, um Anfragen von Benutzern zu verstehen und auf natürliche Art und Weise mit ihnen zu kommunizieren. Sie können auch Benachrichtigungen übermitteln und Texte vorlesen, wenn der Benutzer zum Beispiel gerade mit dem Auto unterwegs ist.
In Unternehmen können TTS-Systeme die Qualität der Benutzererfahrung verbessern, indem sie den Kundenservice interaktiver und natürlicher gestalten. TTS-Systeme können Anrufe entgegennehmen, Optionen präsentieren und dem Benutzer antworten. Sie sind ein wichtiger Bestandteil von automatisierten Telefonsystemen.
Mithilfe der Text-to-Speech-Funktion können GPS und andere Karten-Apps Wegbeschreibungen in Echtzeit an den Fahrer weitergeben. Vor der Einführung der Text-to-Speech-Funktion waren Navigationsgeräte auf aufgezeichnete Stimmen und feste Aufforderungen wie „links abbiegen“ oder „rechts abbiegen“ angewiesen. Durch Text-to-Speech werden die Fahranweisungen persönlicher. Beispielsweise kann das GPS die genaue Straße angeben, in die Sie links abbiegen müssen.
Text to Speech kann Benutzern helfen, in verschiedenen Sprachen zu kommunizieren, z. B. über eine App wie Google Translate. Diese Art von App-Funktion kann Audio von einer Sprache in eine andere übersetzen, was zum Synchronisieren von Videoinhalten verwendet werden kann. Sie kann Sprachlernende mit natürlicher Sprache vertraut machen, was ihnen helfen kann, zu verstehen, wie verschiedene Wörter ausgesprochen werden.
Mit der Weiterentwicklung der TTS-Technologie können Kosten bei der Medienproduktion eingespart werden. So kann die Technologie beispielsweise Kommentare und Erzählungen in Videospielen sowie Voiceover für die Charaktere erzeugen. Einige Studios arbeiten dabei mit menschlichen Synchronsprechern zusammen, um die Leistung ihrer KI-Stimmen zu verbessern.
Unternehmen im Gesundheitswesen nutzen Text-to-Speech-Technologie, um auf zugängliche Weise mit Patienten zu kommunizieren. Dazu gehört auch das Hinzufügen von Audioversionen von Inhalten und Literatur auf Webseiten oder in sozialen Medien veröffentlicht. Einige Einrichtungen bieten audiogeführte Anweisungen zur Verwendung bestimmter medizinischer Geräte an. Generative KI-gestützte Sprachschnittstellen können dabei helfen, Patienten in Form von Anrufen an bevorstehende Termine zu erinnern oder sie auf Neuigkeiten oder Aktualisierungen ihrer Diagramme aufmerksam zu machen. Dies kann besonders wichtig für Patienten mit Sehbehinderungen, Sprachproblemen, Mobilitätseinschränkungen und Lernschwächen sein.
1 Text-to-Speech Technology (Speech Synthesis), American National Standards Institute, 7. Dezember 2015.
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Erfahren Sie, wie die Verarbeitung natürlicher Sprache Ihnen dabei helfen kann, sich natürlicher mit Computern zu unterhalten.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
Auf der IBM Developer's Website finden Sie Blogs, Artikel und Newsletter und erfahren mehr über IBM Embeddable AI.
Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.
Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.
Steigern Sie den Geschäftswert der künstlichen Intelligenz mit einem leistungsstarken und flexiblen Portfolio aus Bibliotheken, Diensten und Anwendungen.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.