Qu’est-ce que le text to speech ?

Vue de dos d’une programmatrice informatique codant sur un ordinateur à son bureau

Auteurs

Charlotte Hu

IBM Content Contributor

Amanda Downie

Staff Editor

IBM Think

Le Text to Speech (TTS) est un type de technologie qui convertit le texte dans une interface numérique en parole à l’intonation naturelle. On parle également de technologie de lecture à haute voix, de parole générée par ordinateur ou de synthèse vocale. La plupart des entreprises proposent la technologie Text to Speech en tant qu’interface de programmation d’applications (API).

À l’origine, les systèmes TTS ont été développés comme une technologie d’assistance qui pourrait rendre certains services plus accessibles aux utilisateurs ayant des déficiences visuelles et des troubles d’apprentissage comme la dyslexie. Aujourd’hui, les générateurs de voix alimentés par l’intelligence artificielle permettent aux logiciels de synthèse vocale de mieux imiter la parole humaine : ouvrant la voie à de nouveaux cas d’utilisation tels que la réponse aux appels passés au service client, les podcasts générés par l’IA, les voix off et la narration de livres audio.

Évolution du text to speech

Les premiers synthétiseurs vocaux électriques ont vu le jour dans les années 19301. Les premières machines étaient limitées et compliquées à exploiter.

Avec le développement des ordinateurs, à la fin des années 1950, les programmeurs ont commencé à travailler sur des algorithmes capables d’accéder à une grande base de données de fichiers audio comme sons de base. Ces algorithmes pouvaient trouver des correspondances sonores pour des unités de texte et regrouper des éléments de discours. Au début, la voix générée était plutôt robotique. Les travaux de modélisation sont peu à peu parvenus à mieux caractériser le langage, et les algorithmes Text to Speech se sont améliorés.

Lorsque les techniques d’apprentissage profond et les réseaux neuronaux sont apparus dans les années 2000, les programmeurs ont commencé à modéliser les formes d’onde directement avec des enregistrements de discours, créant des voix de haute qualité à l’intonation plus réaliste. Parallèlement, les informaticiens ont affiné les logiciels de reconnaissance vocale et le traitement automatique du langage naturel. Le développement de l’IA conversationnelle s’est donc appuyé sur une combinaison du Speech to Text et du Text to Speech.

Bien que l’IA et le machine learning aient facilité la génération de parole naturelle, ils ont créé de nouvelles controverses, tels que les deepfakes. Les entreprises technologiques travaillent au développement de systèmes d’analyse vocale en temps réel afin de détecter les deepfakes audio.

Femme noire travaillant sur un ordinateur portable

Tenez-vous au courant des dernières actualités technologiques

La newsletter Think vous offre chaque semaine des informations, des recherches et les points de vue d’experts sur l’IA, la sécurité, le cloud et bien plus encore

Text to speech : comment ça marche ?

Les techniques d’apprentissage profond permettent aux modèles de synthèse vocale d’analyser davantage de données et de mieux comprendre la relation entre les mots et leur caractéristiques sonores. La voix de l’IA semble ainsi plus naturelle. La conversion text to speech est un processus à plusieurs étapes qui associe analyse linguistique et synthèse vocale.

Voici les principaux composants du text to speech :

  • Analyse linguistique

  • Synthèse vocale

Analyse linguistique

Les réseaux neuronaux profonds du modèle reçoivent des jeux de données audio et les transcriptions correspondantes en anglais, et parfois dans d’autres langues. Le système peut ainsi comprendre comment la correspondance entre les mots et la parole, ainsi que les accents, la hauteur, le volume, le ton, le rythme, etc. Une fois l’entrée texte reçue, le modèle Text to Speech analyse les mots, la ponctuation et la structure des phrases. Il peut développer les abréviations et les expressions, calculer la durée des mots, trouver les prononciations correspondantes et tracer la prosodie des phrases et des expressions.

Synthèse vocale

Une fois le texte analysé, le modèle suit un processus à deux étapes pour le transformer en sortie vocale.

  • Étape 1 : le modèle transforme le texte en caractéristiques alignées dans le temps, comme un spectrogramme, qui est utilisé pour cartographier la variation des fréquences au fil du temps. Cela permet de capturer les caractéristiques détaillées du discours et de prendre en compte les prononciations, les accents et le timing des mots en fonction du contexte.

  • Étape 2 : un réseau d’encodage vocal (vocodeur) peut transformer les caractéristiques alignées dans le temps en formes d’ondes audio, que les ordinateurs peuvent convertir en parole naturelle. Certains modèles Text to Speech permettent aux utilisateurs de modifier le volume, la hauteur, la vitesse et de choisir entre différentes langues, différents accents et différents styles d’expression.

De nombreux appareils (comme les smartphones) intègrent des systèmes Text to Speech. Le Text to Speech est également disponible en tant que logiciel, extension de navigateur, outil web ou application téléchargeable.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Utilisation du text to speech

À l’origine, l’objectif de la technologie Text to Speech était d’améliorer l’accessibilité pour un large éventail d’utilisateurs et de permettre aux personnes souffrant de déficiences visuelles ou de difficultés de lecture d’interagir avec des textes via des ordinateurs et d’autres appareils. Stephen Hawkings, par exemple, utilise une version de la technologie Text to Speech.

Le texte to speech a depuis évolué pour répondre à davantage de cas d’utilisation, principalement lorsque la lecture s’avère peu pratique ou que l’on peut faire gagner du temps aux équipes. Voici les principales applications de cette technologie :

  • Contenu audio

  • Éducation

  • Chatbots et assistants virtuels

  • Navigation

  • Communication multilingue et apprentissage des langues

  • Médias et divertissement

  • Soins de santé

Contenu audio

Les logiciels de Text to Speech peuvent lire à haute voix des textes numériques, des livres, des leçons, des guides, des instructions et bien plus encore pour faciliter l’apprentissage électronique et la formation en ligne. Les organisations de presse peuvent également utiliser cette technologie pour convertir leurs articles au format audio.

Éducation

Les fonctionnalités du Text to Speech peuvent aider les étudiants à prêter attention au texte parlé tout en lisant une version écrite, leur permettant d'associer les mots aux prononciations. Cette technologie peut également améliorer la compréhension de la lecture et l’engagement dans l’apprentissage, les élèves étant exposés à de nouvelles structures grammaticales ou à un nouveau vocabulaire au fil du temps. Elle peut également aider les personnes ayant des difficultés visuelles ou des troubles de l’apprentissage tels que la dyslexie. Le Text to Speech peut également lire à haute voix les travaux écrits produits par les étudiants pour les aider à relire leurs dissertations.

Chatbots et assistants virtuels

Les assistants virtuels comme Siri d’Apple ou Cortana de Microsoft associent le Text to Speech et le Speech to Text pour comprendre les demandes des utilisateurs et interagir avec eux sous forme de conversation. Ils peuvent également lire les notifications et les SMS lorsque les utilisateurs conduisent, par exemple.

Dans les entreprises, les systèmes TTS peuvent améliorer la qualité de l’expérience utilisateur en rendant le service client plus interactif et naturel. Les systèmes TTS peuvent prendre les appels, présenter des options et répondre aux utilisateurs. Ils constituent un élément clé des systèmes téléphoniques automatisés.

Navigation

Les capacités Text to Speech permettent au GPS et à d’autres applications de cartographie de transmettre des instructions aux conducteurs en temps réel. Avant le Text to Speech, les appareils de navigation utilisaient des voix préenregistrées et des instructions prédéfinies comme tourner à gauche ou tourner à droite. Grâce au Text to Speech, les instructions de conduite sont devenues plus personnalisées. Par exemple, le GPS peut indiquer la rue exacte dans laquelle vous devez tourner à gauche.

Communication multilingue et apprentissage des langues

Le Text to Speech peut aider les utilisateurs à communiquer dans différentes langues, par exemple via une application comme Google Translate. Ce type de fonctionnalité d’application peut traduire l’audio d’une langue à une autre, une capacité qui pourrait être utilisée pour doubler du contenu vidéo. Il peut permettre d’exposer les apprenants d’une langue à la parole naturelle et les aider à comprendre la prononciation des différents mots.

Médias et divertissement

La technologie TTS progresse, et avec elle la possibilité de réduire les coûts des productions multimédias. Elle pourrait par exemple générer des commentaires et des narrations dans les jeux vidéo, ainsi que des voix pour les personnages. Certains studios travaillent avec des acteurs de doublage pour améliorer les performances de leurs voix basées sur l’IA.

Soins de santé

Les organisations de santé utilisent la technologie Text to Speech pour communiquer avec les patients de manière accessible. Cela inclut l’ajout de versions audio des contenus et documents publiés sur leurs pages web ou sur les réseaux sociaux. Certains établissements ajoutent également des instructions audioguidées sur la façon d’utiliser certains dispositifs médicaux. Les interfaces vocales alimentées par l’IA générative peuvent également rappeler aux patients leurs rendez-vous à venir en les appelant, ou les avertir des modifications ou des mises à jour de leur dossier. Cela peut être particulièrement important pour les patients souffrant de déficiences visuelles, de problèmes d’élocution, de problèmes de mobilité ou de troubles de l’apprentissage.

Notes de bas de page

Text-to-Speech Technology (Speech Synthesis), American National Standards Institute, 7 décembre 2015

Solutions connexes
IBM watsonx Orchestrate

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate
Outils et API de traitement automatique du langage naturel

Accélérez la valeur métier de l’intelligence artificielle grâce à un portefeuille puissant et flexible de bibliothèques, de services et d’applications.

Découvrir les solutions NLP
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate Découvrir les solutions NLP