Les premiers synthétiseurs vocaux électriques ont vu le jour dans les années 19301. Les premières machines étaient limitées et compliquées à exploiter.

Avec le développement des ordinateurs, à la fin des années 1950, les programmeurs ont commencé à travailler sur des algorithmes capables d’accéder à une grande base de données de fichiers audio comme sons de base. Ces algorithmes pouvaient trouver des correspondances sonores pour des unités de texte et regrouper des éléments de discours. Au début, la voix générée était plutôt robotique. Les travaux de modélisation sont peu à peu parvenus à mieux caractériser le langage, et les algorithmes Text to Speech se sont améliorés.

Lorsque les techniques d’apprentissage profond et les réseaux neuronaux sont apparus dans les années 2000, les programmeurs ont commencé à modéliser les formes d’onde directement avec des enregistrements de discours, créant des voix de haute qualité à l’intonation plus réaliste. Parallèlement, les informaticiens ont affiné les logiciels de reconnaissance vocale et le traitement automatique du langage naturel. Le développement de l’IA conversationnelle s’est donc appuyé sur une combinaison du Speech to Text et du Text to Speech.

Bien que l’IA et le machine learning aient facilité la génération de parole naturelle, ils ont créé de nouvelles controverses, tels que les deepfakes. Les entreprises technologiques travaillent au développement de systèmes d’analyse vocale en temps réel afin de détecter les deepfakes audio.