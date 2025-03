Os primeiros sintetizadores de voz elétricos surgiram por volta da década de 19301. As primeiras máquinas eram limitadas e complicadas de operar.

Com o surgimento dos computadores, os programadores a partir do final da década de 1950 trabalharam em algoritmos que poderiam acessar um grande banco de dados de arquivos de áudio que reproduziam suas fontes de origem. Esses algoritmos poderiam encontrar correspondências de som para unidades de textos e reunir elementos de voz. No início, a voz gerada parecia robótica. À medida que o trabalho de modelagem foi caracterizando melhor a linguagem, os algoritmos de transformar texto em voz melhoraram.

Quando técnicas de deep learning e redes neurais surgiram na década de 2000, os programadores começaram a modelar formas de onda diretamente com gravações de voz, o que leva a vozes de alta qualidade e mais realistas. Paralelamente, cientistas da computação estavam refinando um software de reconhecimento de voz e processamento de linguagem natural. O desenvolvimento da IA conversacional dependeu da combinação das tecnologias Speech to Text com Text to Speech.

Embora a IA e o aprendizado de máquina tenham facilitado a geração de voz com som natural, abriram novas áreas de controvérsia, como os deepfakes. Há empresas de tecnologia trabalhando no desenvolvimento de sistemas de análise de voz em tempo real para detectar deepfakes de áudio.