Text to Speech (TTS) é um tipo de tecnologia que converte texto, em uma interface digital, em áudio com qualidade natural. Também pode ser chamada de tecnologia de “leitura em voz alta”, voz gerada por computador ou síntese de voz. A maioria das empresas oferece a tecnologia Text to Speech como uma interface de programação de aplicativos (API).
Originalmente, os sistemas TTS foram desenvolvidos como tecnologia assistiva que pode tornar determinados serviços mais acessíveis para usuários com deficiências visuais e dificuldades de aprendizado como dislexia. Agora, geradores de voz artificial alimentados por inteligência artificial estão permitindo que softwares de Text to Speech imitem melhor a voz humana. O início de uma onda de novos casos de uso, como atendimento de chamadas de serviço ao cliente, podcasts gerados por IA, dublagem e narração de audiobooks.
Os primeiros sintetizadores de voz elétricos surgiram por volta da década de 19301. As primeiras máquinas eram limitadas e complicadas de operar.
Com o surgimento dos computadores, os programadores a partir do final da década de 1950 trabalharam em algoritmos que poderiam acessar um grande banco de dados de arquivos de áudio que reproduziam suas fontes de origem. Esses algoritmos poderiam encontrar correspondências de som para unidades de textos e reunir elementos de voz. No início, a voz gerada parecia robótica. À medida que o trabalho de modelagem foi caracterizando melhor a linguagem, os algoritmos de transformar texto em voz melhoraram.
Quando técnicas de deep learning e redes neurais surgiram na década de 2000, os programadores começaram a modelar formas de onda diretamente com gravações de voz, o que leva a vozes de alta qualidade e mais realistas. Paralelamente, cientistas da computação estavam refinando um software de reconhecimento de voz e processamento de linguagem natural. O desenvolvimento da IA conversacional dependeu da combinação das tecnologias Speech to Text com Text to Speech.
Embora a IA e o aprendizado de máquina tenham facilitado a geração de voz com som natural, abriram novas áreas de controvérsia, como os deepfakes. Há empresas de tecnologia trabalhando no desenvolvimento de sistemas de análise de voz em tempo real para detectar deepfakes de áudio.
Técnicas de deep learning possibilitam que modelos de síntese de voz analisem mais dados e entendam melhor a relação entre palavras e sua característica acústica. Tudo isso faz a voz da IA ser mais natural. A conversão de texto para voz é um processo de várias etapas que envolve análise linguística e síntese de voz.
Os principais componentes do Text to Speech são:
Análise linguística
Síntese de voz
As redes neurais profundas do modelo recebem conjuntos de dados de áudio e transcrições correspondentes em inglês e, às vezes, em outros idiomas. Isso ajuda o sistema a entender como as palavras se combinam com a voz, bem como sotaques, tom, volume, tom, ritmo e outros detalhes. Depois de receber um input de texto, o modelo de Text to Speech analisa as palavras, a pontuação e a estrutura das frases. Ele pode expandir abreviações e expressões, calcular a duração das palavras, encontrar as pronúncias correspondentes e plotar a prosódia de frases e sentenças.
Depois que o texto é analisado, o modelo utiliza um processo de duas etapas para transformá-lo em voz.
Etapa 1: o modelo transforma o texto em características adequadas no tempo, como um espectrograma, utilizado para mapear a variação de frequências ao longo do tempo. Isso captura as características detalhadas da voz e leva em consideração as pronúncias, as ênfases e os tempos das palavras que dependem do contexto.
Etapa 2: Uma rede de codificação de voz (vocoder) pode transformar os recursos adequados ao tempo em formas de onda de áudio que os computadores podem converter em voz com som natural. Certos modelos de Text to Speech possibilitam que os usuários alterem o volume, o tom, a velocidade e escolham entre diversos idiomas, sotaques e estilos de voz.
Muitos dispositivos, como smartphones, têm sistemas de Text to Speech integrados. O Text to Speech também está disponível como um programa de software, uma extensão de navegador, uma ferramenta baseada na web ou aplicativos para download.
A tecnologia Text to Speech foi originalmente desenvolvida como uma forma de aumentar a acessibilidade para uma ampla gama de usuários e permitir que pessoas com deficiência visual ou de leitura interagissem com textos por meio de computadores e outros dispositivos. Stephen Hawking, por exemplo, utilizava uma versão da tecnologia Text to Speech.
Desde então, a tecnologia Text to Speech evoluiu para uma gama mais ampla de casos de uso, principalmente aqueles em que a leitura não é prática ou em que o tempo de um operador humano pode ser economizado. Essas são algumas das principais aplicações da tecnologia.
Conteúdo de áudio
Educação
Chatbots e assistentes virtuais
Navegação
Comunicação multilíngue e aprendizado de idiomas
Mídia e entretenimento
Setor de saúde
O software de Text to Speech pode ler em voz alta textos digitais, livros, lições, guias, instruções e outros para auxiliar no ensino à distância e no treinamento online. As organizações de notícias também podem usar essa tecnologia para converter seus artigos em formato de áudio.
Os recursos de Text to Speech podem ajudar os alunos a prestar atenção e ler o texto escrito, permitindo que eles associem palavras a pronúncias. Também pode melhorar a compreensão e o envolvimento da leitura à medida que os alunos são expostos a novas estruturas gramaticais ou vocabulário. Também pode ajudar pessoas com dificuldades visuais ou dificuldades de aprendizado, como dislexia. O Text to Speech também pode ler em voz alta trabalhos escritos produzidos pelos alunos para ajudá-los na revisão de redações de ensaio.
Assistentes virtuais como a Siri da Apple ou a Cortana da Microsoft combinam Text to Speech com Speech to Text para entender as solicitações dos usuários e interagir com eles de forma natural. Podem também transmitir notificações e ler textos quando os usuários estão dirigindo, por exemplo.
Em ambientes corporativos, os sistemas TTS podem melhorar a qualidade das experiências dos usuários, tornando o atendimento ao cliente mais interativo e natural. Os sistemas TTS podem atender a chamadas, apresentar opções e responder aos usuários. São uma parte fundamental dos sistemas telefônicos automáticos.
Os recursos de Text to Speech são o que permite que o GPS e outros aplicativos de mapeamento transmitam instruções aos motoristas em tempo real. Antes da tecnologia Text to Speech, os dispositivos de navegação dependiam de vozes gravadas previamente e definiam instruções como virar à esquerda ou à direita. Com Text to Speech as instruções de direção tornaram-se mais personalizadas. Por exemplo, o GPS pode informar a rua exata onde você deve virar à esquerda.
O Text to Speech pode ajudar os usuários a se comunicarem em diversos idiomas, como por meio de um aplicativo como o Google Tradutor. Esse tipo de recurso de aplicativo pode traduzir áudio de um idioma para outro, o que pode ser utilizado para dublar conteúdo de vídeo. Isso pode ajudar a expor os aprendizes de idiomas à voz natural, o que pode ajudá-los a entender como diversas palavras são pronunciadas.
À medida que a tecnologia TTS avança, pode ser utilizada para reduzir custos na produção de mídia. Por exemplo, a tecnologia pode gerar comentários e narração em videogames, bem como dublagens para os personagens. Alguns estúdios trabalham com dubladores humanos para ajudar a melhorar o desempenho de suas vozes de IA.
As Organizações de saúde utilizam a tecnologia Text to Speech para se comunicarem com os pacientes de maneira acessível. Isso inclui adicionar versões em áudio de conteúdo e literatura postados em suas páginas da web ou mídias sociais. Algumas instituições também adicionam instruções guiadas por áudio sobre como usar determinados dispositivos médicos. As interfaces de voz generativas impulsionadas por IA também podem ajudar a lembrar os pacientes das próximas consultas por meio de chamadas ou alertá-los sobre notícias ou atualizações em seus prontuários. Isso pode ser especialmente importante para pacientes com deficiência visual, problemas na fala, limitações de mobilidade e dificuldades de aprendizado.
1 Tecnologia de Text to Speech (síntese de voz), American National Standards Institute, 7 de dezembro de 2015
O IBM Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagens, código, séries temporais e proteções.
Descubra como o processamento de linguagem natural pode ajudar você a conversar de forma mais natural com computadores.
Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.
Explore o site do desenvolvedor da IBM para acessar blogs, artigos, boletins informativos e saber mais sobre a IA incorporável da IBM.
Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.
Projete assistentes e agentes de IA escaláveis com facilidade, automatize tarefas repetitivas e simplifique processos complexos com o IBM® watsonx Orchestrate.
Acelere o valor comercial da inteligência artificial com um portfólio poderoso e flexível de bibliotecas, serviços e aplicativos.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.