2021

Tornando a fala artificial mais expressiva, natural e controlável

Compartilhe:

“Você disse que queria reservar um voo para Austin ou Boston?”

Até o ser humano às vezes teria dificuldade para diferenciar os nomes destas duas cidades. Eles soam muito parecidos. A Inteligência Artificial (IA) em um diálogo com uma pessoa também poderia facilmente se enganar.

A tecnologia de síntese de fala presente nos assistentes virtuais por voz poderia ajudar, ao imitar o tipo de expressividade que os humanos exibem naturalmente quando se comunicam entre si. Um artigo publicado recentemente pelo time de IBM Research [1] descreve um sistema desenvolvido pela IBM que pode enfatizar ou ressaltar certas palavras para melhorar a expressividade de uma frase, como acontece com a palavra “excelente” nesta sentença: “Essa é uma excelente ideia!”. Ou ainda ajudar com a ambiguidade existente em casos como o da similaridade entre as palavras Austin e Boston.

Essa é só uma das inovações na tecnologia de síntese de sequência a sequência (S2S). Parte da colaboração entre a equipe de IBM Research que trabalha com Inteligência Artificial para Text to Speech (Texto para Fala) o time de IBM Watson tem como objetivo levar essa funcionalidade de expressividade para o serviço IBM Watson Text to Speech (TSS). Nos últimos anos, o TTS atingiu um alto nível de performance com a introdução de arquiteturas neurais profundas de sequência a sequência, que proporcionam resultados de alta qualidade e que estão se aproximando do mesmo grau de percepção da fala natural.

A ideia principal é simples: se afastar de uma abordagem clássica que une vários módulos desenvolvidos de forma independente em um único modelo que treina todos os componentes de um extremo a outro. Essa escolha é efetiva, mas tem um custo. Uma vez que os diferentes componentes não são mais responsáveis por uma função específica, fica difícil intervir no processo de síntese para controlar um aspecto particular de saída.


Para resolver esse problema, a equipe da IBM propõe utilizar uma variante de múltiplos speakers baseada na arquitetura Tacotron-2 [2], que consiste em um codificador e um decodificador mediado por um mecanismo de atenção. Esse modelo-base utiliza uma representação da entrada de texto, além de alguns conhecimentos sobre a identidade do locutor, e os codifica mediante uma combinação de redes recorrentes convolucional e bidirecional. A sequência codificada é então enviada ao decodificador espectral que consulta um módulo de atenção para averiguar como alinhar a entrada codificada com as características acústicas da forma de onda de saída.

A estratégia da equipe para introduzir controlabilidade no sistema é simples. Sabemos que para ressaltar algumas palavras, os locutores tendem a se desviar do resto da frase em termos de propriedades prosódicas acústicas, como a velocidade da fala e a frequência fundamental.

Vejamos, por exemplo, a frase que poderia surgir em um diálogo com uma assistente: “Não entendi muito bem. Você disse que seu nome era Greg ou Craig?”. Se isso fosse um diálogo entre humanos, o locutor poderia transmitir a incerteza da situação ao aumentar o volume e o tom das palavras ressaltadas, articulando-as de forma mais clara e lenta, podendo até adicionar algumas pausas breves, porém perceptíveis.

Para que o sistema de síntese de fala faça o mesmo, a equipe expôs o modelo durante o treinamento de uma série de parâmetros acústicos prosódicos, extraídos dos resultados das formas de onda de treinamento. Isto deu ao sistema a oportunidade de associar essas entradas prosódicas com uma ênfase na saída. Durante a inferência, quando essas medidas não estavam disponíveis, um sistema preditivo treinado os completava separadamente. Para igualar o nível de ênfase desejado, o valor desses controles prosódicos poderia ser aumentado por padrões ou por compensações adicionais fornecidas pelo usuário.

Equipar os assistentes de voz com estas capacidades expressivas poderia ajudar a torná-los “mais humanos”, e também proporcionar um mecanismo mais eficiente de interação e uma experiência de usuário mais agradável.

*Caso queira saber mais detalhes sobre o treinamento e o trabalho dos pesquisadores, você pode encontrar mais detalhes e exemplos aqui .

[1] ” Estratégias supervisionadas e não supervisionadas para controlar o vocabulário estreito nas análises de fala sequência a sequência 

[2] Descrita em “Natural TTS synthesis by conditioning Wavenet on MEL spectrogram predictions”. J. Shen, R. R. Pang, R.J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-Ryan, R.A. Saurous, Y. Agiomyrgiannakis, and Y. Wu, “Natural TTS synthesis by conditioning Wavenet on MEL spectrogram predictions,” in Proc. ICASSP, Calgary, Canada, 2018, pp. 4779-4783.

Comunicação IBM
Juliana Setembro
E-mail: jcayres@br.ibm.com


Assessoria de imprensa IBM
Weber Shandwick
E-mail:  ibmbrasil@webershandwick.com

Leia mais sobre
By comunica@br.ibm.com on 15 de junho de 2021

Pesquisa IBM: Confiança digital induzida pela pandemia cria efeitos colaterais persistentes na segurança

As pessoas criaram em média 17 novas contas durante a pandemia, de acordo com a pesquisa, e 82% das senhas são reutilizadas em várias de suas contas.

Continuar lendo

By comunica@br.ibm.com on 10 de junho de 2021

Desafios e oportunidades do nosso futuro Quântico

O mundo está à beira de outra revolução computacional que será impulsionada pela convergência de tecnologias poderosas: computação de alto desempenho, IA e computação quântica.

Continuar lendo

By comunica@br.ibm.com on 9 de junho de 2021

10 razões pelas quais as empresas devem modernizar aplicações

Em geral, os objetivos da modernização de aplicações são reduzir custos, ser mais ágil e fornecer melhores experiências ao usuário.

Continuar lendo