2021

Tornando a fala artificial mais expressiva, natural e controlável

Compartilhe:

“Você disse que queria reservar um voo para Austin ou Boston?”

Até o ser humano às vezes teria dificuldade para diferenciar os nomes destas duas cidades. Eles soam muito parecidos. A Inteligência Artificial (IA) em um diálogo com uma pessoa também poderia facilmente se enganar.

A tecnologia de síntese de fala presente nos assistentes virtuais por voz poderia ajudar, ao imitar o tipo de expressividade que os humanos exibem naturalmente quando se comunicam entre si. Um artigo publicado recentemente pelo time de IBM Research [1] descreve um sistema desenvolvido pela IBM que pode enfatizar ou ressaltar certas palavras para melhorar a expressividade de uma frase, como acontece com a palavra “excelente” nesta sentença: “Essa é uma excelente ideia!”. Ou ainda ajudar com a ambiguidade existente em casos como o da similaridade entre as palavras Austin e Boston.

Essa é só uma das inovações na tecnologia de síntese de sequência a sequência (S2S). Parte da colaboração entre a equipe de IBM Research que trabalha com Inteligência Artificial para Text to Speech (Texto para Fala) o time de IBM Watson tem como objetivo levar essa funcionalidade de expressividade para o serviço IBM Watson Text to Speech (TSS). Nos últimos anos, o TTS atingiu um alto nível de performance com a introdução de arquiteturas neurais profundas de sequência a sequência, que proporcionam resultados de alta qualidade e que estão se aproximando do mesmo grau de percepção da fala natural.

A ideia principal é simples: se afastar de uma abordagem clássica que une vários módulos desenvolvidos de forma independente em um único modelo que treina todos os componentes de um extremo a outro. Essa escolha é efetiva, mas tem um custo. Uma vez que os diferentes componentes não são mais responsáveis por uma função específica, fica difícil intervir no processo de síntese para controlar um aspecto particular de saída.


Para resolver esse problema, a equipe da IBM propõe utilizar uma variante de múltiplos speakers baseada na arquitetura Tacotron-2 [2], que consiste em um codificador e um decodificador mediado por um mecanismo de atenção. Esse modelo-base utiliza uma representação da entrada de texto, além de alguns conhecimentos sobre a identidade do locutor, e os codifica mediante uma combinação de redes recorrentes convolucional e bidirecional. A sequência codificada é então enviada ao decodificador espectral que consulta um módulo de atenção para averiguar como alinhar a entrada codificada com as características acústicas da forma de onda de saída.

A estratégia da equipe para introduzir controlabilidade no sistema é simples. Sabemos que para ressaltar algumas palavras, os locutores tendem a se desviar do resto da frase em termos de propriedades prosódicas acústicas, como a velocidade da fala e a frequência fundamental.

Vejamos, por exemplo, a frase que poderia surgir em um diálogo com uma assistente: “Não entendi muito bem. Você disse que seu nome era Greg ou Craig?”. Se isso fosse um diálogo entre humanos, o locutor poderia transmitir a incerteza da situação ao aumentar o volume e o tom das palavras ressaltadas, articulando-as de forma mais clara e lenta, podendo até adicionar algumas pausas breves, porém perceptíveis.

Para que o sistema de síntese de fala faça o mesmo, a equipe expôs o modelo durante o treinamento de uma série de parâmetros acústicos prosódicos, extraídos dos resultados das formas de onda de treinamento. Isto deu ao sistema a oportunidade de associar essas entradas prosódicas com uma ênfase na saída. Durante a inferência, quando essas medidas não estavam disponíveis, um sistema preditivo treinado os completava separadamente. Para igualar o nível de ênfase desejado, o valor desses controles prosódicos poderia ser aumentado por padrões ou por compensações adicionais fornecidas pelo usuário.

Equipar os assistentes de voz com estas capacidades expressivas poderia ajudar a torná-los “mais humanos”, e também proporcionar um mecanismo mais eficiente de interação e uma experiência de usuário mais agradável.

*Caso queira saber mais detalhes sobre o treinamento e o trabalho dos pesquisadores, você pode encontrar mais detalhes e exemplos aqui .

[1] ” Estratégias supervisionadas e não supervisionadas para controlar o vocabulário estreito nas análises de fala sequência a sequência 

[2] Descrita em “Natural TTS synthesis by conditioning Wavenet on MEL spectrogram predictions”. J. Shen, R. R. Pang, R.J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-Ryan, R.A. Saurous, Y. Agiomyrgiannakis, and Y. Wu, “Natural TTS synthesis by conditioning Wavenet on MEL spectrogram predictions,” in Proc. ICASSP, Calgary, Canada, 2018, pp. 4779-4783.

Comunicação IBM
Juliana Setembro
E-mail: jcayres@br.ibm.com


Assessoria de imprensa IBM
Weber Shandwick
E-mail:  ibmbrasil@webershandwick.com

Leia mais sobre
By comunica@br.ibm.com on 15 de abril de 2024

IBM: Sustentabilidade é um imperativo de negócios no Brasil, mas abordagens atuais não são suficientes

Um novo estudo global do IBM Institute for Business Value descobriu que, enquanto a maioria das organizações reconhece a sustentabilidade como importante para sua estratégia de negócios, muitas lideranças C-levels enfrentam desafios para financiar tais investimentos.

Continuar lendo

By comunica@br.ibm.com on 25 de março de 2024

O desafio Call for Code 2024 para desenvolvedores e estudantes foca na IA generativa com o objetivo de melhorar o acesso a recursos e oportunidades de comunidades vulneráveis

Clark Cause, lançou o Desafio Global Call for Code 2024 para capacitar desenvolvedores a usar tecnologia de IA generativa com o objetivo de criar soluções que visam melhorar o acesso equitativo a recursos naturais e oportunidades para pessoas  em situação de vulnerabilidade.

Continuar lendo

By comunica@br.ibm.com on 20 de março de 2024

IBM: 67% das empresas na América Latina aceleraram a implementação de IA

Uma nova pesquisa encomendada pela IBM, aponta que a América Latina teve uma forte aceleração na implementação de Inteligência Artificial (IA), nos últimos dois anos, em grandes empresas (com mais de mil funcionários).

Continuar lendo