Reconhecimento de fala

menu icon

Reconhecimento de fala

Saiba mais sobre o histórico do reconhecimento de fala e suas várias aplicações no mundo hoje

O que é reconhecimento de fala?

O reconhecimento de fala, também conhecido como Automatic Speech Recognition (ASR), reconhecimento de fala por computador ou fala para texto, é uma capacidade que permite que um programa processe a fala humana em um formato escrito. Embora seja comumente confundido com o reconhecimento de voz, o reconhecimento de fala se concentra na conversão da fala de um formato verbal para um texto, enquanto o reconhecimento de voz procura apenas identificar a voz de um usuário individual.

A IBM teve um papel proeminente no reconhecimento de fala desde o seu início, com o lançamento do “Shoebox” em 1962. Essa máquina tinha a capacidade de reconhecer 16 palavras diferentes, avançando no trabalho inicial da Bell Labs da década de 1950. No entanto, a IBM não parou por aí, mas continuou a inovar ao longo dos anos, lançando o aplicativo VoiceType Simply Speaking em 1996. Este software de reconhecimento de fala tinha um vocabulário de 42.000 palavras, suporte para inglês e espanhol e incluía um dicionário ortográfico de 100.000 palavras. Embora a tecnologia da fala tivesse um vocabulário limitado no início, atualmente ela é utilizada em um grande número setores de mercado, como automotivo, tecnologia e assistência médica. Sua adoção só continuou a se acelerar nos últimos anos devido aos avanços no deep learning e no big data. A Pesquisa (link externo à IBM) mostra que esse mercado deve movimentar USD 24,9 bilhões em 2025.

Recursos principais do reconhecimento de fala efetivo

Muitos aplicativos e dispositivos de reconhecimento de fala estão disponíveis, mas as soluções mais avançadas usam AI e machine learning. Eles integram gramática, sintaxe, estrutura e composição de sinais de áudio e voz para compreender e processar a fala humana. Idealmente, eles aprendem à medida que avançam, evoluindo as respostas a cada interação.

O melhor tipo de sistema também permite que as organizações personalizem e adaptem a tecnologia aos seus requisitos específicos, desde o idioma e as nuances da fala até o reconhecimento da marca. Por exemplo:

  • Ponderação do idioma: Melhorar a precisão, ponderando palavras específicas que são faladas com frequência (como nomes de produtos ou jargões do mercado), além de termos já no vocabulário de base.
  • Legendagem do locutor: produza uma transcrição que cite ou marque as contribuições de cada locutor para uma conversa com vários participantes.
  • Treinamento de acústica: cuide do lado acústico do negócio. Treine o sistema para se adaptar a um ambiente acústico (como o ruído ambiente em uma central de atendimento) e estilos de locutores (como tom de voz, volume e ritmo).
  • Filtragem de palavrões: use filtros para identificar certas palavras ou frases e limpar o resultado de fala.

Enquanto isso, o reconhecimento de fala continua avançando. Empresas, como a IBM, estão fazendo incursões em várias áreas, para melhorar a interação humana e de máquina.

Algoritmos de reconhecimento de fala

Os caprichos da fala humana tornaram o desenvolvimento um desafio. É considerada uma das áreas mais complexas da ciência da computação, envolvendo linguística, matemática e estatística. Os reconhecedores de fala são compostos de alguns componentes, como a entrada de voz, extração de recursos, vetores de recursos, um decodificador e uma saída de palavras. O decodificador potencializa modelos acústicos, um dicionário de pronúncia e modelos de idioma para determinar a saída apropriada.

A tecnologia de reconhecimento de fala é avaliada em sua taxa de precisão, ou seja, taxa de erro de palavra (WER) e velocidade. Uma série de fatores pode impactar a taxa de erro de palavras, como pronúncia, sotaque, densidade, volume e ruído de plano de fundo. Alcançar a paridade humana, o que significa uma taxa de erro equivalente à de dois humanos falando, tem sido o objetivo dos sistemas de reconhecimento de fala há muito tempo. A Research from Lippmann (link externo à IBM) (PDF, 344 KB) estima a taxa de erro de palavras em cerca de 4%, mas tem sido difícil replicar os resultados deste artigo.

Veja maissobre como a IBM fez progressos a esse respeito, alcançando recordes do setor no campo de reconhecimento de fala.

Diversos algoritmos e técnicas de computação são usados para reconhecer a fala em texto e melhorar a precisão da transcrição. A seguir estão breves explicações de alguns dos métodos mais usados:

  • Natural Language Processing (NLP): embora o NLP não seja necessariamente um algoritmo específico usado no reconhecimento de fala, é a área de inteligência artificial que se concentra na interação entre humanos e máquinas por meio da linguagem através da fala e do texto. Muitos dispositivos móveis incorporam reconhecimento de voz em seus sistemas para realizar procuras por voz, por exemplo, a Siri, ou para fornecer mais acessibilidade com relação às mensagens de texto.
  • Modelos de markov ocultos (HMM): modelos ocultos de markov criam o modelo de cadeia de Markov, que estipula que a probabilidade de um determinado estado depende do estado atual, não de seus estados anteriores. Enquanto um modelo de cadeia de Markov é útil para eventos observáveis, como entradas de texto, os modelos de markov ocultos nos permitem incorporar eventos ocultos, como marcações de parte de fala, em um modelo probabilístico. Eles são utilizados como modelos de sequência no reconhecimento de fala, atribuindo rótulos a cada unidade, ou seja, palavras, sílabas, frases etc., na sequência. Estas etiquetas criam um mapeamento com a entrada fornecida, permitindo que ele determine a sequência de rótulo mais adequada.
  • N-grams: este é o tipo mais simples de modelo de linguagem (LM), que atribui probabilidades a sentenças ou frases. Um N-gram é sequência de N-words. Por exemplo, "order the pizza" é um trigrama ou 3-gram e "please order a pizza" é um 4-gram. Gramática e a probabilidade de certas sequências de palavras são usadas para melhorar o reconhecimento e a precisão.
  • Redes neurais: primariamente alavancado para algoritmos de deep learning, as redes neurais processam dados de treinamento mimetizando a interconectividade do cérebro humano através de camadas de nós. Cada nó é composto de entradas, pesos, um viés (ou limite) e uma saída. Se esse valor de saída exceder um determinado limite, ele "dispara" ou ativa o nó, passando dados para a camada seguinte na rede. As redes neurais aprendem essa função de mapeamento por meio do aprendizado supervisionado, ajustando-se com base na função de perda por meio do processo de descida do gradiente.Embora as redes neurais tendam a ser mais precisas e possam aceitar mais dados, isso tem um custo de eficiência de desempenho, visto que tendem a ser mais lentas para treinar em comparação com os modelos de linguagem tradicionais.
  • Diarização do locutor (SD): os algoritmos de diarização do locutor identificam e segmentam a fala pela identidade do locutor. Isso ajuda os programas a distinguir melhor os indivíduos em uma conversa e é frequentemente aplicado em call centers, distinguindo clientes e agentes de vendas.

Veja noblog do Watsoncomo a IBM potencializa os modelos SD em seus serviços de fala para texto.

Casos de uso de reconhecimento de fala

Um grande número de setores de mercado está utilizando atualmente diferentes aplicações de tecnologia de fala, ajudando empresas e consumidores a economizar tempo e até mesmo salvar vidas. Alguns exemplos incluem:

Automotivo: os reconhecedores de fala aumentam a segurança do motorista ao capacitar sistemas de navegação ativados por voz e recursos de procura em rádios automotivos.

Tecnologia: os assistentes virtuais estão cada vez mais integrados dentro do nosso cotidiano, particularmente nos nossos dispositivos móveis. Usamos comandos de voz para acessá-los através de nossos smartphones, como por meio do Google Assistant ou da Siri da Apple, para tarefas, como busca por voz ou através de nossos locutores, via Alexa da Amazon ou Cortana da Microsoft, para tocar música. Eles continuarão se integrando aos produtos do dia a dia que usamos, alimentando o movimento da “Internet das Coisas”.

Assistência médica: médicos e enfermeiras usam aplicativos de ditado para capturar e registrar diagnósticos de pacientes e anotações de tratamento.

Vendas: a tecnologia de reconhecimento de fala tem algumas aplicações em vendas. Pode ajudar uma central de atendimento a transcrever milhares de chamadas telefônicas entre clientes e agentes para identificar padrões e problemas comuns de atendimento. Os robôs cognitivos também podem falar com as pessoas por meio de uma página da web, respondendo a dúvidas comuns e resolvendo solicitações básicas sem precisar esperar que um agente da central de contato esteja disponível. Em ambas as instâncias, os sistemas de reconhecimento de fala ajudam a reduzir o tempo de resolução de problemas do consumidor.

Segurança: como a tecnologia se integra em nosso cotidiano, os protocolos de segurança são uma prioridade crescente. A autenticação com base em voz inclui um nível viável de segurança.

Saiba mais como empresas, como a Audioburst, estão aproveitando o software de reconhecimento de fala para indexar áudio de estações de rádio e podcasts em tempo real em nosso blogaqui

Reconhecimento de fala e a IBM

A IBM foi pioneira no desenvolvimento de ferramentas e serviços de reconhecimento de fala que permitem que as organizações automatizem seus processos de negócios complexos enquanto obtêm percepções de negócios essenciais.

  • IBM Watson Speech to Text é uma solução nativa em cloud que usa algoritmos de IA de deep learning para aplicar conhecimento sobre gramática, estrutura de idioma e composição de sinal de áudio/voz para criar reconhecimento de fala personalizável para a transcrição de texto ideal.
  • O IBM Watson Text to Speech gera áudio semelhante ao humano a partir de texto escrito, aumentando o engajamento e satisfação do cliente, melhorando a acessibilidade entre os idiomas e modalidades de interação.

Para obter informações adicionais sobre como começar a usar a tecnologia de reconhecimento de fala, conheça o IBM Watson Speech to Text e o IBM Watson Text to Speech.

Inscreva-se para obter um IBMid e crie sua conta IBM Cloud.