Início

topics

Reconhecimento de fala

O que é reconhecimento de fala?
Explore a solução de reconhecimento de fala da IBM Inscreva-se para receber atualizações sobre IA
Ilustração com colagem de pictogramas de nuvens, gráfico de pizza, pictogramas de gráficos a seguir
O que é reconhecimento de fala?

Reconhecimento de fala, também conhecido como reconhecimento automático de fala (ASR), reconhecimento de fala por computador ou speech-to-text, é uma capacidade que permite a um programa processar a fala humana em um formato escrito.

Embora o reconhecimento de fala costume ser confundido com o reconhecimento de voz, o reconhecimento de fala se concentra na tradução da fala de um formato verbal para um texto, enquanto o reconhecimento de voz busca apenas identificar a voz de um usuário específico.

A IBM desempenhou um papel importante no reconhecimento de fala desde o início, lançando o “Shoebox” em 1962. Esta máquina tinha a capacidade de reconhecer 16 palavras diferentes, avançando o trabalho inicial realizado pelos Laboratórios Bell na década de 1950. No entanto, a IBM não parou por aí e continuou a inovar ao longo dos anos, lançando a aplicação VoiceType Simply Speaking em 1996. Este software de reconhecimento de fala tinha um vocabulário de 42.000 palavras, suportava inglês e espanhol e incluía um dicionário ortográfico de 100.000 palavras.

Embora a tecnologia de fala tivesse um vocabulário limitado nos primeiros dias, hoje ela é utilizada em diversos setores, como automotivo, tecnologia e saúde. Sua adoção só tem acelerado nos últimos anos devido aos avanços em deep learning e big data.Pesquisas (link fora de ibm.com) mostram que esse mercado deve valer USD 24,9 bilhões até 2025.

Aprenda e opere o Presto

Explore o ebook gratuito de O'Reilly ebook para aprender como começar a usar o Presto, o mecanismo SQL de código aberto para análise de dados.

Conteúdo relacionado Cadastre-se para receber o guia sobre modelos de base
Características principais do reconhecimento de fala eficaz

Muitos aplicativos e dispositivos de reconhecimento de fala estão disponíveis, mas as soluções mais avançadas usam IA e aprendizado de máquina. Elas integram gramática, sintaxe, estrutura e composição de sinais de áudio e voz para entender e processar a fala humana. Idealmente, elas aprendem conforme são utilizadas, evoluindo suas respostas a cada interação.

Os melhores sistemas também permitem que as organizações personalizem e adaptem a tecnologia às suas necessidades específicas, desde linguagem e nuances da fala até o reconhecimento da marca. Por exemplo:

  • Ponderação de linguagem: melhora a precisão ao ponderar palavras específicas que são faladas com frequência (como nomes de produtos ou jargão do setor), além dos termos já presentes no vocabulário base.
  • Rotulagem de locutores: produz uma transcrição que cita ou marca as contribuições de cada locutor em uma conversa com vários participantes.
  • Treinamento acústico: atende ao lado acústico dos negócios. Treine o sistema para se adaptar a um ambiente acústico (como o ruído de fundo em uma central de atendimento) e aos estilos dos locutores (como tom de voz, volume e ritmo).
  • Filtro de palavrões: use filtros para identificar certas palavras ou frases e higienizar a produção de fala.

Enquanto isso, o reconhecimento de fala continua avançando. Empresas, como a IBM, estão fazendo progressos em várias áreas para melhorar a interação entre humanos e máquinas.

 

Algoritmos de reconhecimento de fala

As peculiaridades da fala humana tornaram o desenvolvimento dessa tecnologia desafiador. É considerada uma das áreas mais complexas da ciência da computação. envolvendo linguística, matemática e estatística. Os sistemas de reconhecimento de fala são compostos por alguns componentes, como inputs de fala, extração de características, vetores de características, um decodificador e produção de palavras. O decodificador utiliza modelos acústicos, um dicionário de pronúncia e modelos de linguagem para determinar a produção apropriada.

A tecnologia de reconhecimento de fala é avaliada por sua taxa de precisão, ou seja, taxa de erro de palavras (WER). Diversos fatores podem impactar a taxa de erro de palavras, como pronúncia, sotaque, tom, volume e ruído de fundo. Alcançar a paridade com os humanos (significando uma taxa de erro equivalente à de dois humanos conversando) tem sido o objetivo dos sistemas de reconhecimento de fala. Pesquisas de Lippmann (link fora de ibm.com) estimam que a taxa de erro de palavras seja em torno de 4%, mas tem sido difícil replicar os resultados desse estudo.

Vários algoritmos e técnicas de computação são usados para converter fala em texto e melhorar a precisão da transcrição. Abaixo estão breves explicações de alguns dos métodos mais utilizados:

  • Processamento de linguagem natural (NLP): embora o NLP não seja necessariamente um algoritmo específico usado no reconhecimento de fala, é a área da inteligência artificial que foca na interação entre humanos e máquinas por meio da linguagem, seja falada ou escrita. Muitos dispositivos móveis incorporam o reconhecimento de fala em seus sistemas para realizar buscas por voz (por exemplo, Siri) ou para oferecer mais acessibilidade em mensagens de texto.
  • Modelos de Markov ocultos (HMM): os modelos de Markov ocultos são baseados no modelo de cadeia de Markov, que estipula que a probabilidade de um estado dado depende do estado atual, e não de estados anteriores. Enquanto o modelo de cadeia de Markov é útil para eventos observáveis, como inputs de texto, os modelos de Markov ocultos permitem incorporar eventos ocultos, como rótulos de partes da fala, em um modelo probabilístico. Eles são usados como modelos de sequência no reconhecimento de fala, atribuindo rótulos a cada unidade (por exemplo, palavras, sílabas, frases etc.) na sequência. Esses rótulos criam um mapeamento com o input fornecido, permitindo que ele determine a sequência de rótulos mais apropriada.
  • N-gramas: este é o tipo mais simples de modelo de linguagem (LM), que atribui probabilidades a sentenças ou frases. Um N-grama é uma sequência de N palavras. Por exemplo, "peça a pizza" é um trigrama ou 3-gramas e "por favor, peça pizza" é 4-gramas. Gramática e a probabilidade de certas sequências de palavras são usadas para melhorar o reconhecimento e a precisão.
  • Redes neurais: utilizadas principalmente para algoritmos de aprendizado profundo, as redes neurais processam dados de treinamento imitando a interconectividade do cérebro humano por meio de camadas de nós. Cada nó é composto por entradas, pesos, um viés (ou limiar) e uma produção. Se o valor da produção exceder um determinado limiar, ele "dispara" ou ativa o nó, passando dados para a próxima camada na rede. As redes neurais aprendem essa função de mapeamento por meio do aprendizado supervisionado, ajustando-se com base na função de perda através do processo de gradiente descendente. Embora as redes neurais tendam a ser mais precisas e possam aceitar mais dados, isso vem com um custo de eficiência de desempenho, pois elas tendem a ser mais lentas no treinamento em comparação com os modelos de linguagem tradicionais.
  • Diarização de locutores (SD): algoritmos de diarização de locutores identificam e segmentam a fala pela identidade do locutor. Isso ajuda os programas a distinguir melhor as pessoas em uma conversa e é frequentemente aplicado em centrais de atendimento para distinguir entre clientes e agentes de vendas.
Casos de uso do reconhecimento de fala

Diversos setores estão utilizando diferentes aplicações de tecnologia de fala hoje, ajudando empresas e consumidores a economizar tempo e até salvar vidas. Veja alguns exemplos:

Setor automotivo: sistemas de reconhecimento de fala melhoram a segurança do motorista ao permitir sistemas de navegação ativados por voz e capacidades de busca em rádios automotivos.

Tecnologia: agentes virtuais estão se integrando cada vez mais em nossas vidas diárias, especialmente em nossos dispositivos móveis. Usamos comandos de voz para acessá-los através de nossos smartphones, como pelo Google Assistente ou Siri da Apple, para tarefas como busca por voz, ou por meio de nossos alto-falantes, via Alexa da Amazon ou Cortana da Microsoft, para tocar música. Eles continuarão se integrando aos produtos do cotidiano que usamos, impulsionando o movimento da “Internet das coisas”.

Saúde: médicos e enfermeiros utilizam aplicações de ditado para capturar e registrar diagnósticos de pacientes e notas de tratamento.

Vendas: a tecnologia de reconhecimento de fala tem algumas aplicações em vendas. Pode ajudar uma central de atendimento a transcrever milhares de chamadas entre clientes e agentes para identificar padrões e problemas comuns nas ligações. Chatbots de IA também podem conversar com pessoas via uma página da web, respondendo a perguntas comuns e resolvendo solicitações básicas sem a necessidade de esperar por um agente do centro de atendimento. Em ambos os casos, os sistemas de reconhecimento de fala ajudam a reduzir o tempo de resolução de problemas dos consumidores.

Segurança: à medida que a tecnologia se integra em nossas vidas diárias, os protocolos de segurança se tornam uma prioridade crescente. A autenticação baseada em voz adiciona um nível viável de segurança.

Soluções relacionadas
IBM® Watson Speech to Text

Converta fala em texto usando reconhecimento de fala e transcrição impulsionados por IA.

Explore o Watson Speech to Text
IBM Watson Text to Speech

Converta texto em fala natural em uma variedade de idiomas e vozes.

Explore o IBM Watson Text to Speech
Soluções IBM Cloud Pak

Software de nuvem híbrida impulsionado por IA.

Explore as soluções Cloud Pak
Recursos Descubra como a tecnologia IBM Watson Speech to Text usa reconhecimento de fala e transcrição baseados em IA.

Habilite transcrição de fala em vários idiomas para uma variedade de casos de uso, incluindo autoatendimento ao cliente, assistência a agentes, análise de fala e outros.

IBM Cloud Paks: um caminho para a transformação digital

Saiba como acompanhar, repensar o uso de tecnologias como nuvem, IA e automação para acelerar a inovação e atender às expectativas em evolução dos clientes.

Dê o próximo passo

O IBM watsonx Assistant ajuda as organizações a oferecer experiências melhores aos clientes com um chatbot de IA que entende a linguagem dos negócios, vincula-se aos sistemas de atendimento ao cliente existentes e é implementado em qualquer lugar com segurança e escalabilidade corporativas. O watsonx Assistant automatiza tarefas repetitivas e usa aprendizado de máquina para resolver problemas de suporte ao cliente de forma rápida e eficiente.

Explore o watsonx Assistant Agende uma demonstração em tempo real