O que é reconhecimento de fala?

Reconhecimento de fala, também conhecido como reconhecimento automático de fala (ASR), reconhecimento de fala por computador ou speech-to-text, é uma capacidade que permite a um programa processar a fala humana em um formato escrito.

Embora o reconhecimento de fala costume ser confundido com o reconhecimento de voz, o reconhecimento de fala se concentra na tradução da fala de um formato verbal para um texto, enquanto o reconhecimento de voz busca apenas identificar a voz de um usuário específico.

A IBM desempenhou um papel importante no reconhecimento de fala desde o início, lançando o “Shoebox” em 1962. Esta máquina tinha a capacidade de reconhecer 16 palavras diferentes, avançando o trabalho inicial realizado pelos Laboratórios Bell na década de 1950. No entanto, a IBM não parou por aí e continuou a inovar ao longo dos anos, lançando a aplicação VoiceType Simply Speaking em 1996. Este software de reconhecimento de fala tinha um vocabulário de 42.000 palavras, suportava inglês e espanhol e incluía um dicionário ortográfico de 100.000 palavras.

Embora a tecnologia de fala tivesse um vocabulário limitado nos primeiros dias, hoje ela é utilizada em diversos setores, como automotivo, tecnologia e saúde. Sua adoção só tem acelerado nos últimos anos devido aos avanços em deep learning e big data. Pesquisas mostram que esse mercado deve valer US$ 24,9 bilhões até 2025.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Características principais do reconhecimento de fala eficaz

Há muitas aplicações e dispositivos de reconhecimento de fala disponíveis, mas as soluções mais avançadas usam inteligência artificial (IA) e aprendizado de máquina. Elas integram gramática, sintaxe, estrutura e composição de sinais de áudio e voz para entender e processar a fala humana. Idealmente, elas aprendem conforme são utilizadas, evoluindo suas respostas a cada interação.

Os melhores sistemas também permitem que as organizações personalizem e adaptem a tecnologia às suas necessidades específicas, desde linguagem e nuances da fala até o reconhecimento da marca. Por exemplo:

Ponderação de linguagem: melhora a precisão ao ponderar palavras específicas que são faladas com frequência (como nomes de produtos ou jargão do setor), além dos termos já presentes no vocabulário base.
Rotulagem de locutores: produz uma transcrição que cita ou marca as contribuições de cada locutor em uma conversa com vários participantes.
Treinamento acústico: atende ao lado acústico dos negócios. Treine o sistema para se adaptar a um ambiente acústico (como o ruído de fundo em uma central de atendimento) e aos estilos dos locutores (como tom de voz, volume e ritmo).
Filtro de palavrões: use filtros para identificar certas palavras ou frases e higienizar a produção de fala.

Enquanto isso, o reconhecimento de fala continua avançando. Empresas, como a IBM, estão fazendo progressos em várias áreas para melhorar a interação entre humanos e máquinas.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Veja todos os episódios de Mixture of Experts

Algoritmos de reconhecimento de fala

As peculiaridades da fala humana tornaram o desenvolvimento dessa tecnologia desafiador. É considerada uma das áreas mais complexas da ciência da computação. envolvendo linguística, matemática e estatística. Os sistemas de reconhecimento de fala são compostos por alguns componentes, como inputs de fala, extração de características, vetores de características, um decodificador e produção de palavras. O decodificador utiliza modelos acústicos, um dicionário de pronúncia e modelos de linguagem para determinar a produção apropriada.

A tecnologia de reconhecimento de fala é avaliada por sua taxa de precisão, ou seja, taxa de erro de palavras (WER). Diversos fatores podem impactar a taxa de erro de palavras, como pronúncia, sotaque, tom, volume e ruído de fundo. Alcançar a paridade com os humanos (significando uma taxa de erro equivalente à de dois humanos conversando) tem sido o objetivo dos sistemas de reconhecimento de fala. A pesquisa de Lippmann estima que a taxa de erro de palavras seja de cerca de 4%, mas tem sido difícil replicar os resultados deste artigo.

Vários algoritmos e técnicas de computação são usados para converter fala em texto e melhorar a precisão da transcrição. Abaixo estão breves explicações de alguns dos métodos mais utilizados:

Processamento de linguagem natural (NLP): embora o NLP não seja necessariamente um algoritmo específico usado no reconhecimento de fala, é a área da inteligência artificial que foca na interação entre humanos e máquinas por meio da linguagem, seja falada ou escrita. Muitos dispositivos móveis incorporam o reconhecimento de fala em seus sistemas para realizar buscas por voz (por exemplo, Siri) ou para oferecer mais acessibilidade em mensagens de texto.
Modelos de Markov ocultos (HMM): os modelos de Markov ocultos são baseados no modelo de cadeia de Markov, que estipula que a probabilidade de um estado dado depende do estado atual, e não de estados anteriores. Enquanto o modelo de cadeia de Markov é útil para eventos observáveis, como entradas de texto, os modelos de Markov ocultos permitem incorporar eventos ocultos, como rótulos de partes da fala, em um modelo probabilístico. Eles são usados como modelos de sequência no reconhecimento de fala, atribuindo rótulos a cada unidade (por exemplo, palavras, sílabas, frases etc.) na sequência. Esses rótulos criam um mapeamento com a entrada fornecida, permitindo que determine a sequência de rótulos mais apropriada.
N-gramas: esse é o tipo mais simples de modelo de linguagem (LM), que atribui probabilidades a sentenças ou frases. Um N-grama é uma sequência de N palavras. Por exemplo, "peça a pizza" é um trigrama ou 3-gramas e "por favor, peça pizza" é 4-gramas. Gramática e a probabilidade de certas sequências de palavras são usadas para melhorar o reconhecimento e a precisão.
Redes neurais: aproveitadas principalmente para algoritmos de deep learning, as redes neurais processam dados de treinamento imitando a interconectividade do cérebro humano por meio de camadas de nós. Cada nó é composto por entradas, pesos, um viés (ou limite) e uma saída. Se o valor da saída exceder um determinado limiar, o nó é "ativado" e transmite os dados para a próxima camada da rede. As redes neurais aprendem essa função de mapeamento por meio do aprendizado supervisionado, ajustando-se com base na função de perda através do processo de gradiente descendente. Embora as redes neurais tendam a ser mais precisas e possam aceitar mais dados, isso vem com um custo de eficiência de desempenho, pois elas tendem a ser mais lentas no treinamento em comparação com os modelos de linguagem tradicionais.
Diarização de locutores (SD): algoritmos de diarização de locutores identificam e segmentam a fala pela identidade do locutor. Isso ajuda os programas a distinguir melhor as pessoas em uma conversa e é frequentemente aplicado em centrais de atendimento para distinguir entre clientes e agentes de vendas.

Casos de uso do reconhecimento de fala

Diversos setores estão utilizando diferentes aplicações de tecnologia de fala hoje, ajudando empresas e consumidores a economizar tempo e até salvar vidas. Alguns exemplos são:

Setor automotivo: sistemas de reconhecimento de fala melhoram a segurança do motorista ao permitir sistemas de navegação ativados por voz e capacidades de busca em rádios automotivos.

Tecnologia: agentes virtuais estão se integrando cada vez mais em nossas vidas diárias, especialmente em nossos dispositivos móveis. Usamos comandos de voz para acessá-los através de nossos smartphones, como pelo Google Assistente ou Siri da Apple, para tarefas como busca por voz, ou por meio de nossos alto-falantes, via Alexa da Amazon ou Cortana da Microsoft, para tocar música. Eles continuarão se integrando aos produtos do cotidiano que usamos, impulsionando o movimento da “Internet das coisas”.

Saúde: médicos e enfermeiros utilizam aplicações de ditado para capturar e registrar diagnósticos de pacientes e notas de tratamento.

Vendas: a tecnologia de reconhecimento de fala tem algumas aplicações em vendas. Pode ajudar uma central de atendimento a transcrever milhares de chamadas entre clientes e agentes para identificar padrões e problemas comuns nas ligações. Chatbots de IA também podem conversar com pessoas via uma página da web, respondendo a perguntas comuns e resolvendo solicitações básicas sem a necessidade de esperar por um agente do centro de atendimento. Em ambos os casos, os sistemas de reconhecimento de fala ajudam a reduzir o tempo de resolução de problemas dos consumidores.

Segurança: à medida que a tecnologia se integra em nossas vidas diárias, os protocolos de segurança se tornam uma prioridade crescente. A autenticação baseada em voz adiciona um nível viável de segurança.

Além da empolgação — Como assistentes de IA geram valor real para os negócios

Explore os principais casos de uso dos assistentes de IA, compreenda o impacto potencial da IA generativa e da tecnologia de automação em sua empresa e saiba como começar.

O que é reconhecimento de fala?