Início
topics
Reconhecimento de fala
Reconhecimento de fala, também conhecido como reconhecimento automático de fala (ASR), reconhecimento de fala por computador ou speech-to-text, é uma capacidade que permite a um programa processar a fala humana em um formato escrito.
Embora o reconhecimento de fala costume ser confundido com o reconhecimento de voz, o reconhecimento de fala se concentra na tradução da fala de um formato verbal para um texto, enquanto o reconhecimento de voz busca apenas identificar a voz de um usuário específico.
A IBM desempenhou um papel importante no reconhecimento de fala desde o início, lançando o “Shoebox” em 1962. Esta máquina tinha a capacidade de reconhecer 16 palavras diferentes, avançando o trabalho inicial realizado pelos Laboratórios Bell na década de 1950. No entanto, a IBM não parou por aí e continuou a inovar ao longo dos anos, lançando a aplicação VoiceType Simply Speaking em 1996. Este software de reconhecimento de fala tinha um vocabulário de 42.000 palavras, suportava inglês e espanhol e incluía um dicionário ortográfico de 100.000 palavras.
Embora a tecnologia de fala tivesse um vocabulário limitado nos primeiros dias, hoje ela é utilizada em diversos setores, como automotivo, tecnologia e saúde. Sua adoção só tem acelerado nos últimos anos devido aos avanços em deep learning e big data.Pesquisas (link fora de ibm.com) mostram que esse mercado deve valer USD 24,9 bilhões até 2025.
Explore o ebook gratuito de O'Reilly ebook para aprender como começar a usar o Presto, o mecanismo SQL de código aberto para análise de dados.
Muitos aplicativos e dispositivos de reconhecimento de fala estão disponíveis, mas as soluções mais avançadas usam IA e aprendizado de máquina. Elas integram gramática, sintaxe, estrutura e composição de sinais de áudio e voz para entender e processar a fala humana. Idealmente, elas aprendem conforme são utilizadas, evoluindo suas respostas a cada interação.
Os melhores sistemas também permitem que as organizações personalizem e adaptem a tecnologia às suas necessidades específicas, desde linguagem e nuances da fala até o reconhecimento da marca. Por exemplo:
Enquanto isso, o reconhecimento de fala continua avançando. Empresas, como a IBM, estão fazendo progressos em várias áreas para melhorar a interação entre humanos e máquinas.
As peculiaridades da fala humana tornaram o desenvolvimento dessa tecnologia desafiador. É considerada uma das áreas mais complexas da ciência da computação. envolvendo linguística, matemática e estatística. Os sistemas de reconhecimento de fala são compostos por alguns componentes, como inputs de fala, extração de características, vetores de características, um decodificador e produção de palavras. O decodificador utiliza modelos acústicos, um dicionário de pronúncia e modelos de linguagem para determinar a produção apropriada.
A tecnologia de reconhecimento de fala é avaliada por sua taxa de precisão, ou seja, taxa de erro de palavras (WER). Diversos fatores podem impactar a taxa de erro de palavras, como pronúncia, sotaque, tom, volume e ruído de fundo. Alcançar a paridade com os humanos (significando uma taxa de erro equivalente à de dois humanos conversando) tem sido o objetivo dos sistemas de reconhecimento de fala. Pesquisas de Lippmann (link fora de ibm.com) estimam que a taxa de erro de palavras seja em torno de 4%, mas tem sido difícil replicar os resultados desse estudo.
Vários algoritmos e técnicas de computação são usados para converter fala em texto e melhorar a precisão da transcrição. Abaixo estão breves explicações de alguns dos métodos mais utilizados:
Diversos setores estão utilizando diferentes aplicações de tecnologia de fala hoje, ajudando empresas e consumidores a economizar tempo e até salvar vidas. Veja alguns exemplos:
Setor automotivo: sistemas de reconhecimento de fala melhoram a segurança do motorista ao permitir sistemas de navegação ativados por voz e capacidades de busca em rádios automotivos.
Tecnologia: agentes virtuais estão se integrando cada vez mais em nossas vidas diárias, especialmente em nossos dispositivos móveis. Usamos comandos de voz para acessá-los através de nossos smartphones, como pelo Google Assistente ou Siri da Apple, para tarefas como busca por voz, ou por meio de nossos alto-falantes, via Alexa da Amazon ou Cortana da Microsoft, para tocar música. Eles continuarão se integrando aos produtos do cotidiano que usamos, impulsionando o movimento da “Internet das coisas”.
Saúde: médicos e enfermeiros utilizam aplicações de ditado para capturar e registrar diagnósticos de pacientes e notas de tratamento.
Vendas: a tecnologia de reconhecimento de fala tem algumas aplicações em vendas. Pode ajudar uma central de atendimento a transcrever milhares de chamadas entre clientes e agentes para identificar padrões e problemas comuns nas ligações. Chatbots de IA também podem conversar com pessoas via uma página da web, respondendo a perguntas comuns e resolvendo solicitações básicas sem a necessidade de esperar por um agente do centro de atendimento. Em ambos os casos, os sistemas de reconhecimento de fala ajudam a reduzir o tempo de resolução de problemas dos consumidores.
Segurança: à medida que a tecnologia se integra em nossas vidas diárias, os protocolos de segurança se tornam uma prioridade crescente. A autenticação baseada em voz adiciona um nível viável de segurança.
Converta fala em texto usando reconhecimento de fala e transcrição impulsionados por IA.
Converta texto em fala natural em uma variedade de idiomas e vozes.
Software de nuvem híbrida impulsionado por IA.
Habilite transcrição de fala em vários idiomas para uma variedade de casos de uso, incluindo autoatendimento ao cliente, assistência a agentes, análise de fala e outros.
Saiba como acompanhar, repensar o uso de tecnologias como nuvem, IA e automação para acelerar a inovação e atender às expectativas em evolução dos clientes.