Speech to text é o processo de converter palavras faladas em uma transcrição de texto. Às vezes chamado de voz para texto, ele está disponível principalmente como um serviço baseado em software (SaaS).
Geralmente, combina a tecnologia de reconhecimento de fala impulsionada por inteligência artificial, também conhecida como reconhecimento automático de fala, com transcrição. Um programa de computador capta áudio em forma de vibrações de ondas sonoras e utiliza algoritmos linguísticos para converter o input de áudio em caracteres digitais, palavras e frases.
O aprendizado de máquina, deep learning e os grandes modelos de linguagem, como o Generative Pre-Trained Transformer (GPT) da OpenAI, tornaram os softwares de Speech to Text mais avançados e eficientes, pois conseguem identificar padrões na linguagem falada a partir de um grande volume de amostras de áudio e texto.
A IA generativa pode ser integrada ao software de Speech to Text para criar assistentes que podem ajudar os clientes durante uma chamada telefônica ou interagir com aplicativos habilitados para voz. A IA generativa também pode converter texto de volta em fala, também conhecido como text to speech, em uma voz realista e natural.
O software de Speech to Text contém vários componentes. Estes incluem:
Input de fala: onde um microfone captura as palavras faladas
Extração de características: onde o computador identifica tons e padrões distintos na fala)
Decodificador: onde o algoritmo combina as funcionalidades de fala com caracteres e palavras por meio de um modelo de linguagem
Produção de palavras: onde o texto final é formatado com a pontuação e letras maiúsculas corretas para que seja legível por humanos
Geralmente, o processo de speech to text é composto pelas seguintes etapas:
Pré-processamento de áudio: depois que as gravações de áudio são capturadas, elas são pré-processadas para melhorar a qualidade e a precisão do reconhecimento. Isso inclui a remoção de ruídos de fundo e frequências irrelevantes, a estabilização do nível de volume, a segmentação do clipe para facilitar o processamento e a conversão do arquivo de áudio para um formato padrão.
Análise de som e extração de características: os sinais de voz são frequentemente representados como espectrogramas (link externo ao site ibm.com), que são representações visuais das frequências ao longo do tempo.1 As partes relevantes das gravações de áudio são divididas em uma sequência de fonemas, que são as menores unidades da fala capazes de diferenciar uma palavra de outra. As principais classes de fonemas são vogais e consoantes (link externo ao site ibm.com).2 Modelos de linguagem e decodificadores podem associar fonemas a palavras e, em seguida, formar sentenças. Modelos acústicos baseados em deep learning conseguem prever quais caracteres e palavras são mais prováveis de aparecer em seguida, com base no contexto.
Existem três métodos principais para realizar o reconhecimento de fala: síncrono, assíncrono e em streaming.
O reconhecimento síncrono ocorre quando há uma conversão imediata de Speech to Text. Ele só pode processar arquivos de áudio com menos de um minuto. É usado em legendas ao vivo para transmissão de televisão.
Reconhecimento por streaming ocorre quando o áudio transmitido é processado em tempo real, permitindo que textos fragmentados apareçam enquanto o usuário ainda está falando.
O reconhecimento assíncrono ocorre quando grandes arquivos de áudio pré-gravados são enviados para transcrição. Pode ser enfileirado para processamento e entregue mais tarde.
Empresas como o Google3 (link externo ao site ibm.com), Microsoft4 (link externo ao site ibm.com), Amazon5 (link externo ao site ibm.com) e IBM, oferecem softwares Speech to Text como APIs baseadas em nuvem, permitindo sua integração com outras aplicações, ferramentas e dispositivos.
Os iPhones da Apple possuem uma funcionalidade de ditado (link externo ao site ibm.com), que integra a tecnologia de fala para texto incorporada ao iOS.6 Usuários de Android podem baixar aplicativos como o Gboard (link externo ao site ibm.com) para funções de fala para texto. Alguns dispositivos de pixel permitem que os usuários digitem com voz através do Assistente.7 Há várias opções de software de speech to text de código aberto e proprietário.
No início de sua evolução, o software de reconhecimento de voz dependia de um banco de vocabulário limitado. Sua recente adoção em setores como automotivo e saúde foi impulsionada por avanços em ciência de dados, deep learning e inteligência artificial.
Na década de 1950, os Laboratórios Bell desenvolveram o primeiro sistema de reconhecimento de voz (link externo ao site ibm.com), chamado AUDREY, que era capaz de reconhecer números falados.8Em seguida, a IBM criou o Shoebox em 1962, que poderia reconhecer números e 16 palavras diferentes.
Durante essas décadas (link externo ao site ibm.com), cientistas da computação desenvolveram modelos para reconhecimento de fonemas e modelos estatísticos, como os Modelos Ocultos de Markov, que continuam sendo algoritmos amplamente utilizados no reconhecimento de fala.9Por volta da década de 1970, o programa HARPY da Carnegie Mellon permitiu que computadores reconhecessem 1.000 palavras.
Na década de 1980, o sistema de transcrição Tangora da IBM utilizava métodos estatísticos para reconhecer até 20.000 palavras. Ele foi usado na primeira transcrição ativada por voz para trabalhadores de escritório e lançou as bases para os softwares modernos de conversão de fala para texto. Esse tipo de software continuou sendo desenvolvido e aprimorado até sua comercialização nos anos 2000.
Com o surgimento dos algoritmos de aprendizado de máquina e deep learning, os modelos estatísticos foram substituídos, melhorando a precisão do reconhecimento e possibilitando a ampliação das aplicações. O deep learning pode capturar melhor nuances e expressões informais. Os grandes modelos de linguagem (LLMs) podem ser usados para adicionar contexto, o que é útil quando há escolhas de palavras mais ambíguas ou variações de pronúncia devido a sotaques. Com o surgimento de assistentes virtuais e alto-falantes inteligentes, eles conseguiram integrar o speech to text com grandes modelos de linguagem, processamento de linguagem natural (NLP) e outros serviços baseados na nuvem.
Modelos de deep learning de ponta a ponta, como os transformadores, são fundamentais para os modelos de linguagem de grande porte. Esses modelos são treinados com grandes conjuntos de dados não rotulados de pares de áudio e texto para aprender a associar sinais de áudio a transcrições.
Durante esse treinamento, o modelo aprende implicitamente como as palavras soam e quais palavras têm maior probabilidade de aparecer juntas em uma sequência. O modelo também pode inferir regras de gramática e estrutura linguística para aplicá-las de forma autônoma. Deep learning consolida algumas das etapas mais tediosas das técnicas tradicionais de speech to text.
Há vários casos de uso para o software de Speech to Text:
Softwares de Speech to Text podem transcrever interações com clientes automaticamente, direcionar chamadas conforme necessário, extrair insights de conversas e realizar análises de sentimentos.
Exemplo: em centrais de atendimento ao cliente, os assistentes de voz com IA podem usar speech to text para lidar com as perguntas mais fáceis e repetitivas dos clientes e direcionar solicitações mais complexas a agentes humanos.
Esses softwares podem transcrever atas de reuniões on-line ou webinars e criar legendas, títulos ou dublagens para vídeos. Também podem ser utilizados com softwares de tradução para gerar documentos transcritos em diversos idiomas. Aplicações específicas podem permitir transcrições para as áreas de saúde, jurídica e educacional.
Exemplo: a Amazon (link externo ao site ibm.com) oferece um serviço de transcrição médica que usa speech to text para transcrever conversas entre médicos e pacientes para anotações clínicas e legendar consultas de telessaúde.10
Com o processamento de linguagem natural, o reconhecimento de voz pode interpretar o significado do texto transcrito, extrair comandos praticáveis e executá-los. Isso permite que os usuários emitam comandos de voz, como fazer chamadas, realizar buscas on-line ou controlar luzes, termostatos e outros dispositivos conectados em uma casa inteligente, usando chatbots ou assistentes digitais como Alexa, Cortana, Google Assistant e Siri.
Exemplo: a Alexa da Amazon (link externo ao site ibm.com) agora está usando Speech to Text e Text to Speech para acender as luzes, ajustar a temperatura em uma determinada sala ou sugerir receitas com base em suas compras recentes de supermercado.11
Pessoas com deficiência podem usar esses aplicativos para interagir com computadores e smartphones sem precisar digitar fisicamente. Elas podem, por exemplo, ditar mensagens de texto, anotações, e-mails e muito mais.
Exemplo: alunos com dislexia ou que recentemente machucaram os braços ainda podem digitar anotações usando a voz em um computador Microsoft (link externo ao site ibm.com).12 Esse recurso é desenvolvido pelos serviços do Azure Speech.
A IA pode analisar transcrições de vídeos e clipes de áudio para identificar conteúdos inadequados e atuar como moderadora, sinalizando materiais questionáveis para avaliação humana.
Exemplo: Vatis Tech (link externo ao site ibm.com) oferece uma ferramenta que utiliza a tecnologia Speech to Text para monitorar redes sociais no marketing, ajudando marcas a identificar quando estão em alta e a compreender a intenção por trás das interações dos clientes.13
1. From Sound to Images, Part 1: A deep dive on spectrogram creation (link externo ao site ibm.com), Cornell Lab Macaulay Library, 19 de julho de 2021
2. Lecture 12: An Overview of Speech Recognition (link externo ao site ibm.com), University of Rochester Computer Science
3. Turn speech into text using Google AI (link externo ao site ibm.com), Google Cloud
4. Speech to text REST API (link externo ao site ibm.com), Microsoft
5. Amazon Transcribe API reference (link externo ao site ibm.com), AWS
6. iPhone User Guide (link externo ao site ibm.com), Apple
7. Type with your voice (link externo ao site ibm.com), Google Support
8. Audrey, Alexa, Hal, and more (link externo ao site ibm.com), Computer History Museum, 9 de junho de 2021
9. Speech Recognition: Past, Present, Future (link externo ao site ibm.com), Carnegie Mellon University Computer Science
10. Amazon Transcribe Medical (link externo ao site ibm.com), AWS
11. Alexa unveils new speech recognition, text-to-speech technologies (link externo ao site ibm.com), Amazon, 20 de setembro de 2023
12. Use voice typing to talk instead of type on your PC (link externo ao site ibm.com), Microsoft
13. Media Monitoring Intelligence - Turn any Audio to Insights (link externo ao site ibm.com), Vatis Tech
Converta a fala em texto usando reconhecimento e transcrição de fala com IA
Desenvolva seu assistente de IA com o Orchestrate para otimizar os esforços da sua equipe e recuperar seu dia.
Colabore com a IBM para integrar recursos de fala às suas soluções