Speech to text es el proceso de convertir palabras habladas en una transcripción de texto. A veces denominado voz a texto, está disponible principalmente como un servicio basado en software (SaaS).
Por lo general, combina la tecnología de reconocimiento de voz impulsada por inteligencia artificial, también conocida como reconocimiento automático de voz, con la transcripción. Un programa informático capta el audio en forma de vibraciones de ondas sonoras y emplea algoritmos lingüísticos para convertir la entrada de audio en caracteres, palabras y frases digitales.
El machine learning, el aprendizaje profundo y los modelos de lenguaje grandes, como Generative Pre-Trained Transformer (GPT) de OpenAI, hicieron que el software speech to text sea más avanzado y eficiente porque puede obtener patrones en el lenguaje hablado a partir de un gran volumen de muestras de audio y texto.
La IA generativa se puede integrar con software de speech to text para crear asistentes que puedan ayudar a los clientes a través de una llamada telefónica o interactuar con aplicaciones habilitadas por voz. La IA generativa también puede convertir texto nuevamente en voz, también conocido como text to speech, con una voz realista y que suene natural.
El software de voz a texto contiene varios componentes. Estos incluyen:
Entrada de voz: un micrófono capta las palabras habladas
Extracción de características: donde la computadora identifica tonos y patrones distintivos en el habla)
Decodificador: donde el algoritmo hace coincidir las características del habla con caracteres y palabras a través de un modelo de lenguaje
Resultado de Word: donde el texto final se formatea con el puntaje y las mayúsculas correctas para que sea legible por humanos
En general, el proceso de speech to text se compone de los siguientes pasos:
Una vez capturadas las grabaciones de audio, se preprocesan para mejorar la calidad y la precisión del reconocimiento. Esto incluye eliminar los ruidos de fondo y las frecuencias irrelevantes, estabilizar el nivel de volumen, segmentar el clip para facilitar el procesamiento y convertir el archivo de audio a un formato estándar.
Las señales de voz a menudo se representan como espectrogramas, que son representaciones visuales de frecuencias a lo largo del tiempo.1 Las partes relevantes de las grabaciones de audio se dividen en una secuencia de fonemas, que son la unidad de habla más pequeña que distingue una palabra de otra. Las principales clases de fonemas son las vocales y las consonantes.2
Los modelos de lenguaje y los decodificadores pueden hacer coincidir fonemas con palabras y luego con oraciones. Los modelos acústicos basados en el aprendizaje profundo pueden predecir qué caracteres y palabras es probable que ocurran a continuación en función del contexto.
Existen tres métodos principales para realizar el reconocimiento de voz: sincrónico, asincrónico y de transmisión.
El reconocimiento sincrónico es cuando hay una conversión inmediata de speech to text. Solo puede procesar archivos de audio de menos de un minuto. Esto se emplea en subtítulos en tiempo real para transmisiones televisivas.
El reconocimiento de transmisión es cuando el audio transmitido se procesa en tiempo real, por lo que pueden aparecer textos fragmentados mientras el usuario sigue hablando.
El reconocimiento asincrónico se produce cuando se envían grandes archivos de audio pregrabados para su transcripción. Es posible que se ponga en cola para su procesamiento y se entregue más tarde.
Empresas como Google3, Microsoft4, Amazon5 e IBM® ofrecen software de voz a texto como API a través de la nube, lo que permite su uso junto con otras aplicaciones, herramientas y dispositivos.
Los iPhone de Apple tienen una función de dictado, que integra la tecnología speech to text en su iOS.6 Los usuarios de Android pueden descargar aplicaciones como Gboard para funciones speech to text. Algunos dispositivos de pixeles permiten a los usuarios escribir con voz a través del Asistente.7 Hay varias opciones para el software de speech to text de código abierto y propietario.
Al principio de su evolución, el software de reconocimiento de voz se basaba en un banco de vocabulario limitado. Su reciente adopción por parte de industrias que van desde la automotriz hasta la atención médica se vio favorecida por los avances en ciencia de datos, aprendizaje profundo e inteligencia artificial.
En la década de 1950, Bell Laboratories ideó la primera configuración de reconocimiento de voz llamada AUDREY que puede reconocer números hablados.8 Luego, a IBM se le ocurrió Shoebox en 1962, que podía reconocer números y 16 palabras diferentes.
Durante estas décadas, los científicos informáticos idearon modelos de reconocimiento de fonemas y modelos estadísticos, como los modelos ocultos de Markov, que siguen siendo algoritmos populares para el reconocimiento de voz.9 Alrededor de la década de 1970, un programa de Carnegie Mellon llamado HARPY de Carnegie Mellon permitió a las computadoras reconocer 1000 palabras.
En la década de 1980, el sistema de transcripción Tangora de IBM utilizó métodos estadísticos para reconocer hasta 20 000 palabras. Se utilizó en el primer dictado activado por voz para oficinistas y sentó las bases para el software moderno de speech to text. Este tipo de software continuó desarrollándose y mejorándose hasta que se comercializó en la década de 2000.
Cuando aparecieron los algoritmos de machine learning y de aprendizaje profundo, reemplazaron los modelos estadísticos, mejoraron la precisión del reconocimiento y permitieron ampliar las aplicaciones. El aprendizaje profundo podría capturar mejor los matices y las expresiones informales. Se pueden emplear modelos de lenguaje grandes (LLM) para agregar contexto, lo que puede ayudar cuando las elecciones de palabras son más ambiguas o si hay variaciones de acento en la pronunciación. A medida que surgieron los asistentes virtuales, pudieron integrar speech to text con modelos de lenguaje grandes, procesamiento de lenguaje natural y otros servicios basados en la nube.
Los modelos de aprendizaje profundo de extremo a extremo, como los transformadores, son fundamentales para los modelos de lenguaje grandes. Se entrenan con grandes conjuntos de datos sin etiquetar de pares de audio y texto para aprender a corresponder señales de audio con transcripciones.
Durante este entrenamiento, el modelo aprende implícitamente cómo suenan las palabras y qué palabras es probable que aparezcan juntas en una secuencia. El modelo también puede inferir reglas gramaticales y de estructura del lenguaje para aplicarlas por sí mismo. El aprendizaje profundo consolida algunos de los pasos más tediosos de las técnicas tradicionales de speech to text.
Hay varios casos de uso para el software speech to text:
El software speech to text puede transcribir automáticamente las interacciones con los clientes, enrutar llamadas según sea necesario, derivar insights de las conversaciones con los clientes y realizar análisis de sentimientos.
Ejemplo: para los centros de atención telefónica al cliente, los asistentes de voz de IA pueden speech to text para manejar las preguntas más fáciles y repetitivas de los clientes y dirigir solicitudes más complejas a los agentes humanos.
Puede transcribir actas de reuniones en línea o seminarios web y crear subtítulos, leyendas o doblajes en videos. También se puede emplear con un software de traducción para ofrecer documentos de transcripción a varios idiomas. Las aplicaciones de propósito especial pueden permitir la transcripción para aplicaciones de atención médica, legales y educativas.
Ejemplo: Amazon ofrece un servicio de transcripción médica que emplea speech to text para transcribir conversaciones de médicos y pacientes para notas clínicas y subtitular consultas de telesalud.10
A través del procesamiento de lenguaje natural, el reconocimiento de voz puede derivar el significado del texto transcrito y extraer comandos aplicables en la práctica y llevarlos a cabo. Esto puede ayudar a los usuarios a emitir comandos de voz, como hacer llamadas telefónicas, buscar en el sitio web o controlar las luces, termostatos y otros dispositivos conectados en un hogar inteligente a través de chatbots o asistentes digitales, como Alexa, Cortana, Google Assistant y Siri.
Ejemplo: Alexa de Amazon ahora emplea speech to text y text to speech para encender luces, ajustar la temperatura en una habitación determinada o sugerir recetas basadas en sus compras recientes de comestibles.11
Las personas con discapacidad pueden usar estas aplicaciones para interactuar con computadoras y teléfonos inteligentes sin tener que escribir físicamente. En su lugar, pueden dictar mensajes de texto, notas, correos electrónicos y más.
Ejemplo: los estudiantes que tienen dislexia o que recientemente se lesionaron los brazos aún pueden escribir notas usando su voz en una computadora Microsoft.12 Esta capacidad está impulsada por Azure Speech Services.
La IA puede analizar transcripciones de videos y clips de audio para buscar contenido inapropiado y actuar como moderador para marcar materiales cuestionables para su revisión humana.
Ejemplo: Vatis Tech ofrece una herramienta que emplea speech to text para el monitoreo de redes sociales en marketing, de modo que pueda ayudar a las marcas a identificar cuándo son tendencia y la intención detrás de las interacciones con los clientes.13
1. From Sound to Images, Part 1: A deep dive on spectrogram creation, Cornell Lab Macaulay Library, 19 de julio de 2021
2. Lecture 12: An Overview of Speech Recognition, University of Rochester Computer Science
3. Turn speech into text using Google AI, Google Cloud
4. Speech to text REST API, Microsoft
5. Amazon Transcribe API reference, AWS
6. iPhone User Guide, Apple
7. Type with your voice, Google Support
8. Audrey, Alexa, Hal, and more, Computer History Museum, 9 de junio de 2021
9. Speech Recognition: Past, Present, Future, Carnegie Mellon University Computer Science
10. Amazon Transcribe Medical, AWS
11. Alexa unveils new speech recognition, text-to-speech technologies, Amazon, 20 de septiembre de 2023
12. Use voice typing to talk instead of type on your PC, Microsoft
13. Media Monitoring Intelligence - Turn any Audio to Insights, Vatis Tech
Convierta voz en texto usando el reconocimiento y la transcripción de voz impulsados por IA
Cree su asistente de IA con Orchestrate para optimizar los esfuerzos de su equipo y recuperar su tiempo.
Asóciese con IBM para integrar capacidades de voz en sus soluciones
Explore el tutorial
Pruebe watsonx
Póngase en marcha
Véalo bajo demanda
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io