Inicio
Temas
¿Qué es el reconocimiento del habla?
El reconocimiento del habla, también denominado reconocimiento automático del habla (ASR), reconocimiento del habla por computadora o conversión de voz a texto, es una función que utiliza el procesamiento de lenguaje natural (PLN) para procesar el habla humana y transformarlo a un formato escrito. Si bien comúnmente se confunde con el reconocimiento de voz, el reconocimiento del habla se enfoca en la traducción del habla de un formato verbal a uno de texto, mientras que el reconocimiento de voz solo busca identificar la voz de un usuario individual.
IBM ha tenido un papel fundamental en el reconocimiento del habla desde sus inicios, con el lanzamiento de "Shoebox" en 1962. Esta máquina tenía la capacidad de reconocer 16 palabras diferentes, lo que avanzaba el trabajo inicial de Bell Labs de la década de 1950. Sin embargo, IBM no se detuvo ahí, sino que continuó innovando a lo largo de los años, y lanzó la aplicación VoiceType Simply Speaking en 1996. Este software de reconocimiento del habla tenía un vocabulario de 42,000 palabras, admitía inglés y español e incluía un diccionario de ortografía de 100,000 palabras. Si bien la tecnología del habla tenía un vocabulario limitado en sus inicios, hoy en día se utiliza en diversas industrias como, por ejemplo, la automotriz, la tecnología y el cuidado de la salud. Su adopción solo ha seguido avanzando en los últimos años debido a los avances en el deep learning y el big data. Un estudio (enlace externo a ibm.com) muestra que se espera que este mercado tenga un valor de USD 24.9 para el 2025.
Hay muchas aplicaciones y dispositivos de reconocimiento del habla disponibles, pero las soluciones más avanzadas utilizan IA y machine learning. Integran gramática, sintaxis, estructura y composición de señales de audio y voz para comprender y procesar el habla humana. Idealmente, aprenden sobre la marcha, evolucionando las respuestas con cada interacción.
El mejor tipo de sistemas también permite a las empresas personalizar y adaptar la tecnología a sus requisitos específicos, desde el idioma y los matices del habla hasta el reconocimiento de marca. Por ejemplo:
Mientras tanto, el reconocimiento del habla sigue avanzando. Empresas como IBM están incursionando en varias áreas para mejorar la interacción entre humanos y máquinas.
Las particularidades del habla humana han hecho que el desarrollo sea un desafío. Se considera una de las áreas más complejas de la informática, ya que involucra lingüística, matemáticas y estadística. Los reconocedores del habla incluyen algunos componentes, como la entrada de voz, la extracción de características, los vectores de características, un decodificador y una salida de palabras. El decodificador aprovecha los modelos acústicos, un diccionario de pronunciación y los modelos de idioma para determinar la salida adecuada.
La tecnología de reconocimiento del habla se evalúa en función de su tasa de precisión, es decir, tasa de error de palabras (WER) y velocidad. Varios factores pueden afectar la tasa de error de palabras, como la pronunciación, el acento, el tono, el volumen y el ruido de fondo. Alcanzar la paridad humana, es decir, una tasa de error a la par con la de dos humanos hablando, ha sido durante mucho tiempo el objetivo de los sistemas de reconocimiento del habla. Un estudio de Lippmann (enlace externo a ibm.com) (PDF, 352 KB) estima que la tasa de error de palabras es de alrededor del 4 %, pero ha sido difícil replicar los resultados de este informe.
Lea más acerca de cómo IBM ha avanzado en este aspecto, logrando récords de la industria en el campo del reconocimiento del habla.
Se utilizan varios algoritmos y técnicas de computación para transformar el habla en texto y mejorar la precisión de la transcripción. A continuación, se muestran breves explicaciones de algunos de los métodos más utilizados:
Una gran cantidad de industrias están utilizando diferentes aplicaciones de la tecnología del habla en la actualidad, lo que ayuda a las empresas y los consumidores a ahorrar tiempo e incluso salvar vidas. Algunos ejemplos incluyen:
Automoción: los reconocedores del habla mejoran la seguridad del conductor al habilitar sistemas de navegación activados por voz y funciones de búsqueda en radios de vehículos.
Tecnología: los agentes virtuales se están integrando cada vez más en nuestra vida diaria, especialmente en nuestros dispositivos móviles. Usamos comandos de voz para acceder a ellos a través de nuestros teléfonos inteligentes, como el Asistente de Google o Siri de Apple, para tareas, como la búsqueda por voz, o a través de nuestros parlantes, como Alexa de Amazon o Cortana de Microsoft, para reproducir música. Y se continuarán integrando en los productos cotidianos que usamos, impulsando así el movimiento del "Internet de las cosas".
Cuidado de la salud: los médicos y enfermeras aprovechan las aplicaciones de dictado para capturar y registrar diagnósticos de pacientes y notas de tratamiento.
Ventas: la tecnología de reconocimiento del habla tiene un par de aplicaciones en la industria de ventas. Puede ayudar a un centro de llamadas a transcribir miles de llamadas telefónicas entre clientes y agentes para identificar patrones y llamadas de problemas comunes. Los chatbots de IA también pueden hablar con las personas a través de una página web, respondiendo preguntas frecuentes y resolviendo solicitudes básicas sin necesidad de que haya un agente del centro de atención al cliente disponible. En ambos casos, los sistemas de reconocimiento del habla ayudan a reducir el tiempo de resolución de los problemas de los consumidores.
Seguridad: a medida que la tecnología se integra en nuestra vida diaria, los protocolos de seguridad son una prioridad cada vez mayor. La autenticación basada en voz añade un nivel viable de seguridad.
Convierta la voz en texto con el reconocimiento del habla y la transcripción con tecnología de IA.
Convierta texto en voz que suene natural en distintos idiomas y voces.
Software de nube híbrida basado en IA.
Habilite la transcripción de voz en varios idiomas para una variedad de casos de uso, incluidos, entre otros, el autoservicio del cliente, la asistencia de agentes y el análisis de voz.
Vea cómo Lingmo mejora el reconocimiento del habla y el entrenamiento de modelos con menos datos.
Descubra cómo mantenerse al día, reconsidere cómo usar tecnologías como la nube, la IA y la automatización para acelerar la innovación y cumplir con las expectativas cambiantes de los clientes.