¿Qué es el reconocimiento del habla?
Conozca la historia del reconocimiento del habla y sus diversas aplicaciones en el mundo actual
Imágenes abstractas generadas por computadora que muestran muchas líneas coloridas en un remolino
¿Qué es el reconocimiento del habla?

El reconocimiento del habla, también denominado reconocimiento automático del habla (ASR), reconocimiento del habla por computadora o conversión de voz a texto, es una función que utiliza el procesamiento de lenguaje natural (PLN) para procesar el habla humana y transformarlo a un formato escrito. Si bien comúnmente se confunde con el reconocimiento de voz, el reconocimiento del habla se enfoca en la traducción del habla de un formato verbal a uno de texto, mientras que el reconocimiento de voz solo busca identificar la voz de un usuario individual.

IBM ha tenido un papel fundamental en el reconocimiento del habla desde sus inicios, con el lanzamiento de  "Shoebox"  en 1962. Esta máquina tenía la capacidad de reconocer 16 palabras diferentes, lo que avanzaba el trabajo inicial de Bell Labs de la década de 1950. Sin embargo, IBM no se detuvo ahí, sino que continuó innovando a lo largo de los años, y lanzó la aplicación VoiceType Simply Speaking en 1996. Este software de reconocimiento del habla tenía un vocabulario de 42,000 palabras, admitía inglés y español e incluía un diccionario de ortografía de 100,000 palabras. Si bien la tecnología del habla tenía un vocabulario limitado en sus inicios, hoy en día se utiliza en una gran cantidad de industrias, como la automotriz, la tecnología y el cuidado de la salud. Su adopción solo ha seguido avanzando en los últimos años debido a los avances en el deep learning y el big data. Un estudio (enlace externo a ibm.com) muestra que se espera que este mercado tenga un valor de USD 24.9 para el 2025.

Productos destacados

IBM Watson Speech to Text

IBM Watson Text to Speech


Características principales del reconocimiento del habla efectivo

Hay muchas aplicaciones y dispositivos de reconocimiento del habla disponibles, pero las soluciones más avanzadas utilizan IA y machine learning. Integran gramática, sintaxis, estructura y composición de señales de audio y voz para comprender y procesar el habla humana. Idealmente, aprenden sobre la marcha, evolucionando las respuestas con cada interacción.

El mejor tipo de sistemas también permite a las empresas personalizar y adaptar la tecnología a sus requisitos específicos, desde el idioma y los matices del habla hasta el reconocimiento de marca. Por ejemplo:

  • Ponderación del idioma: Mejore la precisión ponderando palabras específicas frecuentes (como nombres de productos o jerga de la industria), más allá de los términos que ya están en el vocabulario básico.
  • Clasificación de hablantes: Genere una transcripción que cita o clasifica las contribuciones de cada orador en una conversación de varios participantes.
  • Entrenamiento en acústica: Ocúpese del lado acústico de la empresa. Entrene el sistema para que se adapte a un entorno acústico (como el ruido ambiental en un call center) y estilos de hablantes (como el tono de voz, el volumen y el ritmo).
  • Filtrado de obscenidades: Use filtros para identificar ciertas palabras o frases y suavizar la salida del habla.

Mientras tanto, el reconocimiento del habla sigue avanzando. Empresas como IBM están incursionando en varias áreas para mejorar la interacción entre humanos y máquinas.

 


Algoritmos de reconocimiento del habla

Los particularidades del habla humana han hecho que el desarrollo sea un desafío. Se considera una de las áreas más complejas de la informática, ya que involucra lingüística, matemáticas y estadística. Los reconocedores del habla incluye algunos componentes, como la entrada de voz, la extracción de características, los vectores de características, un decodificador y una salida de palabras. El decodificador aprovecha los modelos acústicos, un diccionario de pronunciación y los modelos de idioma para determinar la salida adecuada.

La tecnología de reconocimiento del habla se evalúa en función de su tasa de precisión, es decir, tasa de error de palabras (WER) y velocidad. Varios factores pueden afectar la tasa de error de palabras, como la pronunciación, el acento, el tono, el volumen y el ruido de fondo. Alcanzar la paridad humana, es decir, una tasa de error a la par con la de dos humanos hablando, ha sido durante mucho tiempo el objetivo de los sistemas de reconocimiento del habla. Un estudio de Lippmann (enlace externo a ibm.com) (PDF, 344 KB) estima que la tasa de error de palabras es de alrededor del 4 %, pero ha sido difícil replicar los resultados de este informe.

Lea mas acerca de cómo IBM ha avanzado en este aspecto, logrando récords de la industria en el campo del reconocimiento del habla.

Se utilizan varios algoritmos y técnicas de computación para transformar el habla en texto y mejorar la precisión de la transcripción. A continuación, se muestran breves explicaciones de algunos de los métodos más utilizados:

  • Procesamiento de lenguaje natural (PLN): Mientras que el PLN no es necesariamente un algoritmo específico utilizado en el reconocimiento del habla, es el área de la inteligencia artificial que se centra en la interacción entre humanos y máquinas a través del lenguaje a través del habla y el texto. Muchos dispositivos móviles incorporan el reconocimiento del habla en sus sistemas para realizar búsquedas por voz, por ejemplo, Siri, o proporcionar más accesibilidad en torno a los mensajes de texto. 
  • Modelos ocultos de Márkov (HMM): Los modelos ocultos de Márkov se basan en el modelo de la cadena de Márkov, que estipula que la probabilidad de un estado determinado depende del estado actual, no de sus estados anteriores. Si bien un modelo de la cadena de Márkov es útil para eventos observables, como entradas de texto, los modelos ocultos de Márkov nos permiten incorporar eventos ocultos, como etiquetas de partes del discurso, en un modelo probabilístico. Se utilizan como modelos de secuencia dentro del reconocimiento del habla, asignan etiquetas a cada unidad, es decir, palabras, sílabas, oraciones, etc., en la secuencia. Estas etiquetas crean un mapeo con la entrada proporcionada, lo que le permite determinar la secuencia de etiquetas más apropiada.
  • N-gramas: Este es el tipo más simple de modelo del lenguaje (LM), que asigna probabilidades a oraciones o frases. Un N-grama es una secuencia de N-palabras. Por ejemplo, "pide la pizza" es un trigrama o 3-grama y "por favor, pide la pizza" es un 4-grama. La gramática y la probabilidad de ciertas secuencias de palabras se utilizan para mejorar el reconocimiento y la precisión.
  • Redes neuronales: Aprovechadas principalmente para algoritmos de deep learning, las redes neuronales procesan datos de entrenamiento imitando la interconectividad del cerebro humano a través de capas de nodos. Cada nodo se compone de entradas, pesos, un sesgo (o umbral) y una salida. Si esa salida excede un umbral dado, "dispara" (o activa) el nodo, pasando datos a la siguiente capa en la red. Las redes neuronales aprenden esta función de mapeo a través del aprendizaje supervisado y se adaptan según la función de pérdida a través del proceso de descenso de gradiente.  Si bien las redes neuronales tienden a ser más precisas y pueden aceptar más datos, tienen un costo de eficiencia en el rendimiento, ya que tienden a ser más lentas de entrenar en comparación con los modelos del lenguaje tradicionales.
  • Diarización de hablantes (SD): Los algoritmos de diarización de hablantes identifican y segmentan el habla según la identidad del hablante. Esto ayuda a los programas a distinguir mejor a las personas en una conversación y se aplica con frecuencia en los call centers para distinguir a los clientes y los agentes de ventas.

Casos de uso de reconocimiento del habla

Una gran cantidad de industrias están utilizando diferentes aplicaciones de la tecnología del habla en la actualidad, lo que ayuda a las empresas y los consumidores a ahorrar tiempo e incluso salvar vidas. Algunos ejemplos incluyen:

Automotor: Los reconocedores del habla mejoran la seguridad del conductor al habilitar sistemas de navegación activados por voz y funciones de búsqueda en radios de vehículos.

Tecnología: Los agentes virtuales se están integrando cada vez más en nuestra vida diaria, especialmente en nuestros dispositivos móviles. Usamos comandos de voz para acceder a ellos a través de nuestros teléfonos inteligentes, como el Asistente de Google o Siri de Apple, para tareas, como la búsqueda por voz, o a través de nuestros parlantes, como Alexa de Amazon o Cortana de Microsoft, para reproducir música. Y se continuarán integrando en los productos cotidianos que usamos, impulsando así el movimiento del "Internet de las cosas".

Cuidado de la salud: Los médicos y enfermeras aprovechan las aplicaciones de dictado para capturar y registrar diagnósticos de pacientes y notas de tratamiento.

Ventas: La tecnología de reconocimiento del habla tiene un par de aplicaciones en la industria de ventas. Puede ayudar a un call center a transcribir miles de llamadas telefónicas entre clientes y agentes para identificar patrones y llamadas de problemas comunes. Los chatbots de IA también pueden hablar con las personas a través de una página web, respondiendo preguntas frecuentes y resolviendo solicitudes básicas sin necesidad de que haya un agente del centro de atención al cliente disponible. En ambos casos, los sistemas de reconocimiento del habla ayudan a reducir el tiempo de resolución de los problemas de los consumidores.

Seguridad: A medida que la tecnología se integra en nuestra vida diaria, los protocolos de seguridad son una prioridad cada vez mayor. La autenticación basada en voz añade un nivel viable de seguridad.


Soluciones relacionadas

IBM Watson® Speech to Text

Convierta la voz en texto con el reconocimiento del habla y la transcripción con tecnología de IA.

IBM Watson® Text to Speech

Convierta texto en voz que suene natural en distintos idiomas y voces.

Soluciones de IBM Cloud Pak®

Software de nube híbrida impulsado por IA.


Dé el siguiente paso
IBM ha sido pionero en el desarrollo de herramientas y servicios de reconocimiento del habla que permiten a las organizaciones automatizar sus complejos procesos de negocio mientras obtienen insights comerciales fundamentales.IBM Watson Speech to Text es una solución nativa de la nube que utiliza algoritmos de IA y deep learning para aplicar conocimientos de gramática, estructura del idioma y composición de señales de audio/voz para crear un reconocimiento del habla personalizable para obtener una transcripción de texto óptima. Pruebe IBM Watson Speech to Text hoy