Reconocimiento del habla

menu icon

Reconocimiento del habla

Conozca la historia del reconocimiento de voz y sus diversas aplicaciones en el mundo actual

¿Qué es el reconocimiento del habla?

El reconocimiento del habla, también denominado reconocimiento automático del habla (ASR), reconocimiento del habla por ordenador o Speech to Text, es una funcionalidad que permite a un programa procesar el habla humana en formato escrito. Aunque comúnmente se confunde con el reconocimiento de voz, el reconocimiento del habla se centra en la conversión del habla desde un formato verbal a un formato de texto, mientras que el reconocimiento de voz solo busca identificar la voz de un usuario concreto.

IBM ha jugado un papel destacado dentro del reconocimiento del habla desde su creación, con la publicación de “Shoebox” en 1962. Esta máquina tenía la capacidad de reconocer 16 palabras diferentes, y supuso un avance sobre el trabajo inicial de Bell Labs en la década de 1950. Sin embargo, IBM no se detuvo allí, sino que continuó innovando a lo largo de los años, lanzando la aplicación VoiceType Simply Speaking en 1996. Este software de reconocimiento del habla tenía un vocabulario de 42 000 palabras, admitía inglés y español e incluía un diccionario ortográfico de 100 000 palabras. Mientras que la tecnología del habla tenía un vocabulario limitado en su etapa inicial, hoy en día se utiliza en un amplio número de sectores, como la automoción, la tecnología y la atención sanitaria. Su adopción no ha dejado de crecer en los últimos años, debido a los avances en deep learning y big data. Según los estudios (enlace externo a IBM), se espera que este mercado alcance un valor de 24 900 millones de dólares en 2025.

Características clave del reconocimiento eficaz del habla

Hay muchas aplicaciones y dispositivos disponibles de reconocimiento del habla, pero las soluciones más avanzadas utilizan IA y machine learning. Integran la gramática, la sintaxis, la estructura y la composición de las señales de audio y voz para comprender y procesar el habla humana. En el mejor de los casos, aprenden sobre la marcha; las respuestas van evolucionando con cada interacción.

Los mejores tipos de estos sistemas también permiten a las organizaciones personalizar y adaptar la tecnología a sus necesidades específicas, desde el lenguaje y los matices del habla hasta el reconocimiento de las marcas. Por ejemplo:

  • Ponderación lingüística: mejorar la precisión mediante la ponderación de palabras específicas que se mencionan con frecuencia (como nombres de productos o jerga del sector), más allá de los términos que ya están en el vocabulario básico.
  • Etiquetado de oradores: generar una transcripción que cita o etiqueta las contribuciones de cada orador en una conversación de varios participantes.
  • Formación acústica: tener en cuenta la cuestión acústica. Entrenar al sistema para adaptarse a un entorno acústico (como el ruido ambiental en un centro de atención telefónica) y a estilos de orador (como el tono de voz, el volumen y el ritmo).
  • Filtrado de palabras malsonantes: utilizar filtros para identificar determinadas palabras o frases y sanear la salida de voz.

El reconocimiento del habla no deja de avanzar. Las empresas, como IBM, están realizando avances en diversas áreas, para mejorar al máximo la interacción entre humanos y máquinas.

Algoritmos de reconocimiento del habla

Las vaguedades del habla humana han complicado el desarrollo. Se considera una de las áreas más complejas de la informática, que incluye lingüística, matemáticas y estadística. Los reconocedores del habla están compuestos por varios componentes, como la entrada de voz, la extracción de características, los vectores de características, un decodificador y una salida de palabra. El decodificador utiliza los modelos acústicos, un diccionario de pronunciación y modelos de lenguaje para determinar la salida apropiada.

La tecnología de reconocimiento del habla se evalúa en función de su índice de precisión, es decir, del índice de errores de palabras (WER) y la velocidad. Hay varios factores que pueden afectar al índice de errores de palabras, como la pronunciación, el acento, el tono, el volumen y el ruido de fondo. Alcanzar la paridad con el ser humano, es decir, un índice de error equivalente al de dos seres humanos hablando, ha sido durante mucho tiempo el objetivo de los sistemas de reconocimiento del habla. Un estudio de Lippmann (enlace externo a IBM) (PDF, 344 KB) estima que el índice de errores de palabras es de alrededor del 4 por ciento, pero ha sido difícil replicar los resultados de este documento.

Más información sobre los pasos que ha dado IBM a este respecto, y los récords que ha logrado en el campo del reconocimiento del habla.

Se utilizan varios algoritmos y técnicas de cálculo para reconocer el habla y convertirla en texto y mejorar la precisión de la transcripción. A continuación, se explican brevemente de algunos de los métodos más utilizados:

  • Procesamiento de lenguaje natural (NLP): aunque NLP no es necesariamente un algoritmo específico utilizado en el reconocimiento del habla, es el área de la inteligencia artificial que se centra en la interacción entre humanos y máquinas a través del lenguaje y a través del habla y el texto. Muchos dispositivos móviles incorporan el reconocimiento de voz en sus sistemas para realizar búsquedas de voz, por ejemplo, Siri, o aumentar la accesibilidad de la escritura.
  • Modelos ocultos de Márkov (HMM): los modelos ocultos de Márkov se basan en el modelo de cadenas Márkov, que estipula que la probabilidad que cambie un estado determinado depende del estado actual, no de sus estados anteriores. Mientras que un modelo de cadenas Márkov es útil para eventos observables, como entradas de texto, los modelos ocultos de Márkov nos permiten incorporar eventos ocultos, como etiquetas de categorías léxicas, en un modelo probabilístico. Se utilizan como modelos de secuencia dentro del reconocimiento del habla, asignando etiquetas a cada unidad (como palabras, sílabas, frases, etc.) de la secuencia. Estas etiquetas crean una correlación con la entrada proporcionada, y le permiten determinar la secuencia de etiquetas más adecuada.
  • N-gramas: se trata del tipo más simple de modelo de lenguaje (LM), que asigna probabilidades a oraciones o frases. Un n-grama es una secuencia de n-palabras. Por ejemplo, "pedir la pizza" es un trigrama o 3-grama, y "por favor pedir la pizza" es un 5-grama. La gramática y la probabilidad de ciertas secuencias de palabras se utilizan para mejorar el reconocimiento y la precisión.
  • Redes neuronales: las redes neuronales, que se utilizan principalmente para los algoritmos de deep learning, procesan los datos de entrenamiento imitando la interconectividad del cerebro humano a través de capas de nodos. Cada nodo está formado por entradas, ponderaciones, un sesgo (o umbral) y una salida. Si ese valor de salida excede un umbral determinado, "dispara" o activa el nodo, pasando datos a la siguiente capa de la red. Las redes neuronales aprenden esta función de correlación a través del aprendizaje supervisado, y se ajustan en base a una función de pérdida a través de un proceso de su gradiente descendente. Aunque las redes neuronales tienden a ser más precisas y pueden aceptar más datos, esto ocurre en detrimento de la eficacia del rendimiento, ya que tienden a ser más lentas de entrenar en comparación con los modelos de lenguaje tradicionales.
  • Diarización del orador (SD): los algoritmos de diarización de los oradores identifican y segmentan el habla por identidad del orador. De este modo, los programas pueden distinguir mejor a los individuos en una conversación, y se aplica frecuentemente en los centros de atención telefónica para distinguir a los clientes y a los agentes de ventas.

Lea en el Blog de Watson cómo IBM utiliza los modelos SD en sus servicios de voz a texto.

Casos de uso de reconocimiento del habla

Hoy en día, se utilizan diferentes aplicaciones de tecnología del habla en un amplio número de sectores, ayudando a las empresas y a los consumidores a ahorrar tiempo e incluso vidas. Algunos ejemplos:

Automoción: los reconocedores del habla mejoran la seguridad del conductor al habilitar sistemas de navegación activados por voz y funciones de búsqueda en la radio de los automóviles.

Tecnología: los asistentes virtuales están cada vez más integrados en nuestra vida diaria, especialmente en nuestros dispositivos móviles. Utilizamos mandatos de voz para acceder a ellos a través de nuestros smartphones (como por ejemplo a través de Google Assistant o Siri de Apple) para tareas como la búsqueda de voz, o a través de nuestros altavoces (mediante Alexa de Amazon o Cortana de Microsoft) para reproducir música. Se van a integrar cada vez más los productos cotidianos que utilizamos, y van a impulsar el movimiento del "Internet de las cosas".

Atención sanitaria: médicos y enfermeras utilizan aplicaciones de dictado para capturar y registrar diagnósticos de pacientes y notas de tratamiento.

Ventas: la tecnología de reconocimiento del habla tiene un par de aplicaciones en ventas. Puede ayudar a un centro de atención telefónica a transcribir miles de llamadas telefónicas entre clientes y agentes para identificar patrones de llamadas y problemas comunes. Los bots cognitivos también pueden hablar con personas a través de una página web, responder a consultas comunes y resolver solicitudes básicas sin necesidad de esperar a que un agente del centro de contacto esté disponible. Ambos ejemplos de sistemas de reconocimiento del habla ayudan a reducir el tiempo de resolución de problemas de los consumidores.

Seguridad: a medida que la tecnología se integra en nuestra vida diaria, aumenta la prioridad de los protocolos de seguridad. La autenticación basada en voz añade un nivel de seguridad viable.

Descubra cómo las empresas, como Audioburst, están aprovechando el software de reconocimiento del habla para indexar audio de estaciones de radio y podcasts en tiempo real en nuestro blog aquí

Reconocimiento del habla e IBM

IBM ha sido pionera en el desarrollo de herramientas y servicios de reconocimiento del habla que permiten a las organizaciones automatizar sus complejos procesos de negocio, además de adquirir conocimientos empresariales esenciales.

  • IBM Watson Speech to Text es una solución nativa en cloud que utiliza algoritmos de IA de deep learning para aplicar conocimientos sobre gramática, estructura lingüística y composición de señal de audio/voz para crear un reconocimiento del habla personalizable para una transcripción de texto óptima.
  • IBM Watson Text to Speech genera audio similar al humano a partir de texto escrito, y aumenta la fidelización y la satisfacción de los clientes al mejorar la accesibilidad en diferentes idiomas y modalidades de interacción.

Para obtener más información sobre cómo empezar a utilizar la tecnología de reconocimiento del habla, explore IBM Watson Speech to Text e IBM Watson Text to Speech.

Regístrese para obtener un ID de IBM y crear su cuenta de IBM Cloud.