Reconocimiento del habla

menu icon

Reconocimiento del habla

Descubra el origen del reconocimiento del habla y sus diversas aplicaciones en el mundo actual

¿Qué es el reconocimiento del habla?

El reconocimiento del habla, también denominado reconocimiento automático del habla (ASR), reconocimiento del habla por computadora o Speech to Text, es una funcionalidad que permite a un programa procesar el habla humana en formato escrito. Aunque comúnmente se confunde con el reconocimiento del habla, el reconocimiento del habla se centra en la traducción del habla desde un formato verbal a un texto, mientras que el reconocimiento del habla sólo busca identificar la voz de un usuario individual.

IBM ha tenido un rol destacado dentro del reconocimiento del habla desde su creación, con el lanzamiento de “Shoebox” en 1962. Esta máquina tenía la capacidad de reconocer 16 palabras diferentes, avanzando en el trabajo inicial de Bell Labs de la década de 1950. Sin embargo, IBM no se detuvo allí. Continuó innovando a lo largo de los años, lanzando la aplicación VoiceType Simply Speaking en 1996. Este software de reconocimiento del habla contaba con un vocabulario de 42,000 palabras, soporte para inglés y español, e incluía un diccionario ortográfico de 100,000 palabras. Aunque que la tecnología del habla tenía un vocabulario limitado en sus comienzos, actualmente se utiliza en un amplio número de industrias, como la automoción, la tecnología y el cuidado de la salud. Su adopción ha seguido acelerándose en los últimos años debido a los avances en deep learning y big data. Una investigación (enlace externo a IBM) muestra que se espera que este mercado tenga un valor de USD 24,000 millones en 2025.

Características principales del reconocimiento efectivo del habla

Hay muchas aplicaciones y dispositivos de reconocimiento del habla disponibles, pero las soluciones más avanzadas utilizan IA y machine learning. Integran la gramática, la sintaxis, la estructura y la composición de las señales de audio y voz para comprender y procesar el habla humana. Idealmente, aprenden con el uso: evolucionan sus respuestas con cada interacción.

Los mejores tipos de sistemas también permiten a las organizaciones personalizar y adaptar la tecnología a sus necesidades específicas, incluyendo todo, desde el lenguaje y los matices del habla hasta el reconocimiento de la marca. Por ejemplo:

  • Ponderación lingüística: mejore la precisión mediante la ponderación de palabras específicas que se dicen con frecuencia (como los nombres de productos o la jerga de la industria), más allá de los términos que ya están en el vocabulario base.
  • Etiquetado del orador: salida de una transcripción que cita o etiqueta las contribuciones de cada orador a una conversación de varios participantes.
  • Formación acústica: asista al lado acústico de la empresa. Entrene el sistema para adaptarse a un entorno acústico (como el ruido ambiental en un centro de llamadas) y estilos de oradores (como tono de voz, volumen y ritmo).
  • Filtro de profanidad: utilice filtros para identificar determinadas palabras o frases y limpiar la salida de voz.

Mientras tanto, el reconocimiento del habla sigue avanzando. Las empresas, como IBM, están realizando avances en diversas áreas, para mejorar al máximo la interacción entre humanos y máquinas.

Algoritmos de reconocimiento del habla

Los caprichos del discurso humano han hecho que el desarrollo sea desafiante. Se considera que es una de las áreas más complejas de la informática, ya que incluye la lingüística, las matemáticas y las estadísticas. Los reconocedores del habla están compuestos por algunos componentes, como la entrada del habla, la extracción de características, los vectores de características, un decodificador y una salida de palabras. El decodificador aprovecha los modelos acústicos, un diccionario de pronunciación y modelos de lenguaje para determinar la salida apropiada.

La tecnología de reconocimiento del habla se evalúa en su tasa de precisión, es decir, tasa de error de palabra (WER), y velocidad. Un número de factores puede afectar la tasa de errores de palabras, como pronunciación, acento, tono, volumen y ruido de fondo. Alcanzar la paridad humana, es decir, una tasa de error a la par con la de dos seres humanos hablando, ha sido, durante mucho tiempo, el objetivo de los sistemas de reconocimiento del habla. Un estudio de Lippmann (enlace externo a IBM) (PDF, 344 KB) estima que el índice de errores de palabras es de alrededor del 4 por ciento, pero ha sido difícil replicar los resultados de este documento.

Lea más sobre cómo IBM ha dado pasos a este respecto, logrando registros de la industria en el campo del reconocimiento del habla.

Varios algoritmos y técnicas de cálculo se utilizan para reconocer el habla, transformarla en texto y mejorar la precisión de la transcripción. A continuación, puede ver explicaciones breves de algunos de los métodos más utilizados:

  • Procesamiento de lenguaje natural (NLP): aunque NLP no es necesariamente un algoritmo específico utilizado en el reconocimiento del habla, es el área de la inteligencia artificial que se centra en la interacción entre humanos y máquinas a través del lenguaje y a través del habla y el texto. Muchos dispositivos móviles incorporan el reconocimiento del habla en sus sistemas para realizar búsquedas de voz, por ejemplo, Siri, o proporcionar más accesibilidad en relación con los mensajes de texto.
  • Modelos ocultos de Márkov (HMM): los modelos ocultos de Márkov se basan en el modelo de cadena Márkov, que estipula que la probabilidad de un estado determinado depende del estado actual, no de sus estados anteriores. Mientras que un modelo de cadena Márkov es útil para eventos observables, como entradas de texto, los modelos de Márkov ocultos nos permiten incorporar eventos ocultos, como etiquetas de categorías léxicas, en un modelo probabilístico. Se utilizan como modelos de secuencia dentro del reconocimiento del habla, asignando etiquetas a cada unidad, o sea, palabras, sílabas, frases, etc., en la secuencia. Estas etiquetas crean una correlación con la entrada proporcionada, lo que le permite determinar la secuencia de etiquetas más adecuada.
  • N-gramos: este es el tipo más simple de modelo de lenguaje (LM), que asigna probabilidades a oraciones o frases. Un N-gramo es la secuencia de N-palabras. Por ejemplo, "pedir la pizza" es un trigrama o 3-gramos y "por favor, pedir la pizza" es un 4-gramos. La gramática y la probabilidad de ciertas secuencias de palabras se utilizan para mejorar el reconocimiento y la precisión.
  • Redes neuronales: principalmente impulsadas para los algoritmos de deep learning, las redes neuronales procesan los datos de entrenamiento imitando la interconectividad del cerebro humano a través de capas de nodos. Cada nodo está formado por entradas, ponderaciones, un sesgo (o limite) y una salida. Si ese valor de salida excede un límite determinado, "dispara" o activa el nodo, pasando datos a la siguiente capa de la red. Redes neuronales aprenden esta función de correlación a través del aprendizaje supervisado, ajustándose con base en la función de pérdida a través del proceso de descenso de gradiente. Mientras que las redes neuronales tienden a ser más precisas y pueden aceptar más datos, esto tiene un costo de eficiencia de rendimiento, ya que tienden a ser más lentos para entrenar en comparación con los modelos de lenguaje tradicionales.
  • Diarización del orador (SD): los algoritmos de diarización de los oradores identifican y segmentan el habla por identidad del orador. Esto ayuda a los programas a distinguir mejor a los individuos en una conversación y se aplica frecuentemente en los centros de llamadas que distinguen a los clientes y agentes de ventas.

Lea en el Blog de Watson ¿Cómo IBM aprovecha los modelos SD en sus servicios de habla a texto?

Casos de uso reconocimiento del habla

Un amplio número de industrias están utilizando hoy diferentes aplicaciones de la tecnología del habla, ayudando a las empresas y a los consumidores a ahorrar tiempo e incluso salvar vidas. Algunos ejemplos incluyen:

Industria automotriz: los reconocedores de voz mejoran la seguridad del conductor al permitir sistemas de navegación activados por voz y capacidades de búsqueda en radios de automóviles.

Tecnología: los asistentes virtuales se están integrando cada vez más en nuestra vida cotidiana, especialmente en nuestros dispositivos móviles. Usamos comandos de voz para acceder a ellos a través de nuestros teléfonos inteligentes, como por ejemplo a través de Google Assistant o Siri de Apple, para tareas, como la búsqueda de voz, o a través de nuestros altavoces, a través de Alexa de Amazon o Cortana de Microsoft, para reproducir música. Continuarán integrándose aún más en los productos cotidianos que utilizamos, alimentando el movimiento del "Internet de las cosas".

Cuidado de la salud: médicos y enfermeras aprovechan las aplicaciones de dictado para capturar y registrar diagnósticos de pacientes y notas de tratamiento.

Ventas: la tecnología de reconocimiento del habla tiene un par de aplicaciones en ventas. Puede ayudar a un centro de llamadas a transcribir miles de llamadas telefónicas entre clientes y agentes para identificar patrones y problemas comunes de llamadas. Los bots cognitivos también pueden hablar con personas a través de una página web, responder a consultas comunes y cuidar de solicitudes básicas sin necesidad de esperar a que un agente del centro de contacto esté disponible. En ambos ejemplos, los sistemas de reconocimiento del habla ayudan a reducir el tiempo de resolución de los problemas de los consumidores.

Seguridad: a medida que la tecnología se integra en nuestra vida cotidiana, los protocolos de seguridad son una prioridad creciente. La autenticación basada en voz añade un nivel de seguridad viable.

Descubra más sobre cómo las empresas, como Audioburst, están aprovechando el software de reconocimiento del habla para indexar audio de estaciones de radio y podcasts en tiempo real, en nuestro blog aquí

Reconocimiento del habla e IBM

IBM ha sido pionera en el desarrollo de herramientas y servicios de reconocimiento del habla, que permiten a las organizaciones automatizar sus complejos procesos de negocio al tiempo que obtienen conocimientos empresariales esenciales.

  • IBM Watson Speech to Text es una solución nativa de la nube que utiliza algoritmos de IA de deep learning para aplicar conocimientos sobre gramática, estructura de lenguaje y composición de señal de audio/voz para crear un reconocimiento del habla personalizable para una transcripción de texto óptima.
  • IBM Watson Text to Speech genera audio que parece humano a partir de un texto escrito, aumentando la interacción y la satisfacción de los clientes, mejorando la accesibilidad a través de lenguajes y modalidades de interacción.

Para obtener más información sobre cómo empezar con la tecnología de reconocimiento del habla, explore IBM Watson Speech to Text e IBM Watson Text to Speech.

Regístrese para obtener un ID de IBM (IBMid) y cree su cuenta de IBM Cloud.