¿Qué es el reconocimiento de voz?

Qué es el reconocimiento de voz?

El reconocimiento de voz, también conocido como reconocimiento automático de voz (ASR), reconocimiento de voz por computadora o conversión de voz a texto, es una capacidad que permite a un programa procesar el habla humana en un formato escrito.

Mientras que el reconocimiento del habla se confunde comúnmente con el reconocimiento de voz, el primero se centra en la traducción del habla de un formato verbal a uno de texto, mientras que el reconocimiento de voz solo busca identificar la voz de un usuario individual.

IBM ha tenido un papel destacado dentro del reconocimiento de voz desde sus inicios, lanzando “Shoebox” en 1962. Esta máquina tenía la capacidad de reconocer 16 palabras diferentes, adelantando el trabajo inicial de Bell Labs de la década de 1950. Sin embargo, IBM no se detuvo ahí, sino que continuó innovando a lo largo de los años, lanzando la aplicación VoiceType Simply Speaking en 1996. Este software de reconocimiento de voz tenía un vocabulario de 42 000 palabras, admitía inglés y español, e incluía un diccionario de ortografía de 100 000 palabras.

Si bien la tecnología del habla tenía un vocabulario limitado en los primeros días, hoy en día se emplea en una gran cantidad de industrias, como la automotriz, la tecnología y la atención médica. Su adopción no hizo más que acelerarse en los últimos años debido a los avances en el aprendizaje profundo y el big data. Las investigaciones muestran que se espera que este mercado alcance un valor de 24.900 millones de dólares en 2025.

Boletín de la industria

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Características clave de un reconocimiento de voz eficaz

Hay muchas aplicaciones y dispositivos de reconocimiento de voz disponibles, pero las soluciones más avanzadas utilizan inteligencia artificial (IA) y machine learning. Integran la gramática, la sintaxis, la estructura y la composición de las señales de audio y voz para comprender y procesar el habla humana. Idealmente, aprenden sobre la marcha, evolucionando las respuestas con cada interacción.

El mejor tipo de sistemas también permite a las organizaciones personalizar y adaptar la tecnología a sus requisitos específicos, desde el lenguaje y los matices del habla hasta el reconocimiento de marcas. Por ejemplo:

Ponderación del lenguaje: mejore la precisión ponderando palabras específicas que se hablan con frecuencia (como nombres de productos o jerga de la industria), más allá de los términos que ya están en el vocabulario base.
Etiquetado de presentadores: genere una transcripción que cite o etiquete las contribuciones de cada presentador a una conversación de varios participantes.
Entrenamiento en acústica: ocúpese del aspecto acústico del negocio. Entrene al sistema para que se adapte a un entorno acústico (como el ruido ambiental en un centro de atención telefónica) y a los estilos de los oradores (como el tono de voz, el volumen y el ritmo).
Filtrado de blasfemias: use filtros para identificar ciertas palabras o frases y desinfectar la salida de voz.

Mientras tanto, el reconocimiento de voz continúa avanzando. Las compañías, como IBM, están realizando avances en varias áreas para mejorar la interacción entre humanos y máquinas.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

Algoritmos de reconocimiento de voz

Los caprichos del habla humana han dificultado el desarrollo. Se considera una de las áreas más complejas de la informática, ya que involucra la lingüística, las matemáticas y la estadística. Los reconocedores de voz constan de varios componentes, como la entrada de voz, la extracción de características, los vectores de características, un descodificador y una salida de palabras. El decodificador aprovecha modelos acústicos, un diccionario de pronunciación y modelos de lenguaje para determinar la salida adecuada.

La tecnología de reconocimiento de voz se evalúa en función de su tasa de precisión, es decir, tasa de error de palabras (WER) y velocidad. Varios factores pueden afectar la tasa de errores de palabras, como la pronunciación, el acento, el tono, el volumen y el ruido de fondo. Alcanzar la paridad humana, es decir, una tasa de error equivalente a la de dos humanos hablando, fue durante mucho tiempo el objetivo de los sistemas de reconocimiento de voz. La investigación de Lippmann estima que la tasa de error de palabras es de alrededor del 4 por ciento, pero ha sido difícil replicar los resultados de este documento.

Se emplean varios algoritmos y técnicas de cálculo para reconocer el habla en texto y mejorar la precisión de la transcripción. A continuación se presentan breves explicaciones de algunos de los métodos más empleados:

Procesamiento de lenguaje natural (PLN): si bien el PLN no es necesariamente un algoritmo específico empleado en el reconocimiento de voz, es el área de la inteligencia artificial que se centra en la interacción entre humanos y máquinas a través del lenguaje a través del habla y el texto. Muchos dispositivos móviles incorporan el reconocimiento de voz en sus sistemas para realizar búsquedas por voz (por ejemplo, Siri, o proporcionar más accesibilidad en torno a los mensajes de texto.
Modelos ocultos de Markov (HMM): los modelos ocultos de Markov se basan en el modelo de cadena de Markov, que estipula que la probabilidad de un estado determinado depende del estado actual, no de sus estados anteriores. Si bien un modelo de cadena de Markov es útil para eventos observables, como entradas de texto, los modelos ocultos de Markov nos permiten incorporar eventos ocultos, como etiquetas de parte del discurso, en un modelo probabilístico. Se utilizan como modelos de secuencia dentro del reconocimiento de voz, asignando etiquetas a cada unidad, es decir, palabras, sílabas, oraciones, etc.—en la secuencia. Estas etiquetas crean una asignación con la entrada proporcionada, lo que le permite determinar la secuencia de etiquetas más adecuada.
N-gramas: este es el tipo más simple de modelo de lenguaje (LM), que asigna probabilidades a oraciones o frases. Un N-grama es una secuencia de N-palabras. Por ejemplo, “pide la pizza” es un trigrama o 3 gramos y “por favor pide la pizza” es un trigrama de 4 gramos. La gramática y la probabilidad de ciertas secuencias de palabras se emplean para mejorar el reconocimiento y la precisión.
Redes neuronales: principalmente aprovechadas para algoritmos de aprendizaje profundo, las redes neuronales procesan datos de entrenamiento imitando la interconectividad del cerebro humano a través de capas de nodos. Cada nodo se compone de entradas, ponderaciones, un sesgo (o umbral) y una salida. Si ese valor de salida excede un umbral determinado, "dispara" o activa el nodo, pasando los datos a la siguiente capa de la red. Las redes neuronales aprenden esta función de mapeo a través del aprendizaje supervisado, ajustándose en función de la función de pérdida a través del proceso de descenso de gradiente. Si bien las redes neuronales tienden a ser más precisas y pueden aceptar más datos, esto tiene un costo de rendimiento, ya que tienden a ser más lentas de entrenar en comparación con los modelos de lenguaje tradicionales.
Diarización de hablantes (SD): los algoritmos de diarización de los hablantes identifican y segmentan el discurso según la identidad del hablante. Esto ayuda a los programas a distinguir mejor a las personas en una conversación y se aplica con frecuencia en los centros de atención telefónica para distinguir a los clientes y a los agentes de ventas.

Casos de uso de reconocimiento de voz

Hoy en día, una gran cantidad de industrias emplean diferentes aplicaciones de tecnología de voz, lo que ayuda a las compañías y a los consumidores a ahorrar tiempo e incluso vidas. Algunos ejemplos incluyen:

Automoción: los reconocedores de voz mejoran la seguridad del conductor al habilitar los sistemas de navegación activados por voz y las capacidades de búsqueda en las radios de los automóviles.

Tecnología: los agentes virtuales se están integrando cada vez más en nuestra vida diaria, especialmente en nuestros dispositivos móviles. Usamos comandos de voz para acceder a ellos a través de nuestros teléfonos inteligentes, como a través de Google Assistant o Siri de Apple, para tareas, como la búsqueda por voz, o a través de nuestros altavoces, a través de Alexa de Amazon o Cortana de Microsoft, para reproducir música. Seguirán integrándose en los productos cotidianos que utilizamos, alimentando el movimiento del “Internet de las cosas”.

Atención médica: los médicos y los enfermeros utilizan las aplicaciones de dictado para capturar y registrar los diagnósticos y las notas de tratamiento de los pacientes.

Ventas: la tecnología de reconocimiento de voz tiene un par de aplicaciones en las ventas. Puede ayudar a un centro de atención telefónica a transcribir miles de llamadas telefónicas entre clientes y agentes para identificar patrones y problemas comunes de llamadas. Los chatbots de IA también pueden hablar con las personas a través de un sitio web, respondiendo consultas comunes y resolviendo solicitudes básicas sin necesidad de esperar a que un agente del centro de contacto esté disponible. En ambas instancias, los sistemas de reconocimiento de voz ayudan a reducir el tiempo de resolución de los problemas de los consumidores.

Seguridad: A medida que la tecnología se integra en nuestra vida diaria, los protocolos de seguridad son una prioridad cada vez mayor. La autenticación basada en voz agrega un nivel viable de seguridad.

¿Su organización está lista para aprovechar la IA generativa?

Conozca las cinco capacidades clave de orquestación que pueden ayudar a las organizaciones a abordar los retos de la implementación eficaz de la IA generativa.

Qué es el reconocimiento de voz?