¿Qué es el reconocimiento del habla?

El reconocimiento del habla, también denominado reconocimiento automático del habla (ASR), reconocimiento del habla por ordenador o Speech to Text, es una funcionalidad que permite a un programa procesar el habla humana en formato escrito. Aunque comúnmente se confunde con el reconocimiento de voz, el reconocimiento del habla se centra en la conversión del habla desde un formato verbal a un formato de texto, mientras que el reconocimiento de voz solo busca identificar la voz de un usuario concreto.

IBM ha jugado un papel destacado dentro del reconocimiento del habla desde su creación, con la publicación de "Shoebox" en 1962. Esta máquina tenía la capacidad de reconocer 16 palabras diferentes, lo cual supuso un avance sobre el trabajo inicial de Bell Labs en la década de 1950. Sin embargo, IBM no se detuvo allí, sino que continuó innovando a lo largo de los años, lanzando la aplicación VoiceType Simply Speaking en 1996. Este software de reconocimiento del habla tenía un vocabulario de 42 000 palabras, admitía inglés y español e incluía un diccionario ortográfico de 100 000 palabras. Mientras que la tecnología del habla tenía un vocabulario limitado en su etapa inicial, hoy en día se utiliza en un amplio número de sectores, como la automoción, la tecnología y la atención sanitaria. Su adopción no ha dejado de crecer en los últimos años, debido a los avances en deep learning y big data. Según los estudios (enlace externo a ibm.com), se espera que este mercado alcance un valor de 24 900 millones de USD en 2025.

Productos destacados

IBM Watson Speech to Text

IBM Watson Text to Speech

Características principales del reconocimiento eficaz del habla

Hay muchas aplicaciones y dispositivos disponibles de reconocimiento del habla, pero las soluciones más avanzadas utilizan IA y machine learning. Integran la gramática, la sintaxis, la estructura y la composición de las señales de audio y voz para comprender y procesar el habla humana. En el mejor de los casos, aprenden sobre la marcha; las respuestas van evolucionando con cada interacción.

Los mejores tipos de estos sistemas también permiten a las organizaciones personalizar y adaptar la tecnología a sus necesidades específicas, desde el lenguaje y los matices del habla hasta el reconocimiento de las marcas. Por ejemplo:

Ponderación lingüística: mejorar la precisión mediante la ponderación de palabras específicas que se mencionan con frecuencia (como nombres de productos o jerga del sector), más allá de los términos que ya están en el vocabulario básico.
Etiquetado de oradores: generar una transcripción que cita o etiqueta las contribuciones de cada orador en una conversación de varios participantes.
Formación acústica: tener en cuenta la cuestión acústica. Entrenar al sistema para adaptarse a un entorno acústico (como el ruido ambiental en un centro de atención telefónica) y a estilos de orador (como el tono de voz, el volumen y el ritmo).
Filtrado de lenguaje soez: utilizar filtros para identificar determinadas palabras o frases y sanear la salida de voz.

El reconocimiento del habla no deja de avanzar. Las empresas, como IBM, están realizando avances en diversas áreas, para mejorar al máximo la interacción entre humanos y máquinas.

Algoritmos de reconocimiento del habla

Las vaguedades del habla humana han complicado el desarrollo. Se considera una de las áreas más complejas de la informática, que incluye lingüística, matemáticas y estadística. Los reconocedores del habla están compuestos por varios componentes, como la entrada de voz, la extracción de características, los vectores de características, un decodificador y una salida de palabra. El decodificador utiliza los modelos acústicos, un diccionario de pronunciación y modelos de lenguaje para determinar la salida apropiada.

La tecnología de reconocimiento del habla se evalúa en función de su índice de precisión, es decir, del índice de errores de palabras (WER) y la velocidad. Hay varios factores que pueden afectar al índice de errores de palabras, como la pronunciación, el acento, el tono, el volumen y el ruido de fondo. Alcanzar la paridad con el ser humano, es decir, un índice de error equivalente al de dos seres humanos hablando, ha sido durante mucho tiempo el objetivo de los sistemas de reconocimiento del habla. Un estudio de Lippmann (enlace externo a ibm.com) (PDF, 352 KB) estima que el índice de errores de palabras es de alrededor del 4 por ciento, pero ha sido difícil replicar los resultados de este documento.

Obtenga más información sobre los pasos que ha dado IBM a este respecto y los récords que ha logrado en el campo del reconocimiento del habla.

Se utilizan varios algoritmos y técnicas de cálculo para reconocer el habla y convertirla en texto y mejorar la precisión de la transcripción. A continuación, se explican brevemente algunos de los métodos más utilizados:

Procesamiento de lenguaje natural (NLP): aunque NLP no es necesariamente un algoritmo específico utilizado en el reconocimiento del habla, es el área de la inteligencia artificial que se centra en la interacción entre humanos y máquinas a través del lenguaje y a través del habla y el texto. Muchos dispositivos móviles incorporan el reconocimiento del habla en sus sistemas para realizar búsquedas de voz, como por ejemplo Siri, o aumentar la accesibilidad de la escritura.
Modelos ocultos de Márkov (HMM): los modelos ocultos de Márkov se basan en el modelo de cadena Márkov, que estipula que la probabilidad de un estado determinado depende del estado actual, no de sus estados anteriores. Mientras que un modelo de cadenas Márkov es útil para eventos observables, como entradas de texto, los modelos ocultos de Márkov nos permiten incorporar eventos ocultos, como etiquetas de categorías léxicas, en un modelo probabilístico. Se utilizan como modelos de secuencia dentro del reconocimiento del habla, asignando etiquetas a cada unidad (como palabras, sílabas, frases, etc.) de la secuencia. Estas etiquetas crean una correlación con la entrada proporcionada y le permiten determinar la secuencia de etiquetas más adecuada.
N-gramas: se trata del tipo más simple de modelo de lenguaje (LM), que asigna probabilidades a oraciones o frases. Un n-grama es una secuencia de n-palabras. Por ejemplo, "pedir la pizza" es un trigrama o 3-grama, y "por favor pedir la pizza" es un 4-grama. La gramática y la probabilidad de ciertas secuencias de palabras se utilizan para mejorar el reconocimiento y la precisión.
Redes neuronales: las redes neuronales, que se utilizan principalmente para los algoritmos de deep learning, procesan los datos de entrenamiento imitando la interconectividad del cerebro humano a través de capas de nodos. Cada nodo está formado por entradas, ponderaciones, un sesgo (o umbral) y una salida. Si ese valor de salida excede un umbral determinado, "dispara" o activa el nodo, pasando datos a la siguiente capa de la red. Las redes neuronales aprenden esta función de correlación a través del aprendizaje supervisado, y se ajustan de la función de pérdida a través del proceso de pendiente de gradiente. Aunque las redes neuronales tienden a ser más precisas y pueden aceptar más datos, esto ocurre en detrimento de la eficacia del rendimiento, ya que tienden a ser más lentas de entrenar en comparación con los modelos de lenguaje tradicionales.
Diarización del orador (SD): los algoritmos de diarización de los oradores identifican y segmentan el habla por identidad del orador. De este modo, los programas pueden distinguir mejor a los individuos en una conversación y se aplica frecuentemente en los centros de atención telefónica para distinguir a los clientes y a los agentes de ventas.

Casos de uso de reconocimiento del habla

Hoy en día, se utilizan diferentes aplicaciones de tecnología del habla en un amplio número de sectores, ayudando a las empresas y a los consumidores a ahorrar tiempo e incluso salvar vidas. Por ejemplo:

Automoción: los reconocedores del habla mejoran la seguridad del conductor al habilitar sistemas de navegación activados por voz y funciones de búsqueda en la radio de los automóviles.

Tecnología: los agentes virtuales están cada vez más integrados en nuestra vida diaria, especialmente en nuestros dispositivos móviles. Utilizamos mandatos de voz para acceder a ellos a través de nuestros smartphones (como, por ejemplo, a través de Google Assistant o Siri de Apple) para tareas como la búsqueda de voz, o a través de nuestros altavoces (mediante Alexa de Amazon o Cortana de Microsoft) para reproducir música. Se van a integrar cada vez más los productos cotidianos que utilizamos, impulsando el movimiento del "Internet de las cosas".

Atención sanitaria: médicos y enfermeras utilizan aplicaciones de dictado para capturar y registrar diagnósticos de pacientes y notas de tratamiento.

Ventas: la tecnología de reconocimiento del habla tiene un par de aplicaciones en ventas. Puede ayudar a un centro de atención telefónica a transcribir miles de llamadas telefónicas entre clientes y agentes para identificar patrones de llamadas y problemas comunes. Los chatbots de IA cognitivos también pueden hablar con personas a través de una página web, responder a consultas comunes y resolver solicitudes básicas sin necesidad de esperar a que un agente del centro de contacto esté disponible. Ambos ejemplos de sistemas de reconocimiento del habla ayudan a reducir el tiempo de resolución de problemas de los consumidores.

Seguridad: a medida que la tecnología se integra en nuestra vida diaria, aumenta la prioridad de los protocolos de seguridad. La autenticación basada en voz añade un nivel de seguridad viable.

Soluciones relacionadas

IBM® Watson Speech to Text

Convierta el habla en texto mediante el reconocimiento del habla y la transcripción basados en IA.

Explore IBM Watson Speech to Text

IBM® Watson Text to Speech

Convierta texto en habla de sonido natural en distintos idiomas y voces.

Explore IBM Watson Text to Speech

Soluciones IBM® Cloud Pak

Software de cloud híbrido basado en IA.

Explore las soluciones Cloud Pak

Recursos

Descubra cómo la tecnología IBM Watson Speech to Text utiliza reconocimiento y transcripción del habla basados en IA

Habilite la transcripción del habla en varios idiomas para diversos casos de uso, incluidos, entre otros, el autoservicio de clientes, la asistencia de agente y la analítica de voz.

La aplicación de traducción obtiene una precisión del 95 %

Lingmo mejora el reconocimiento del habla y el entrenamiento de modelos con menos datos.

IBM Cloud Paks: un camino hacia la transformación digital

Descubra cómo mantenerse al día, reconsidere cómo utilizar las tecnologías como el cloud, la IA y la automatización para acelerar la innovación, y cumpla las expectativas cambiantes de los clientes.

Dé el siguiente paso

IBM ha sido pionera en el desarrollo de herramientas y servicios de reconocimiento del habla que permiten a las organizaciones automatizar sus complejos procesos de negocio, además de adquirir conocimientos empresariales esenciales.IBM Watson Speech to Text es una solución nativa en cloud que utiliza algoritmos de IA de deep learning para aplicar conocimientos sobre gramática, estructura lingüística y composición de señal de audio/voz para crear un reconocimiento del habla personalizable para una transcripción de texto óptima.

Pruebe IBM Watson Speech to Text hoy mismo