¿Qué es Watson Speech to Text? 

El reconocimiento de diálogo, también conocido como reconocimiento automático de voz (automatic speech recognition) o ASR, reconocimiento de voz por computadora o speech-to-text, es una capacidad que permite a un programa procesar la voz humana en un formato escrito. Si bien se confunde comúnmente con el reconocimiento de voz, el reconocimiento de diálogo se centra en la traducción del habla de un formato verbal a uno de texto, mientras que el reconocimiento de voz solo busca identificar la voz de un usuario individual

IBM Watson Speech to Text es una solución cloud native que utiliza algoritmos de Inteligencia Artificial y Deep Learning para aplicar conocimientos sobre gramática, estructura del lenguaje y composición de señales de audio / voz para crear un reconocimiento de voz personalizable para una transcripción de texto óptima.

Características de Watson Speech to Text

Potente reconocimiento de voz en tiempo real

Transcriba automáticamente audios de 7 idiomas en tiempo real. Identifique y transcriba rápidamente lo que se discute, incluso audios de baja calidad, de varios formatos de audio e interfaces de programación (HTTP REST, Websocket, Asynchronous HTTP).

Motor de voz altamente preciso

Personalice su modelo para mejorar la precisión para el idioma y el contenido que más le importan, como los nombres de productos, los asuntos confidenciales o los nombres de los individuos. Reconozca los diferentes oradores de su audio e identifique palabras clave específicas en tiempo real con alta precisión y confianza.

Construido para dar soporte a múltiples casos de uso

Transcriba audio para múltiples casos de uso que van desde la transcripción en tiempo real para el audio de un micrófono, hasta el análisis de 1000s de grabación de audio del centro de atención telefónica para proporcionar una analítica significativa.

Inicie con Watson Speech to Text en minutos

Inicie con Watson Speech to Text