El reconocimiento del habla, también denominado reconocimiento automático del habla (ASR), reconocimiento del habla por computadora o conversión de voz a texto, es una función que utiliza el procesamiento de lenguaje natural (PLN) para procesar el habla humana y transformarlo a un formato escrito. Si bien comúnmente se confunde con el reconocimiento de voz, el reconocimiento del habla se enfoca en la traducción del habla de un formato verbal a uno de texto, mientras que el reconocimiento de voz solo busca identificar la voz de un usuario individual.

IBM ha tenido un papel fundamental en el reconocimiento del habla desde sus inicios, con el lanzamiento de "Shoebox" en 1962. Esta máquina tenía la capacidad de reconocer 16 palabras diferentes, lo que avanzaba el trabajo inicial de Bell Labs de la década de 1950. Sin embargo, IBM no se detuvo ahí, sino que continuó innovando a lo largo de los años, y lanzó la aplicación VoiceType Simply Speaking en 1996. Este software de reconocimiento del habla tenía un vocabulario de 42,000 palabras, admitía inglés y español e incluía un diccionario de ortografía de 100,000 palabras. Si bien la tecnología del habla tenía un vocabulario limitado en sus inicios, hoy en día se utiliza en diversas industrias como, por ejemplo, la automotriz, la tecnología y el cuidado de la salud. Su adopción solo ha seguido avanzando en los últimos años debido a los avances en el deep learning y el big data. Un estudio (enlace externo a ibm.com) muestra que se espera que este mercado tenga un valor de USD 24.9 para el 2025.