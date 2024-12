El software de voz a texto contiene varios componentes. Estos incluyen:

Entrada de voz: un micrófono capta las palabras habladas

Extracción de características: donde la computadora identifica tonos y patrones distintivos en el habla)

Decodificador: donde el algoritmo hace coincidir las características del habla con caracteres y palabras a través de un modelo de lenguaje

Resultado de Word: donde el texto final se formatea con el puntaje y las mayúsculas correctas para que sea legible por humanos

En general, el proceso de speech to text se compone de los siguientes pasos:

Preprocesamiento de audio : una vez capturadas las grabaciones de audio, se preprocesan para mejorar la calidad y la precisión del reconocimiento. Esto incluye eliminar los ruidos de fondo y las frecuencias irrelevantes, estabilizar el nivel de volumen, segmentar el clip para facilitar el procesamiento y convertir el archivo de audio a un formato estándar.

Análisis de sonido y extracción de características: las señales de voz a menudo se representan como espectrogramas (enlace externo a ibm.com), que son representaciones visuales de frecuencias a lo largo del tiempo.1 Las partes relevantes de las grabaciones de audio se dividen en una secuencia de fonemas, que son la unidad de habla más pequeña que distingue una palabra de otra. Las principales clases de fonemas son las vocales y las consonantes (enlace externo a ibm.com).2 Los modelos de lenguaje y los decodificadores pueden hacer coincidir fonemas con palabras y luego con oraciones. Los modelos acústicos basados en el aprendizaje profundo pueden predecir qué caracteres y palabras es probable que ocurran a continuación en función del contexto.

Existen tres métodos principales para realizar el reconocimiento de voz: sincrónico, asincrónico y de transmisión.

El reconocimiento sincrónico es cuando hay una conversión inmediata de speech to text. Solo puede procesar archivos de audio de menos de un minuto. Esto se emplea en subtítulos en tiempo real para transmisiones televisivas.

El reconocimiento de transmisión es cuando el audio transmitido se procesa en tiempo real, por lo que pueden aparecer textos fragmentados mientras el usuario sigue hablando.

El reconocimiento asincrónico se produce cuando se envían grandes archivos de audio pregrabados para su transcripción. Es posible que se ponga en cola para su procesamiento y se entregue más tarde.

Empresas como Google3 (enlace externo a ibm.com), Microsoft4 (enlace externo a ibm.com), Amazon5 (enlace externo a ibm.com) e IBM® ofrecen software de voz a texto como API a través de la nube, lo que permite su uso junto con otras aplicaciones, herramientas y dispositivos.

Los iPhone de Apple tienen una función de dictado (enlace externo a ibm.com), que integra la tecnología speech to text en su iOS.6 Los usuarios de Android pueden descargar aplicaciones como Gboard (enlace externo a ibm.com) para funciones speech to text. Algunos dispositivos de pixeles permiten a los usuarios escribir con voz a través del Asistente.7 Hay varias opciones para el software de speech to text de código abierto y propietario.