La conversión de texto a voz (TTS) es un tipo de tecnología que convierte el texto de una interfaz digital en audio de sonido natural. También puede denominarse tecnología de "lectura en voz alta", habla generada por ordenador o síntesis del habla. La mayoría de las empresas ofrecen tecnología de texto a voz como interfaz de programación de aplicaciones (API).
Originalmente, los sistemas TTS se desarrollaron como una tecnología de asistencia que podría hacer que ciertos servicios fueran más accesibles para usuarios con discapacidades visuales y dificultades de aprendizaje como la dislexia. Ahora, los generadores de voz basados en inteligencia artificial permiten a los programas de conversión de texto en voz imitar mejor el habla humana. Se abre una oleada de nuevos casos de uso, como el servicio de atención al cliente por teléfono, los podcasts generados por IA, la locución y la narración de audiolibros.
Los primeros sintetizadores de voz eléctricos aparecieron alrededor de la década de 19301. Las primeras máquinas eran limitadas y complicadas de operar.
Con la llegada de los ordenadores, los programadores, a partir de finales de los años 50, trabajaron en algoritmos que pudieran acceder a una gran base de datos de archivos de audio como su fuente de sonidos. Estos algoritmos podrían encontrar coincidencias de sonido para unidades de textos y reconstruir elementos del habla. Al principio, la voz generada sonaba robótica. A medida que el trabajo de modelado caracterizaba mejor el lenguaje, los algoritmos para convertir el texto en voz mejoraban.
Cuando surgieron las técnicas de aprendizaje profundo y las redes neuronales en la década de 2000, los programadores comenzaron a modelar formas de onda directamente con grabaciones de voz, lo que condujo a voces de alta calidad que sonaban más realistas. Paralelamente, los informáticos estaban refinando el software de reconocimiento de voz y el procesamiento de lenguaje natural. El desarrollo de la IA conversacional dependía de la combinación de la tecnología de voz a texto con la de texto a voz.
Aunque la IA y el machine learning facilitaron la generación de un discurso que sonara natural, abrieron nuevas áreas de controversia, como los deepfakes. Las empresas de tecnología están trabajando en el desarrollo de sistemas de análisis de voz en tiempo real para detectar deepfakes de audio.
Las técnicas de deep learning permiten a los modelos de síntesis de voz analizar más datos y comprender mejor la relación entre las palabras y su característica acústica. Todo esto hace que la voz de la IA suene más natural. La conversión de texto a voz es un proceso de varios pasos que implica tanto el análisis lingüístico como la síntesis de voz.
Los principales componentes de texto a voz son:
Análisis lingüístico
Síntesis de voz
A las redes neuronales del modelo se les proporcionan conjuntos de datos de audio y sus transcripciones correspondientes en inglés y, a veces, en otros idiomas. Esto ayuda al sistema a comprender cómo las palabras coinciden con el habla, así como los acentos, el tono, el volumen, el ritmo y más. Después de recibir una entrada de texto, el modelo de texto a voz analiza las palabras, la puntuación y la estructura de la oración. Puede ampliar abreviaturas y expresiones, calcular la duración de las palabras, encontrar las pronunciaciones coincidentes y trazar la prosodia de frases y oraciones.
Una vez analizado el texto, el modelo utiliza un proceso de dos pasos para convertirlo en una salida de voz.
Paso 1: el modelo transforma el texto en características alineadas en el tiempo, como un espectrograma, que se utiliza para mapear la variación de frecuencias a lo largo del tiempo. Esto captura la característica detallada en el habla y los factores en pronunciaciones, acentos y tiempos de palabras dependientes del contexto.
Paso 2: una red de codificación de voz (vocoder) puede convertir las características alineadas en el tiempo en formas de onda de audio, que los ordenadores pueden convertir en voz natural. Algunos modelos de conversión de texto a voz permiten al usuario modificar el volumen, el tono, la velocidad y elegir entre distintos idiomas, acentos y estilos de habla.
Muchos dispositivos, como los teléfonos inteligentes, tienen sistemas de texto a voz integrados. La conversión de texto a voz también está disponible como programa informático, extensión del navegador, herramienta web o aplicación descargable.
La tecnología de conversión de texto a voz se desarrolló originalmente como una forma de aumentar la accesibilidad para una amplia gama de usuarios y permitir a las personas con deficiencias visuales o discapacidades lectoras interactuar con textos a través de ordenadores y otros dispositivos. Stephen Hawkings, por ejemplo, utiliza una versión de la tecnología de texto a voz.
La conversión de texto a voz ha evolucionado desde entonces hacia una gama más amplia de casos de uso, principalmente aquellos en los que la lectura no resulta práctica o en los que puede ahorrarse tiempo a un operador humano. Estas son algunas de las principales aplicaciones de la tecnología.
Contenido de audio
Educación
Chatbots y asistentes virtuales
Navegación
Comunicación multilingüe y aprendizaje de idiomas
Medios de comunicación y entretenimiento
Atención médica
El software de conversión de texto a voz puede leer en voz alta textos digitales, libros, lecciones, guías, instrucciones y mucho más para facilitar el aprendizaje electrónico y la formación en línea. Las organizaciones de noticias también pueden utilizar esta tecnología para convertir sus artículos a un formato de audio.
Las funciones de texto a voz pueden ayudar a los alumnos a prestar atención y leer junto con el texto escrito, permitiéndoles asociar palabras con pronunciaciones. También puede mejorar la comprensión lectora y el compromiso, ya que los alumnos se exponen a nuevas estructuras gramaticales o vocabulario. También puede ayudar a las personas con dificultades visuales o problemas de aprendizaje como la dislexia. El texto a voz también puede leer en voz alta los trabajos escritos elaborados por los estudiantes para ayudarles en la corrección de sus tareas de redacción.
Asistentes virtuales como Siri, de Apple, o Cortana, de Microsoft, combinan la conversión de texto a voz y voz a texto para comprender las peticiones de los usuarios e interactuar con ellos de forma natural. También pueden emitir notificaciones y leer textos cuando los usuarios están conduciendo, por ejemplo.
En entornos empresariales, los sistemas TTS pueden mejorar la calidad de las Experiencias de los usuarios al hacer que la atención al cliente sea más interactivo y natural. Los sistemas TTS pueden responder llamadas, presentar opciones y responder a los usuarios. Son una parte clave de los sistemas telefónicos automatizados.
Las capacidades de texto a voz es lo que permite al GPS y otras aplicaciones de mapas transmitir direcciones al controlador en tiempo real. Antes del texto a voz, los dispositivos de navegación se basaban en voces pregrabadas y establecían instrucciones como girar a la izquierda o a la derecha. Con la conversión de texto a voz, las instrucciones de conducción son más personalizadas. Por ejemplo, el GPS puede decir la calle exacta en la que debe girar a la izquierda.
La conversión de texto a voz puede ayudar a los usuarios a comunicarse en distintos idiomas, por ejemplo, a través de una aplicación como Google Translate. Este tipo de aplicaciones puede traducir audio de un idioma a otro, lo que puede utilizarse para doblar contenidos de vídeo. Puede ayudar a exponer a los estudiantes de idiomas al habla natural, lo que puede ayudarlos a entender cómo se pronuncian las diferentes palabras.
A medida que avanza la tecnología TTS, puede emplear para ahorrar costos en la producción de medios. Por ejemplo, la tecnología podría generar comentarios y narraciones en juegos de video, así como voces en off para los personajes. Algunos estudios trabajan con actores de voz humanos para ayudar a mejorar el rendimiento de sus voces de IA.
Las organizaciones de atención médica utilizan la tecnología de texto a voz para comunicarse con los pacientes de forma accesible. Esto incluye agregar versiones de audio de contenido y literatura publicados en sus páginas web o redes sociales. Algunas instituciones también añadirán instrucciones audioguiadas sobre cómo utilizar determinados dispositivos médicos. Las interfaces de voz con IA generativa también pueden ayudar a recordar a los pacientes las próximas citas a través de llamadas, o alertarles de noticias o actualizaciones de sus historiales. Esto puede ser especialmente importante para pacientes con discapacidades visuales, problemas del habla, limitaciones de movilidad y problemas de aprendizaje.
1 Text-to-Speech Technology (Speech Synthesis), American National Standards Institute, 7 de diciembre de 2015
Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.
Acelere el valor de negocio de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.