¿Qué es la conversión de texto a voz?

Vista trasera de una programadora informática haciendo programación en una computadora en un escritorio en la oficina

Autores

Charlotte Hu

IBM Content Contributor

Amanda Downie

Staff Editor

IBM Think

La conversión de texto a voz (TTS) es un tipo de tecnología que convierte el texto de una interfaz digital en audio de sonido natural. También puede denominarse tecnología de "lectura en voz alta", habla generada por ordenador o síntesis del habla. La mayoría de las empresas ofrecen tecnología de texto a voz como interfaz de programación de aplicaciones (API).

Originalmente, los sistemas TTS se desarrollaron como una tecnología de asistencia que podría hacer que ciertos servicios fueran más accesibles para usuarios con discapacidades visuales y dificultades de aprendizaje como la dislexia. Ahora, los generadores de voz basados en inteligencia artificial permiten a los programas de conversión de texto en voz imitar mejor el habla humana. Se abre una oleada de nuevos casos de uso, como el servicio de atención al cliente por teléfono, los podcasts generados por IA, la locución y la narración de audiolibros.

Evolución de la conversión de texto a voz

Los primeros sintetizadores de voz eléctricos aparecieron alrededor de la década de 19301. Las primeras máquinas eran limitadas y complicadas de operar.

Con la llegada de los ordenadores, los programadores, a partir de finales de los años 50, trabajaron en algoritmos que pudieran acceder a una gran base de datos de archivos de audio como su fuente de sonidos. Estos algoritmos podrían encontrar coincidencias de sonido para unidades de textos y reconstruir elementos del habla. Al principio, la voz generada sonaba robótica. A medida que el trabajo de modelado caracterizaba mejor el lenguaje, los algoritmos para convertir el texto en voz mejoraban.

Cuando surgieron las técnicas de aprendizaje profundo y las redes neuronales en la década de 2000, los programadores comenzaron a modelar formas de onda directamente con grabaciones de voz, lo que condujo a voces de alta calidad que sonaban más realistas. Paralelamente, los informáticos estaban refinando el software de reconocimiento de voz y el procesamiento de lenguaje natural. El desarrollo de la IA conversacional dependía de la combinación de la tecnología de voz a texto con la de texto a voz.

Aunque la IA y el machine learning facilitaron la generación de un discurso que sonara natural, abrieron nuevas áreas de controversia, como los deepfakes. Las empresas de tecnología están trabajando en el desarrollo de sistemas de análisis de voz en tiempo real para detectar deepfakes de audio.

Mujer de color trabajando en una computadora portátil

Manténgase al día con las últimas noticias tecnológicas

Obtenga insights semanales, investigaciones y opiniones de expertos sobre IA, seguridad, nube y mucho más en el boletín Think.

¿Cómo funciona la conversión de texto a voz?

Las técnicas de deep learning permiten a los modelos de síntesis de voz analizar más datos y comprender mejor la relación entre las palabras y su característica acústica. Todo esto hace que la voz de la IA suene más natural. La conversión de texto a voz es un proceso de varios pasos que implica tanto el análisis lingüístico como la síntesis de voz.

Los principales componentes de texto a voz son:

  • Análisis lingüístico

  • Síntesis de voz

Análisis lingüístico

A las redes neuronales del modelo se les proporcionan conjuntos de datos de audio y sus transcripciones correspondientes en inglés y, a veces, en otros idiomas. Esto ayuda al sistema a comprender cómo las palabras coinciden con el habla, así como los acentos, el tono, el volumen, el ritmo y más. Después de recibir una entrada de texto, el modelo de texto a voz analiza las palabras, la puntuación y la estructura de la oración. Puede ampliar abreviaturas y expresiones, calcular la duración de las palabras, encontrar las pronunciaciones coincidentes y trazar la prosodia de frases y oraciones.

Síntesis de voz

Una vez analizado el texto, el modelo utiliza un proceso de dos pasos para convertirlo en una salida de voz.

  • Paso 1: el modelo transforma el texto en características alineadas en el tiempo, como un espectrograma, que se utiliza para mapear la variación de frecuencias a lo largo del tiempo. Esto captura la característica detallada en el habla y los factores en pronunciaciones, acentos y tiempos de palabras dependientes del contexto.

  • Paso 2: una red de codificación de voz (vocoder) puede convertir las características alineadas en el tiempo en formas de onda de audio, que los ordenadores pueden convertir en voz natural. Algunos modelos de conversión de texto a voz permiten al usuario modificar el volumen, el tono, la velocidad y elegir entre distintos idiomas, acentos y estilos de habla.

Muchos dispositivos, como los teléfonos inteligentes, tienen sistemas de texto a voz integrados. La conversión de texto a voz también está disponible como programa informático, extensión del navegador, herramienta web o aplicación descargable.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Usos de la conversión de texto a voz

La tecnología de conversión de texto a voz se desarrolló originalmente como una forma de aumentar la accesibilidad para una amplia gama de usuarios y permitir a las personas con deficiencias visuales o discapacidades lectoras interactuar con textos a través de ordenadores y otros dispositivos. Stephen Hawkings, por ejemplo, utiliza una versión de la tecnología de texto a voz.

La conversión de texto a voz ha evolucionado desde entonces hacia una gama más amplia de casos de uso, principalmente aquellos en los que la lectura no resulta práctica o en los que puede ahorrarse tiempo a un operador humano. Estas son algunas de las principales aplicaciones de la tecnología.

  • Contenido de audio

  • Educación

  • Chatbots y asistentes virtuales

  • Navegación

  • Comunicación multilingüe y aprendizaje de idiomas

  • Medios de comunicación y entretenimiento

  • Atención médica

Contenido de audio

El software de conversión de texto a voz puede leer en voz alta textos digitales, libros, lecciones, guías, instrucciones y mucho más para facilitar el aprendizaje electrónico y la formación en línea. Las organizaciones de noticias también pueden utilizar esta tecnología para convertir sus artículos a un formato de audio.

Educación

Las funciones de texto a voz pueden ayudar a los alumnos a prestar atención y leer junto con el texto escrito, permitiéndoles asociar palabras con pronunciaciones. También puede mejorar la comprensión lectora y el compromiso, ya que los alumnos se exponen a nuevas estructuras gramaticales o vocabulario. También puede ayudar a las personas con dificultades visuales o problemas de aprendizaje como la dislexia. El texto a voz también puede leer en voz alta los trabajos escritos elaborados por los estudiantes para ayudarles en la corrección de sus tareas de redacción.

Chatbots y asistentes virtuales

Asistentes virtuales como Siri, de Apple, o Cortana, de Microsoft, combinan la conversión de texto a voz y voz a texto para comprender las peticiones de los usuarios e interactuar con ellos de forma natural. También pueden emitir notificaciones y leer textos cuando los usuarios están conduciendo, por ejemplo.

En entornos empresariales, los sistemas TTS pueden mejorar la calidad de las Experiencias de los usuarios al hacer que la atención al cliente sea más interactivo y natural. Los sistemas TTS pueden responder llamadas, presentar opciones y responder a los usuarios. Son una parte clave de los sistemas telefónicos automatizados.

Navegación

Las capacidades de texto a voz es lo que permite al GPS y otras aplicaciones de mapas transmitir direcciones al controlador en tiempo real. Antes del texto a voz, los dispositivos de navegación se basaban en voces pregrabadas y establecían instrucciones como girar a la izquierda o a la derecha. Con la conversión de texto a voz, las instrucciones de conducción son más personalizadas. Por ejemplo, el GPS puede decir la calle exacta en la que debe girar a la izquierda.

Comunicación multilingüe y aprendizaje de idiomas

La conversión de texto a voz puede ayudar a los usuarios a comunicarse en distintos idiomas, por ejemplo, a través de una aplicación como Google Translate. Este tipo de aplicaciones puede traducir audio de un idioma a otro, lo que puede utilizarse para doblar contenidos de vídeo. Puede ayudar a exponer a los estudiantes de idiomas al habla natural, lo que puede ayudarlos a entender cómo se pronuncian las diferentes palabras.

Medios de comunicación y entretenimiento

A medida que avanza la tecnología TTS, puede emplear para ahorrar costos en la producción de medios. Por ejemplo, la tecnología podría generar comentarios y narraciones en juegos de video, así como voces en off para los personajes. Algunos estudios trabajan con actores de voz humanos para ayudar a mejorar el rendimiento de sus voces de IA.

Atención médica

Las organizaciones de atención médica utilizan la tecnología de texto a voz para comunicarse con los pacientes de forma accesible. Esto incluye agregar versiones de audio de contenido y literatura publicados en sus páginas web o redes sociales. Algunas instituciones también añadirán instrucciones audioguiadas sobre cómo utilizar determinados dispositivos médicos. Las interfaces de voz con IA generativa también pueden ayudar a recordar a los pacientes las próximas citas a través de llamadas, o alertarles de noticias o actualizaciones de sus historiales. Esto puede ser especialmente importante para pacientes con discapacidades visuales, problemas del habla, limitaciones de movilidad y problemas de aprendizaje.

Notas de pie de página

Text-to-Speech Technology (Speech Synthesis), American National Standards Institute, 7 de diciembre de 2015

Soluciones relacionadas
IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate
Herramientas y API de procesamiento de lenguaje natural

Acelere el valor de negocio de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.

Explorar las soluciones de PLN
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate Explorar las soluciones de PLN