La tecnología de IA de voz está evolucionando rápidamente y promete transformar las operaciones empresariales, desde el servicio de atención al cliente a las comunicaciones internas.
En las últimas semanas, OpenAI ha lanzado nuevas herramientas para simplificar la creación de asistentes de voz de IA y ha ampliado su modo avanzado de voz a más clientes de pago. Microsoft ha actualizado su Copilot IA con capacidades de voz mejoradas y características de razonamiento, mientras que Meta ha introducido IA de voz en sus aplicaciones de mensajería.
Según el ingeniero distinguido de IBM Chris Hay, estos avances "podrían cambiar la forma en que las empresas hablan con los clientes".
Hay prevé un cambio radical en la forma en que las empresas de todos los tamaños se relacionan con sus clientes y gestionan las operaciones. Afirma que la democratización de las herramientas de comunicación con IA podría crear oportunidades sin precedentes para que las pequeñas empresas compitan con las grandes.
"Estamos entrando en la era de los contact center de IA", afirma Hay. "Cada tienda familiar puede tener el mismo nivel de servicio de atención al cliente que una empresa. Eso es algo increíble".
Hay afirma que la clave está en el desarrollo de API en tiempo real que permitan una comunicación de baja latencia entre los humanos y la IA. Esto permite el tipo de intercambios de ida y vuelta que la gente espera en una conversación cotidiana.
"Para mantener una conversación en lenguaje natural, la latencia de los modelos debe ser de unos 200 milisegundos", señala Hay. “No quiero esperar tres segundos… Necesito una respuesta rápida”.
La nueva tecnología de IA de voz se está volviendo accesible para los desarrolladores a través de las API que ofrecen empresas como OpenAI. "Hay una API de desarrollo de producción a escala en la que cualquiera puede llamar a la API y crear esa funcionalidad por sí mismo, con un conocimiento muy limitado del modelo y del desarrollo", afirma Hay.
Las implicaciones podrían ser de gran alcance. Hay predice que en los próximos meses y años surgirá una “ola masiva de asistentes virtuales de audio” a medida que empresas de todos los tamaños adopten la tecnología. Esto podría conducir a un servicio de atención al cliente más personalizado, a la aparición de nuevos sectores de comunicación de IA y a un cambio en los puestos de trabajo hacia la gestión de IA.
Para los consumidores, la experiencia pronto será indistinguible de la de hablar con un agente humano. Hay señala las recientes demostraciones de pódcasts generados por IA a través de NotebookLM de Google como prueba de lo lejos que ha llegado la tecnología.
"Si alguien me hubiera dicho que era IA, sinceramente, no lo habría creído", dice sobre una de esas demostraciones. "Las voces son emocionales. Ahora estás conversando con la IA en tiempo real, y eso mejorará”.
Las principales empresas tecnológicas se apresuran a mejorar las personalidades y capacidades de sus asistentes de IA. El enfoque de Meta consiste en introducir voces de famosos para su asistente de IA en sus plataformas de mensajería. Los usuarios pueden elegir voces generadas por IA basadas en estrellas como Awkwafina o Judi Dench.
Sin embargo, junto con la promesa vienen los riesgos potenciales. Hay reconoce que la tecnología podría ser una bendición para los estafadores y los defraudadores si cae en malas manos.
"Vamos a ver una nueva generación de estafadores en los próximos seis meses con voces que suenan auténticas, similares a las de los presentadores de pódcasts que has escuchado, con inflexiones y emoción en la voz", advierte. "Modelos que están ahí para sacar dinero a la gente, esencialmente". Esto podría dejar obsoletas las señales de alerta tradicionales, como los acentos inusuales o las voces que suenan robóticas. "Eso va a quedar oculto", dice Hay.
Compara la situación con un punto de la trama de las novelas de Harry Potter, en el que los personajes deben hacer preguntas personales para verificar la identidad de alguien. En el mundo real, es posible que las personas deban adoptar tácticas similares.
"¿Cómo voy a saber que estoy hablando con mi banco?", reflexiona Hay. “¿Cómo voy a saber que estoy hablando con mi hija, que me está pidiendo dinero? Los humanos tendrán que acostumbrarse a poder hacer esas preguntas”.
A pesar de estas preocupaciones, Hay sigue siendo optimista sobre el potencial de la tecnología. Señala que la IA de voz podría mejorar significativamente la accesibilidad y permitir a las personas interactuar con las empresas y los servicios de gobierno en su idioma nativo.
"Piense en cosas como las solicitudes de prestaciones, ¿vale? Y usted tiene todos esos documentos confusos. Piense en la posibilidad de llamar a [su proveedor de prestaciones] y que sea en su idioma materno, y luego poder traducir cosas (documentos realmente complejos) a un idioma más sencillo que probablemente entienda mejor."
La tecnología de voz de IA sigue evolucionando y Hay cree que solo estamos arañando la superficie de las posibles aplicaciones. Prevé un futuro en el que los asistentes de IA se integran de manera fluida en dispositivos wearable como las gafas de realidad aumentada Orion que Meta presentó recientemente.
"Cuando esa API en tiempo real está en mis gafas, puedo hablar con ella en tiempo real mientras me muevo", dice Hay. “Combinado con RA, esto cambiará las reglas del juego”. Aunque reconoce los desafíos éticos, incluido un incidente reciente en el que unas gafas inteligentes fueron capaces de descubrir al instante la identidad de las personas, Hay sigue siendo optimista sobre las perspectivas de la tecnología.
"Habrá que resolver la ética, y la ética es crítica", reconoce. "Pero soy optimista".
