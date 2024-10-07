La tecnología de IA de voz está evolucionando rápidamente y promete transformar las operaciones empresariales desde la atención al cliente hasta las comunicaciones internas.
En las últimas semanas, OpenAI lanzó nuevas herramientas para simplificar la creación de asistentes de voz de IA y amplió su Advanced Voice Mode a más clientes de pago. Microsoft ha actualizado su Copilot IA con capacidades de voz mejoradas y características de razonamiento, mientras que Meta ha introducido IA de voz en sus aplicaciones de mensajería.
Según el ingeniero distinguido de IBM, Chris Hay, estos avances "podrían cambiar la forma en que las empresas hablan con los clientes".
Hay prevé un cambio radical en la forma en que las empresas de todos los tamaños interactúan con sus clientes y gestionan sus operaciones. Afirma que la democratización de las herramientas de comunicación impulsadas por IA podría crear oportunidades sin precedentes para que las pequeñas empresas compitan con las grandes empresas.
"Estamos entrando en la era de los centros de contacto de IA", dice Hay. “Cada tienda familiar puede tener el mismo nivel de atención al cliente que una empresa. Eso es increíble”.
Hay afirma que la clave es el desarrollo de API en tiempo real que permitan una comunicación con baja latencia entre los seres humanos y la IA. Esto permite el tipo de intercambios de ida y vuelta que las personas esperan en una conversación diaria.
"Para tener una conversación en lenguaje natural, la latencia de los modelos debe ser de alrededor de 200 milisegundos", señala Hay. “No quiero esperar tres segundos… Necesito una respuesta rápida”.
La nueva tecnología de IA de voz se está volviendo accesible para los desarrolladores a través de las API que ofrecen empresas como OpenAI. “Hay una API de desarrollador de producción a escala en la que cualquiera puede simplemente llamar a la API y construir esa funcionalidad por sí mismo, con conocimientos de modelos y conocimientos de desarrollo muy limitados”, dice Hay.
Las implicaciones podrían ser de gran alcance. Hay predice una "ola masiva de asistentes virtuales de audio" que surgirá en los próximos meses y años a medida que empresas de todos los tamaños adopten la tecnología. Esto podría conducir a un servicio de atención al cliente más personalizado, a la aparición de nuevas industrias de comunicación de IA y a un cambio en los puestos de trabajo hacia la gestión de IA.
Para los consumidores, la experiencia pronto puede ser indistinguible de hablar con un agente humano. Hay señala las recientes demostraciones de podcasts generados por IA a través de NotebookLM de Google como prueba de lo lejos que ha llegado la tecnología.
“Si nadie me hubiera dicho que era IA, sinceramente, no lo habría creído”, dice sobre una de esas demostraciones. “Las voces son emocionales. Ahora estás conversando con la IA en tiempo real, y eso mejorará”.
Las principales empresas tecnológicas compiten por mejorar la personalidad y las capacidades de sus asistentes de IA. El enfoque de Meta implica introducir voces de celebridades para su asistente de IA en sus plataformas de mensajería. Los usuarios pueden elegir voces generadas por IA basadas en estrellas como Awkwafina y Judi Dench.
Sin embargo, junto con la promesa vienen los riesgos potenciales. Hay reconoce que la tecnología podría ser una bendición para los estafadores y los defraudadores si cae en manos equivocadas.
“Va a ver una nueva generación de estafadores en los próximos seis meses que tienen voces que suenan auténticas como las de los presentadores de podcasts que escuchó, con inflexión y emoción en su voz”, advierte. “Modelos que están ahí para sacar dinero de las personas, esencialmente”. Esto podría hacer que las señales de alerta tradicionales, como acentos inusuales o voces robóticas, quedaran obsoletas. “Eso va a estar escondido”, dice Hay.
Él compara la situación con un punto de la trama de las novelas de Harry Potter, donde los personajes deben hacer preguntas personales para Verify la identidad de alguien. En el mundo real, es posible que las personas deban adoptar tácticas similares.
“¿Cómo voy a saber que estoy hablando con mi banco?”, reflexiona Hay. “¿Cómo voy a saber que estoy hablando con mi hija, que está pidiendo dinero? Los humanos tendrán que acostumbrarse a poder hacer esas preguntas”.
A pesar de estas preocupaciones, Hay sigue siendo optimista sobre el potencial de la tecnología. Señala que la IA de voz podría mejorar significativamente la accesibilidad, permitiendo a las personas interactuar con empresas y servicios de gobierno en su idioma nativo.
“Piense en cosas como aplicaciones de beneficio, ¿verdad? Y obtiene todos estos documentos confusos. Piense en la capacidad de poder llamar a [su proveedor de beneficio] y está en su idioma nativo, y luego poder traducir cosas, documentos realmente complejos, a un lenguaje más simple que es más probable que entienda”.
La tecnología de voz de IA continúa evolucionando, y Hay cree que solo estamos rascando la superficie de las aplicaciones potenciales. Él imagina un futuro en el que los asistentes de IA se integren perfectamente en dispositivos wearable como los lentes de realidad aumentada Orion que Meta ha presentado recientemente.
“Cuando esa API en tiempo real está en mis lentes, puedo hablar con esa API en tiempo real mientras me muevo”, dice Hay. “Combinado con RA, esto cambiará las reglas del juego”. Aunque reconoce los retos éticos, incluido un incidente reciente en el que unas gafas inteligentes pudieron descubrir al instante la identidad de las personas, Hay sigue siendo optimista sobre el prospecto de la tecnología.
“Habrá que trabajar en la ética, y la ética es crítica”, reconoce. “Pero soy optimista”.
