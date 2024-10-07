La technologie de l’IA vocale évolue rapidement et promet de transformer les opérations des entreprises, du service client aux communications internes.
Ces dernières semaines, OpenAI a lancé de nouveaux outils pour simplifier la création d'assistants vocaux IA et a étendu son Mode Avancé de Voix à un plus grand nombre de clients payants. Microsoft a mis à jour son Copilot AI avec des capacités vocales améliorées et des fonctionnalités de raisonnement, tandis que Meta a introduit l’IA vocale dans ses applications de messagerie.
Selon Chris Hay, ingénieur émérite chez IBM, ces avancées « pourraient changer la façon dont les entreprises communiquent avec leurs clients ».
Hay envisage un changement radical dans la façon dont les entreprises de toutes tailles interagissent avec leurs clients et gèrent leurs opérations. Selon lui, la démocratisation des outils de communication alimentés par l'IA pourrait créer des opportunités sans précédent pour les petites entreprises de rivaliser avec les plus grandes.
« Nous entrons dans l'ère des centres de contact dotés d'une IA », déclare M. Hay. « Chaque magasin familial peut avoir le même niveau de service client qu'une entreprise. C’est incroyable. »
Selon M. Hay, la clé réside dans le développement d'API en temps réel qui permettent une communication à très faible latence entre les humains et l'IA. Cela permet le type d'échanges va-et-vient auxquels les gens s'attendent dans leurs conversations de tous les jours.
« Pour avoir une conversation vocale en langage naturel, la latence des modèles doit être d'environ 200 millisecondes », note Hay. « Je ne veux pas attendre trois secondes… J’ai besoin d’une réponse rapide. »
De nouvelles technologies d’IA vocale deviennent accessibles aux développeurs grâce aux API proposées par des entreprises comme OpenAI. « Il existe une API de production à l’échelle où chacun peut simplement l'appeler et créer cette fonctionnalité lui-même, avec des connaissances très limitées en matière de modèles et de développement », explique M. Hay.
Les implications pourraient être grandes. M. Hay prévoit une « vague massive d'assistants virtuels audio » dans les mois et les années à venir à mesure que les entreprises de toutes tailles adopteront cette technologie. Ceci pourrait mener à un service client plus personnalisé, à l'émergence de nouveaux secteurs de communication basée sur l'IA et à une réorientation des emplois vers la gestion de l'IA.
Pour les consommateurs, l’expérience sera bientôt impossible à distinguer de celle d’une conversation avec un agent humain. C. Hay cite les récentes démonstrations de podcasts générés par IA via NotebookLM de Google comme preuve du chemin parcouru par la technologie.
« Si personne ne m'avait dit que c'était de l'IA, je n'y aurais vraiment pas cru », confie-t-il à propos de l'une de ces démos. « Les voix sont chargées d’émotion. Maintenant tu discutes avec l’IA en temps réel, et ça va s’améliorer. »
Les grandes entreprises technologiques s’efforcent d’améliorer la personnalité et les capacités de leurs assistants IA. L’approche de Meta consiste à intégrer des voix de célébrités à son assistant IA sur l’ensemble de ses plateformes de messagerie. Les utilisateurs peuvent sélectionner des voix générées par IA inspirées de stars telles qu’Awkwafina et Judi Dench.
Cependant, cette promesse s'accompagne de risques potentiels. M. Hay reconnaît que cette technologie pourrait être une aubaine pour les escrocs et les fraudeurs si elle tombait entre de mauvaises mains.
« Vous allez voir dans les six prochains mois une nouvelle génération d'escrocs qui ont des voix authentiques qui ressemblent à celles des hôtes de podcast que vous avez entendus, avec une inflexion et une émotion dans leur voix », prévient-il. « Des modèles qui sont là pour soutirer de l'argent aux gens, essentiellement. » Ceci pourrait rendre obsolètes les signaux d'alarme traditionnels, comme les accents inhabituels ou les voix à consonance robotique. « Tout ceci sera invisible », assure M. Hay.
Il compare la situation à une intrigue des romans Harry Potter, où les personnages doivent poser des questions personnelles pour Verify l'identité de quelqu'un. Dans le monde réel, les gens peuvent devoir adopter des tactiques similaires.
« Comment vais-je savoir que je parle bien à ma banque ? », se demande M. Hay. « Comment vais-je savoir que je parle à ma fille, qui demande de l'argent ? Les humains vont devoir s'habituer à pouvoir poser ces questions. »
Malgré ces inquiétudes, M. Hay reste optimiste quant au potentiel de cette technologie. Il souligne que l'IA pourrait améliorer considérablement l'accessibilité, en permettant aux gens d'interagir avec les entreprises et le gouvernement dans leur langue maternelle.
« Pensez par exemple aux demandes de prestations. Vous recevez de nombreux documents complexes. Imaginez la possibilité de contacter votre prestataire de services dans votre langue maternelle et de pouvoir traduire des documents très complexes dans un langage plus simple, plus facile à comprendre. »
La technologie vocale de l’IA continue d’évoluer et C. Hay pense que nous ne faisons qu’effleurer la surface des applications potentielles. Il imagine un avenir où les assistants d’IA seront intégrés de façon fluide dans des dispositifs portables, comme les lunettes de réalité augmentée Orion que Meta a récemment dévoilées.
« Lorsque cette API en temps réel sera intégrée à mes lunettes, je pourrai communiquer en temps réel tout en me déplaçant, explique C. Hay. Associée à la réalité augmentée, cette technologie va révolutionner le secteur. » Bien qu’il reconnaisse les défis éthiques, notamment un incident récent au cours duquel des lunettes intelligentes ont permis de découvrir instantanément l’identité de personnes, C. Hay reste optimiste quant aux perspectives de cette technologie.
« Il faudra définir les règles éthiques, qui sont essentielles, concède-t-il. Mais je suis optimiste. »
