Configuration des paramètres vocaux pour les agents

Créez et gérez des configurations vocales qui relient vos agents aux services vocaux, permettant ainsi des conversations orales via des canaux audio tels que « Phone with Genesys Audio Connector » et « Phone with SIP ».

Aperçu : cette fonctionnalité n'est actuellement disponible qu'en mode aperçu.

Configurez votre agent pour qu'il puisse communiquer avec les utilisateurs en utilisant la voix. Les interactions vocales peuvent améliorer l'accessibilité et renforcer l'engagement des utilisateurs. Lorsqu'un agent est configuré avec une voix, cette voix peut être utilisée dans les canaux audio, y compris le téléphone avec Genesys Audio Connector et le téléphone avec SIP. Cette intégration garantit une expérience de conversation cohérente et naturelle dans toutes les interactions vocales prises en charge.

Sur IBM watsonx Orchestrate, vous pouvez attribuer une configuration vocale à plusieurs agents. Cependant, chaque agent, quel que soit l'environnement ( Draft ou Live ), ne peut disposer que d'une seule configuration vocale.

Avant de commencer

Avant de configurer une voix pour votre agent, assurez-vous que vous disposez des ressources nécessaires pour les services Speech to Text et Text to Speech que vous prévoyez d'utiliser.

  • Si vous sélectionnez IBM Watson Speech to Text et IBM Watson Text to Speech comme fournisseurs de services :

    • Accès aux instances de service IBM Watson Speech to Text et Text to Speech. Ces services sont nécessaires pour convertir les données vocales en texte et pour générer des réponses vocales à partir des données textuelles.

    • Détails de l'API, y compris la clé de l'API, pour les deux instances. Vous avez besoin de la clé API et de l'adresse de l'endpoint URL pour chaque service afin de les connecter à votre agent. Pour obtenir les détails de l'API ou créer de nouvelles instances de ces services, rendez-vous sur la page IBM Cloud.

  • Si vous sélectionnez « ElevenLabs, », vous pouvez soit importer votre propre clé API depuis ElevenLabs, soit vous inscrire sur ElevenLabs pour créer une nouvelle clé API.

Important :
  • Inclure les champs Voices Text to Speech (lire), Models (lire) dans ElevenLabs.

  • Être généré à partir d'un compte d'essai payant ou d'entreprise. Les comptes personnels gratuits ne fonctionneront pas.

Création d'une configuration vocale

Pour activer les interactions vocales dans votre agent, vous devez d'abord créer une configuration vocale. Cette configuration connecte votre agent aux services Speech to Text et Text to Speech pour comprendre les entrées vocales et répondre avec une synthèse vocale. Après avoir créé la configuration, affectez-la à votre agent pour prendre en charge les conversations vocales.

Pour créer une configuration vocale et l'activer dans un agent :

  1. Dans le menu principal, sélectionnez Gérer > Voix.

  2. Cliquez sur Créer une configuration vocale.

  3. Dans l'onglet Détails, entrez un nom pour la configuration vocale et cliquez sur Suivant.

  4. Dans l'onglet Speech to Text vous devez configurer le service Watson Speech to Text.

    Remarque :

    watsonx Orchestrate prend désormais en charge Deepgram en tant que fournisseur d' Speech to Text.

    1. Sélectionnez le fournisseur de services de conversion de la parole en texte.

    2. Si vous sélectionnez Watson Speech to Text :

      1. Saisissez l'API URL de l'instance Watson Speech to Text.

      2. Saisissez la clé API de cette instance.

      3. Sélectionnez le modèle linguistique Speech to Text.

      4. Saisissez l'identifiant unique du modèle linguistique personnalisé que vous souhaitez utiliser. Laissez le champ vide si vous ne souhaitez pas de personnalisation.

        Remarque :

        Un modèle personnalisé ne peut être utilisé qu'avec le modèle de base pour lequel il est créé. Le modèle de base doit correspondre au modèle linguistique que vous sélectionnez. Par défaut, aucun modèle de langue personnalisé n'est utilisé avec une requête.

      5. Sélectionnez une valeur pour définir le niveau auquel le son de fond et les conversations secondaires doivent être supprimés dans le son d'entrée. La valeur par défaut est 0.0, ce qui ne permet pas de supprimer le son de fond.

      6. Sélectionnez une valeur pour définir la durée du silence. Cette valeur indique l'intervalle de pause auquel le service divise une transcription en plusieurs résultats finaux s'il rencontre un silence. Par défaut, le service utilise un intervalle de pause de 0.8 secondes pour toutes les langues. Pour le chinois, il utilise un intervalle de 0.6 secondes.

      7. Activez le filtre anti-grossièreté si vous souhaitez que le service supprime les mots grossiers de ses résultats. Par défaut, le service remplace toutes les grossièretés par une série d'astérisques dans la transcription.

        Remarque :

        La fonctionnalité de filtrage des mots grossiers n'est généralement disponible qu'en anglais américain et en japonais.

      8. Sélectionnez Faible latence si vous souhaitez recevoir les résultats plus rapidement en optimisant la vitesse par rapport à la précision.

        Remarque :

        La faible latence n'est pas disponible avec les grands modèles de reconnaissance vocale ni avec les modèles de la génération précédente.

      9. Activez la mise en forme intelligente si vous souhaitez convertir les dates, les heures, les chiffres, les numéros de téléphone, les devises, les adresses e-mail et les adresses Web en formats lisibles qui facilitent le traitement ultérieur de la transcription.

      10. Activez l'option « Masquage » si vous souhaitez masquer les données numériques dans les transcriptions finales. Il expurge les données numériques sensibles, telles que les numéros de carte de crédit. Dans tout nombre comportant trois chiffres consécutifs ou plus, chaque chiffre est remplacé par un caractère X.

      Pour plus d'informations, consultez la documentation de l'API « Speech to Text » et le récapitulatif des paramètres.

    3. Si vous sélectionnez Deepgram :

      1. Sélectionnez le modèle de la voix.

      2. Sélectionnez la langue de la voix.

        Remarque :

        Si vous sélectionnez « Multilingue », vous pouvez transcrire des conversations dans lesquelles les interlocuteurs passent d'une langue à l'autre.

      3. Activez l 'option « Utiliser les chiffres » si vous souhaitez convertir les nombres au format numérique.

      4. Entrez les mots clés qui aident le modèle à reconnaître les mots importants, tels que les noms, les expressions peu courantes ou le jargon.

  5. Cliquez sur Suivant.

  6. Dans l'onglet Text to Speech vous devez configurer le service Watson Text to Speech.

    Remarque :

    watsonx Orchestrate prend désormais en charge ElevenLabs et Deepgram en tant que fournisseurs d' Text to Speech s.

    1. Sélectionnez le fournisseur de synthèse vocale.

    2. Si vous sélectionnez Watson Text to Speech :

      1. Saisissez l'API URL de l'instance Watson Text to Speech.

      2. Saisissez la clé API de cette instance.

      3. Sélectionnez la langue du modèle.

      4. Sélectionnez la voix du modèle.

      5. Régler la vitesse et la hauteur de la voix.

      6. Saisissez l'identifiant unique du modèle personnalisé que vous souhaitez utiliser. Laissez le champ vide si vous ne souhaitez pas de personnalisation.

        Pour plus d'informations, consultez la documentation d' Text to Speech.

    3. Si vous sélectionnez ElevenLabs :

      1. Sélectionnez la région du centre de données appropriée.

        Remarque :

        ElevenLabs exploite des centres de données tant aux États-Unis que dans l'Union européenne. L'accès à la région UE est réservé aux utilisateurs disposant d'un compte ElevenLabs spécifique à l'UE, spécialement configuré à cet effet.

      2. Saisissez la clé API correspondant à la région du centre de données que vous avez sélectionnée.

      3. Sélectionnez le modèle.

      4. Sélectionnez la voix du modèle.

      5. Sélectionnez la langue du modèle.

      6. Activez l 'option « Amplification du haut-parleur » si vous souhaitez améliorer la qualité de la voix.

      7. Définir la vitesse et la stabilité de la voix.

      8. Définir le style et la similitude de la voix.

      9. Sélectionnez soit Auto, soit On, soit Off selon que vous souhaitez ou non une normalisation du texte.

    4. Si vous sélectionnez Deepgram :

      1. Sélectionnez la langue du modèle.

      2. Sélectionnez la voix du modèle.

  7. Utilisez l' aperçu sur le côté droit de la page pour tester la voix que vous avez configurée.

  8. Cliquez sur Suivant.

  9. Configurer les mises en attente pendant les interactions vocales dans les repères audio.

    1. Désactivez l'option Jouer un son de frappe pendant que l'agent génère une réponse si vous ne souhaitez pas entendre un son de frappe pendant les réponses de l'IA. Par défaut, cette option est sélectionnée. Le son de frappe ou le flux d'attente n'est joué que lorsque le système détecte que l'agent prend plus de temps que prévu pour répondre.

      1. Si vous sélectionnez cette option, choisissez une valeur pour définir la durée (en secondes) pendant laquelle le son de frappe est émis.

    2. Définir le message de pré-attente qui est diffusé avant que la musique d'attente ne commence.

    3. Sélectionnez la musique qui est diffusée lorsque l'appel est en attente.

    4. Sélectionnez une valeur pour définir la durée (en secondes) pendant laquelle la musique est diffusée avant le début du message d'attente.

    5. Définir le message qui est diffusé lorsque les appelants sont en attente.

  10. Activez la détection d'activité vocale (VAD) si vous souhaitez configurer la manière dont les interruptions sont gérées pendant une conversation vocale.

    1. Sélectionnez une valeur pour définir le seuil de confiance pour la détection de la parole.

    2. Saisissez la valeur de temps (en secondes) qui correspond à la durée minimale de la parole détectée avant qu'elle ne soit considérée comme valide et ne déclenche une interruption.

    3. Entrez la valeur du temps (en secondes) qui correspond à la durée du silence nécessaire pour marquer la fin de la parole.

    4. Sélectionnez une valeur pour définir le niveau de volume minimum pour que la parole soit prise en compte.

  11. Configurez les paramètres DTMF (Dual-Tone Multi-Frequency) pour personnaliser la manière dont votre agent traite les entrées au clavier.

    1. Sélectionnez une valeur pour définir le temps d'attente maximum pour une saisie supplémentaire au clavier après avoir appuyé sur un chiffre.

    2. Sélectionnez le caractère de terminaison DTMF qui met fin à la collecte des données, par exemple #.

    3. Entrez une valeur pour définir le nombre maximum de chiffres à collecter avant que l'entrée ne soit traitée.

  12. Activez l'option « Gérer le silence de l'utilisateur » si vous souhaitez configurer la détection du silence et les invites de reprise pour votre agent.

    1. Sélectionnez une valeur pour définir le seuil de durée du silence. L'agent attend pendant cette durée (en secondes), puis identifie l'utilisateur comme silencieux.

    2. Entrez le nombre de répétitions d'enregistrement. Cette valeur détermine le nombre de fois où l'agent tente de réengager un utilisateur silencieux. Après ces tentatives, l'agent met fin à la conversation.

    3. Entrez le message d'invite utilisé à la fois pour l'enregistrement initial et les enregistrements répétés.

    4. Entrez le message à diffuser avant la fin de l'appel lorsque le nombre maximal de tentatives est atteint. Laissez ce champ vide pour mettre fin à l'appel sans diffuser de message.

  13. Cliquez sur Terminer.

Vous disposez d'une configuration vocale permettant de définir les interactions vocales pour votre agent.

Modification de la configuration vocale

Vous pouvez mettre à jour une configuration vocale existante pour modifier les paramètres vocaux utilisés par votre agent. En modifiant une configuration, vous pouvez passer à une voix différente ou ajuster la prise en charge des langues sans créer une nouvelle configuration.

Pour modifier la configuration vocale :

  1. Sur la page Voix, choisissez la configuration vocale et cliquez sur les trois ellipses verticales.

  2. Sélectionnez l'option Modifier.

  3. Appliquez les modifications à l'aide des trois onglets.

  4. Cliquez sur Sauvegarder.

Après avoir enregistré vos modifications, la configuration vocale mise à jour est appliquée à votre agent.

Suppression de la configuration vocale

Si une configuration vocale n'est plus nécessaire, vous pouvez la supprimer pour que les paramètres de votre agent restent organisés et à jour.

Pour supprimer la configuration vocale :

  1. Sur la page Voix, choisissez la configuration vocale et cliquez sur les trois ellipses verticales.

  2. Sélectionnez l'option Supprimer.

  3. Dans la fenêtre contextuelle qui s'affiche, cliquez sur Supprimer.

Remarque :

Si la configuration vocale est associée à un ou plusieurs agents, vous devez supprimer tous les liens avant de procéder à la suppression.

Une fois la configuration supprimée, elle est retirée de la liste et ne peut plus être utilisée par aucun agent.

Sélectionner la voix de l'agent

Après avoir créé une configuration vocale, attribuez-la à votre agent pour activer la communication vocale. Cette étape connecte votre agent aux services vocaux configurés, ce qui lui permet de traiter les entrées vocales et de répondre par une synthèse vocale. L'attribution de la configuration vocale permet de s'assurer que votre agent prend en charge les interactions vocales lors des conversations.

Pour sélectionner la configuration vocale de votre agent :

  1. Ouvrez l'agent dans le générateur d'agents.

  2. Dans l'onglet Profil, allez dans la section Modalité vocale.

  3. Dans le champ « Configuration vocale », commencez à saisir le nom de la configuration vocale. Dans la liste qui s'affiche, sélectionnez la configuration vocale.

    Remarque :

    Pour activer la modalité vocale, vous devez créer au moins une configuration vocale.

  4. Configurez le type de message d'accueil que l'agent diffuse au début d'une interaction vocale.

    • Sélectionnez « Message de bienvenue généré par IA » si vous souhaitez écouter un message de bienvenue généré par IA.

    • Sélectionnez Message d'accueil statique si vous souhaitez entendre le message d'accueil personnalisé que vous avez défini pour l'agent dans Message d'accueil.

Après avoir sélectionné la configuration vocale, votre agent est prêt à gérer les interactions vocales.

Test de la voix

Après avoir attribué une configuration vocale à votre agent, vous pouvez la tester dans l'aperçu du chat pour vous assurer que les interactions vocales fonctionnent comme prévu. Les tests vous permettent de vérifier que l'agent peut reconnaître les données vocales et y répondre correctement avant de le déployer.

Pour tester la configuration vocale :

  1. Ouvrez l'agent dans le générateur d'agents.

  2. Dans l 'aperçu, cliquez sur Icône du mode vocal pour lancer le chat vocal.

  3. Autorisez l'accès au microphone dans votre navigateur lorsque vous y êtes invité.

  4. Cliquez ici Icône de sourdine pour couper ou réactiver le son de la conversation.

  5. Cliquez sur Afficher le clavier pour ouvrir le clavier.

    Vous pouvez utiliser le clavier pour tester les paramètres DTMF sans mettre fin à la conversation vocale en cours ou passer un appel téléphonique. Lorsque vous utilisez le clavier, celui-ci envoie des événements DTMF à l'agent. L'ouverture du clavier ne met pas fin à la conversation vocale. Vous pouvez continuer à parler pendant que le clavier est affiché.

  6. Cliquez sur Masquer le clavier pour fermer le clavier et poursuivre la session de chat vocal.

  7. Une fois votre conversation avec l'agent terminée, cliquez sur Icône de sortie du mode vocal pour mettre fin à la conversation vocale.

    Vous pouvez poursuivre le mode chat dans la même session lorsque le chat vocal se termine. Dès que vous commencez à taper, le mode vocal passe automatiquement en mode discussion et Icône du mode vocal s'affiche. Icône « Envoyer un message » Les commandes du mode vocal et d'envoi de messages sont désormais regroupées en une seule commande, pour une interface de chat plus épurée.

Après le test, examinez les réponses de l'agent pour confirmer que la voix se comporte comme prévu. Si nécessaire, modifiez la configuration vocale pour effectuer des ajustements avant de déployer l'agent.

Activation du mode vocal

Pour parler à l'agent sur la page Orchestrate Chat, vous devez activer le mode vocal. L'activation du mode vocal permet de s'assurer que votre agent est prêt pour les interactions vocales dans l'environnement de chat en direct.

Pour activer le mode vocal :

  1. Ouvrez l'agent dans le générateur d'agents.

  2. Dans l'onglet Canaux, sélectionnez la section Page d'accueil et activez la bascule.

Une fois le mode vocal activé, cliquez sur Icône du mode vocal pour commencer à parler avec l'agent sur la page Orchestrate Chat. Autorisez l'accès au microphone dans votre navigateur lorsque vous y êtes invité.

Pendant votre conversation, vous pouvez cliquer sur Icône de sourdine pour activer ou désactiver le mode silencieux. En cliquant sur Afficher le clavier, vous pouvez ouvrir le clavier et l'utiliser pour tester les paramètres DTMF sans mettre fin à la conversation vocale en cours ou passer un appel téléphonique. Lorsque vous utilisez le clavier, celui-ci envoie des événements DTMF à l'agent. L'ouverture du clavier ne met pas fin à l'interaction vocale. Vous pouvez continuer à parler pendant que le clavier est affiché. En cliquant sur Masquer le clavier, vous pouvez fermer le clavier et poursuivre la session de chat vocal.

Une fois votre conversation avec l'agent terminée, cliquez sur Icône de sortie du mode vocal pour mettre fin à la conversation vocale.

Vous pouvez poursuivre le mode chat dans la même session lorsque le chat vocal se termine. Dès que vous commencez à taper, le mode vocal passe automatiquement en mode discussion et Icône du mode vocal s'affiche. Icône « Envoyer un message » Les commandes du mode vocal et d'envoi de messages sont désormais regroupées en une seule commande, pour une interface de chat plus épurée.

Activation de la fonction vocale dans l'agent intégré

Vous pouvez enrichir votre agent intégré avec des fonctionnalités d'entrée et de sortie vocales afin de permettre des interactions naturelles à l'oral. Une fois que vous avez créé une configuration vocale et que vous l'avez attribuée à votre agent, vous pouvez l'activer dans l'agent intégré afin d'améliorer votre expérience de chat personnalisée. Cette configuration permet à l'agent intégré d'interpréter la parole de l'utilisateur, de générer des réponses audio et d'interagir avec les utilisateurs grâce à des échanges vocaux fluides et conversationnels.

Pour plus d'informations, consultez la section « Activation des fonctionnalités vocales dans l'agent intégré ».

Etape suivante

Une fois que vous avez créé une configuration vocale et que vous l'avez attribuée à un agent, celui-ci peut être connecté à des canaux audio, notamment Téléphone avec Genesys Audio Connector et Téléphone avec SIP.

Pour plus d'informations, voir :