Konfigurieren der Spracheinstellungen für Agenten
Erstellen und verwalten Sie Sprachkonfigurationen, die Ihre Agenten mit Sprachdiensten verbinden und so gesprochene Gespräche über audiobasierte Kanäle wie „Phone with Genesys Audio Connector“ und „Phone with SIP“ ermöglichen.
Konfigurieren Sie Ihren Agenten so, dass er mit den Benutzern per Sprache kommunizieren kann. Sprachgesteuerte Interaktionen können die Zugänglichkeit verbessern und das Engagement der Nutzer erhöhen. Wenn ein Agent mit einer Stimme konfiguriert ist, kann diese Stimme in audio-basierten Kanälen verwendet werden, einschließlich Telefon mit Genesys Audio Connector und Telefon mit SIP. Diese Integration gewährleistet ein konsistentes, natürliches Gesprächserlebnis für alle unterstützten Sprachinteraktionen.
Unter IBM watsonx Orchestrate können Sie eine Sprachkonfiguration mehreren Agenten zuweisen. Allerdings kann jeder Agent in jeder Umgebung – sei es im Draft- oder im Live-Modus – nur über eine einzige Sprachkonfiguration verfügen.
Vorbereitende Schritte
Bevor Sie eine Stimme für Ihren Agenten konfigurieren, vergewissern Sie sich, dass Sie über die erforderlichen Ressourcen für die Dienste Speech to Text und Text to Speech verfügen, die Sie verwenden möchten.
Wenn Sie IBM Watson Speech to Text und IBM Watson Text to Speech als Ihre Dienstanbieter auswählen:
Zugang zu den Dienstinstanzen IBM Watson Speech to Text und Text to Speech. Diese Dienste werden benötigt, um Spracheingaben in Text umzuwandeln und aus Ihren Texteingaben gesprochene Antworten zu erzeugen.
API-Details, einschließlich des API-Schlüssels, für beide Instanzen. Sie benötigen für jeden Dienst den API-Schlüssel und den Endpunkt URL, um diese mit Ihrem Agenten zu verbinden. Um die API-Details abzurufen oder neue Instanzen dieser Dienste zu erstellen, rufen Sie die Seite „ IBM Cloud “ auf.
Wenn Sie „ ElevenLabs, “ auswählen, können Sie entweder Ihren eigenen API-Schlüssel von ElevenLabs einfügen oder sich unter ElevenLabs registrieren, um einen neuen API-Schlüssel zu erstellen.
Fügen Sie die Bereiche Text to Speech „Stimmen (lesen)“ und „Modelle (lesen)“ in ein ElevenLabs.
Von einem kostenpflichtigen oder Unternehmens-Testkonto generiert werden. Persönliche kostenlose Konten funktionieren nicht.
Erstellen einer Sprachkonfiguration
Um Sprachinteraktionen in Ihrem Agenten zu aktivieren, müssen Sie zunächst eine Sprachkonfiguration erstellen. Bei dieser Konfiguration wird Ihr Agent mit den Diensten Speech to Text und Text to Speech verbunden, um gesprochene Eingaben zu verstehen und mit synthetischer Sprache zu antworten. Nachdem Sie die Konfiguration erstellt haben, weisen Sie sie Ihrem Agenten zu, um sprachbasierte Gespräche zu unterstützen.
So erstellen Sie eine Sprachkonfiguration und aktivieren sie in einem Agenten:
Wählen Sie im Hauptmenü Verwalten > Sprache.
Klicken Sie auf Sprachkonfiguration erstellen.
Geben Sie auf der Registerkarte Details einen Namen für die Sprachkonfiguration ein und klicken Sie auf Weiter.
Auf der Registerkarte Speech to Text müssen Sie den Dienst Watson Speech to Text konfigurieren.
Hinweis:watsonx Orchestrate unterstützt nun Deepgram als Anbieter von „ Speech to Text “.
Wählen Sie den Anbieter von Sprache in Text.
Wenn Sie wählen Watson Speech to Text :
Geben Sie die API URL der Instanz Watson Speech to Text ein.
Geben Sie den API-Schlüssel für diese Instanz ein.
Wählen Sie das Sprachmodell Speech to Text.
Geben Sie den eindeutigen Bezeichner des benutzerdefinierten Sprachmodells ein, das Sie verwenden möchten. Lassen Sie das Feld leer, wenn Sie keine Anpassungen wünschen.
Hinweis:Ein angepasstes Modell kann nur in Verbindung mit dem Basismodell verwendet werden, für das es erstellt wurde. Das Basismodell muss mit dem von Ihnen gewählten Sprachmodell übereinstimmen. Standardmäßig wird in einer Anforderung kein angepasstes Sprachmodell verwendet.
Wählen Sie einen Wert, um den Pegel einzustellen, mit dem Hintergrundgeräusche und Nebengespräche im Eingangston unterdrückt werden sollen. Der Standardwert ist 0.0, der keine Unterdrückung des Hintergrundtons vorsieht.
Wählen Sie einen Wert, um die Dauer der Stille einzustellen. Dieser Wert gibt das Pausenintervall an, in dem der Dienst ein Transkript in mehrere Endergebnisse aufteilt, wenn er auf Stille trifft. Standardmäßig verwendet der Dienst ein Pausenintervall von 0.8 Sekunden für alle Sprachen. Für Chinesisch wird ein Intervall von 0.6 Sekunden verwendet.
Aktivieren Sie den Schimpfwortfilter, wenn Sie möchten, dass der Dienst Schimpfwörter aus den Ergebnissen filtert. Standardmäßig maskiert der Service in der Transkription alle vulgären Ausdrücke durch eine Reihe von Sternen.
Hinweis:Die Funktion zum Filtern von Schimpfwörtern ist derzeit nur für US-Englisch und Japanisch verfügbar.
Wählen Sie Niedrige Latenz, wenn Sie die Ergebnisse schneller erhalten möchten, indem Sie die Geschwindigkeit gegenüber der Genauigkeit optimieren.
Hinweis:Bei großen Sprachmodellen und Modellen der vorherigen Generation ist eine geringe Latenz nicht verfügbar.
Aktivieren Sie die intelligente Formatierung, wenn Sie Datumsangaben, Uhrzeiten, Zahlen, Telefonnummern, Währungsangaben, E-Mail-Adressen und Webadressen in lesbare Formate umwandeln möchten, die eine bessere Weiterverarbeitung der Transkription ermöglichen.
Aktivieren Sie die Option „Redaktion“, wenn Sie numerische Daten in den endgültigen Protokollen unkenntlich machen möchten. Sensible numerische Daten, wie z. B. Kreditkartennummern, werden unkenntlich gemacht. Bei jeder Zahl mit drei oder mehr aufeinanderfolgenden Ziffern wird jede Ziffer durch ein X-Zeichen ersetzt.
Weitere Informationen finden Sie in der API -Dokumentation und der Parameterübersicht zu „ Speech to Text “.
Wenn Sie Deepgram wählen:
Wählen Sie das Modell der Stimme.
Wählen Sie die Sprache der Stimme.
Hinweis:Wenn Sie „Mehrsprachig“ auswählen, können Sie Gespräche transkribieren, in denen die Sprecher zwischen mehreren Sprachen wechseln.
Aktivieren Sie die Option „Zahlen verwenden“, wenn Sie Zahlen aus dem Textformat in das Zahlenformat umwandeln möchten.
Geben Sie Schlüsselbegriffe ein, die dem Modell helfen, wichtige Wörter wie Namen, ungewöhnliche Ausdrücke oder Fachjargon zu erkennen.
Klicken Sie auf Weiter.
Auf der Registerkarte Text to Speech müssen Sie den Dienst Watson Text to Speech konfigurieren.
Hinweis:watsonx Orchestrate unterstützt nun „ ElevenLabs “ und „Deepgram“ als Anbieter für „ Text to Speech “.
Wählen Sie den Anbieter von Text in Sprache aus.
Wenn Sie wählen Watson Text to Speech :
Geben Sie die API URL der Instanz Watson Text to Speech ein.
Geben Sie den API-Schlüssel für diese Instanz ein.
Wählen Sie die Sprache des Modells aus.
Wählen Sie die Modellstimme aus.
Stellen Sie die Geschwindigkeit und die Tonhöhe der Stimme ein.
Geben Sie den eindeutigen Bezeichner für das benutzerdefinierte Modell ein, das Sie verwenden möchten. Lassen Sie das Feld leer, wenn Sie keine Anpassungen wünschen.
Weitere Informationen finden Sie in der Dokumentation zu „ Text to Speech “.
Wenn Sie ElevenLabs :
Wählen Sie die entsprechende Rechenzentrumsregion aus.
Hinweis:ElevenLabs betreibt Rechenzentren sowohl in den Vereinigten Staaten als auch in der Europäischen Union. Der Zugriff auf die EU-Region steht nur Benutzern zur Verfügung, die über ein speziell eingerichtetes, EU-spezifisches „ ElevenLabs “-Konto verfügen.
Geben Sie den API-Schlüssel für die von Ihnen ausgewählte Rechenzentrumsregion ein.
Wählen Sie das Modell aus.
Wählen Sie die Modellstimme aus.
Wählen Sie die Sprache des Modells aus.
Schalten Sie die Lautsprecherverstärkung ein, wenn Sie die Sprachqualität verbessern möchten.
Stellen Sie die Geschwindigkeit und Stabilität der Stimme ein.
Legen Sie den Stil und die Ähnlichkeit der Stimme fest.
Wählen Sie entweder Auto, Ein oder Aus, je nachdem, ob Sie eine Textnormalisierung wünschen.
Wenn Sie Deepgram wählen:
Wählen Sie die Sprache des Modells aus.
Wählen Sie die Modellstimme aus.
Verwenden Sie die Vorschau rechts auf der Seite, um die von Ihnen konfigurierte Stimme zu testen.
Klicken Sie auf Weiter.
Konfigurieren Sie das Halten von Anrufen während Sprachinteraktionen in Audio Cues.
Deaktivieren Sie Tippgeräusche abspielen, während der KI-Agent eine Antwort generiert, wenn Sie keine Tippgeräusche während der KI-Antworten hören möchten. Diese Option ist standardmäßig ausgewählt. Der Tippton oder der Warteschleifenfluss wird nur abgespielt, wenn das System feststellt, dass der Agent länger als erwartet braucht, um zu antworten.
Wenn Sie diese Option wählen, wählen Sie einen Wert, um die Dauer (in Sekunden) festzulegen, für die der Tippton abgespielt wird.
Legen Sie die Warteschleifenmeldung fest, die vor dem Beginn der Warteschleifenmusik abgespielt wird.
Wählen Sie die Musik aus, die abgespielt wird, während das Gespräch gehalten wird.
Wählen Sie einen Wert aus, um die Zeitdauer (in Sekunden) festzulegen, die die Musik spielt, bevor die Haltenachricht beginnt.
Legen Sie die Nachricht fest, die abgespielt wird, während die Anrufer warten.
Aktivieren Sie die Sprachaktivitätserkennung (VAD), wenn Sie festlegen möchten, wie Unterbrechungen während eines Sprachgesprächs behandelt werden sollen.
Wählen Sie einen Wert, um die Vertrauensschwelle für die Spracherkennung festzulegen.
Geben Sie den Zeitwert (in Sekunden) ein, der die Mindestdauer der erkannten Sprache ist, bevor sie als gültig betrachtet wird und eine Unterbrechung auslöst.
Geben Sie den Zeitwert (in Sekunden) ein, der die Dauer der Stille angibt, die erforderlich ist, um das Ende der Sprache zu markieren.
Wählen Sie einen Wert, um die Mindestlautstärke festzulegen, die als Sprache gilt.
Konfigurieren Sie die DTMF -Einstellungen (Dual-Tone Multi-Frequency), um anzupassen, wie Ihr Agent Tastatureingaben verarbeitet.
Wählen Sie einen Wert, um die maximale Wartezeit für weitere Tastatureingaben nach dem Drücken einer Ziffer festzulegen.
Wählen Sie das DTMF-Beendigungszeichen, das die Eingabeerfassung beendet, z. B.
#.Geben Sie einen Wert ein, um die maximale Anzahl der zu sammelnden Ziffern festzulegen, bevor die Eingabe verarbeitet wird.
Aktivieren Sie die Option „Benutzer-Stille verwalten“, wenn Sie die Stilleerkennung und Wiederherstellungsaufforderungen für Ihren Agenten einrichten möchten.
Wählen Sie einen Wert aus, um den Schwellenwert für die Stille-Dauer festzulegen. Der Agent wartet diese Zeit (in Sekunden) und identifiziert den Benutzer dann als still.
Geben Sie die Anzahl der Check-in-Wiederholungen ein. Dieser Wert bestimmt, wie oft der Agent versucht, einen stillen Benutzer erneut anzusprechen. Nach diesen Versuchen beendet der Agent das Gespräch.
Geben Sie die Eingabeaufforderung ein, die sowohl für den ersten Check-in als auch für wiederholte Check-ins verwendet wird.
Geben Sie die Nachricht ein, die vor Beendigung des Anrufs abgespielt werden soll, wenn die maximale Anzahl von Versuchen erreicht ist. Lassen Sie dieses Feld leer, um den Anruf ohne Wiedergabe einer Nachricht zu beenden.
Klicken Sie auf Fertigstellen.
Sie verfügen über eine Sprachkonfiguration, mit der Sie Sprachinteraktionen für Ihren Agenten definieren können.
Bearbeiten der Sprachkonfiguration
Sie können eine vorhandene Sprachkonfiguration aktualisieren, um die von Ihrem Agenten verwendeten Spracheinstellungen zu ändern. Wenn Sie eine Konfiguration bearbeiten, können Sie zu einer anderen Stimme wechseln oder die Sprachunterstützung anpassen, ohne eine neue Konfiguration zu erstellen.
So bearbeiten Sie die Sprachkonfiguration:
Wählen Sie auf der Seite Sprache die Sprachkonfiguration aus und klicken Sie auf die drei vertikalen Ellipsen.
Wählen Sie die Option Bearbeiten.
Übernehmen Sie die Änderungen über die drei Registerkarten.
Klicken Sie auf Speichern.
Nachdem Sie Ihre Änderungen gespeichert haben, wird die aktualisierte Sprachkonfiguration auf Ihren Agenten angewendet.
Löschen der Sprachkonfiguration
Wenn eine Sprachkonfiguration nicht mehr benötigt wird, können Sie sie löschen, um Ihre Agenteneinstellungen zu organisieren und auf dem neuesten Stand zu halten.
So löschen Sie die Sprachkonfiguration:
Wählen Sie auf der Seite Sprache die Sprachkonfiguration aus und klicken Sie auf die drei vertikalen Ellipsen.
Wählen Sie die Option Löschen.
Klicken Sie in dem daraufhin angezeigten Popup-Fenster auf Löschen.
Wenn die Sprachkonfiguration mit einem oder mehreren Agenten verknüpft ist, müssen Sie vor dem Löschen alle Verknüpfungen aufheben.
Nachdem Sie die Konfiguration gelöscht haben, wird sie aus der Liste entfernt und kann von keinem Agenten mehr verwendet werden.
Auswahl der Stimme im Agenten
Nachdem Sie eine Sprachkonfiguration erstellt haben, weisen Sie diese Ihrem Agenten zu, um die Sprachkommunikation zu aktivieren. In diesem Schritt wird Ihr Agent mit den konfigurierten Sprachdiensten verbunden, so dass er gesprochene Eingaben verarbeiten und mit synthetischer Sprache antworten kann. Durch die Zuweisung der Sprachkonfiguration kann sichergestellt werden, dass Ihr Agent sprachbasierte Interaktionen bei Gesprächen unterstützt.
So wählen Sie die Sprachkonfiguration in Ihrem Agenten aus:
Öffnen Sie den Agenten im Agent Builder.
Gehen Sie auf der Registerkarte Profil zum Abschnitt Sprachmodalität.
Geben Sie im Feld „Sprachkonfiguration “ den Namen der Sprachkonfiguration ein. Wählen Sie aus der angezeigten Liste die Sprachkonfiguration aus.
Hinweis:Um die Sprachmodalität zu aktivieren, müssen Sie mindestens eine Sprachkonfiguration erstellen.
Konfigurieren Sie die Art der Begrüßungsnachricht, die der Agent zu Beginn einer Sprachinteraktion übermittelt.
Wählen Sie „KI-generierte Begrüßungsnachricht“, wenn Sie eine KI-generierte Begrüßungsnachricht hören möchten.
Wählen Sie „Statische Begrüßungsnachricht“, wenn Sie die benutzerdefinierte Begrüßungsnachricht hören möchten, die Sie für den Agenten unter „Begrüßungsnachricht“ festgelegt haben.
Nachdem Sie die Sprachkonfiguration ausgewählt haben, ist Ihr Agent bereit, Sprachinteraktionen zu bearbeiten.
Testen der Stimme
Nachdem Sie Ihrem Agenten eine Sprachkonfiguration zugewiesen haben, können Sie diese in der Chat-Vorschau testen, um sicherzustellen, dass die Sprachinteraktionen wie erwartet funktionieren. Mit Hilfe von Tests können Sie überprüfen, ob der Agent gesprochene Eingaben erkennen und mit der richtigen Sprachausgabe reagieren kann, bevor Sie den Agenten einsetzen.
So testen Sie die Sprachkonfiguration:
Öffnen Sie den Agenten im Agent Builder.
Klicken Sie in der Vorschau auf
, um den Voice-Chat zu starten.
Erlauben Sie den Mikrofonzugriff in Ihrem Browser, wenn Sie dazu aufgefordert werden.
Klicken Sie hier
, um die Unterhaltung stummzuschalten oder die Stummschaltung aufzuheben.
Klicken Sie auf Keypad anzeigen, um das Keypad zu öffnen.
Sie können das Tastenfeld verwenden, um die DTMF-Einstellungen zu testen, ohne den laufenden Sprachchat zu beenden oder einen Anruf zu tätigen. Wenn Sie das Tastenfeld verwenden, werden DTMF-Ereignisse an den Agenten gesendet. Wenn Sie die Tastatur öffnen, wird der Sprachchat nicht beendet. Sie können weiter sprechen, während das Tastenfeld angezeigt wird.
Klicken Sie auf Tastatur ausblenden, um die Tastatur zu schließen und die Voice-Chat-Sitzung fortzusetzen.
Wenn Sie das Gespräch mit dem Mitarbeiter beendet haben, klicken Sie auf, um den
Sprachchat zu beenden.
Sie können den Chat-Modus in derselben Sitzung fortsetzen, wenn der Sprach-Chat beendet ist. Sobald du mit der Eingabe beginnst, wechselt der Sprachmodus automatisch in den Chat-Modus und
ändert sich zu
. Die Steuerelemente für den Sprachmodus und das Senden von Nachrichten wurden nun in einem einzigen Steuerelement zusammengefasst, um die Chat-Oberfläche übersichtlicher zu gestalten.
Überprüfen Sie nach dem Test die Antworten des Agenten, um sicherzustellen, dass sich die Stimme wie vorgesehen verhält. Bearbeiten Sie bei Bedarf die Sprachkonfiguration, um Anpassungen vorzunehmen, bevor Sie den Agenten einsetzen.
Aktivieren des Sprachmodus
Um mit dem Agenten auf der Orchestrate-Chat-Seite zu sprechen, müssen Sie die Option Sprachmodus aktivieren. Durch die Aktivierung des Sprachmodus können Sie sicherstellen, dass Ihr Agent für sprachbasierte Interaktionen in der Live-Chat-Umgebung bereit ist.
So aktivieren Sie den Sprachmodus :
Öffnen Sie den Agenten im Agent Builder.
Wählen Sie auf der Registerkarte Kanäle den Abschnitt Startseite und aktivieren Sie die Umschaltfunktion.
Nachdem Sie den Sprachmodus aktiviert haben, klicken Sie auf , um auf der Orchestrate-Chat-Seite mit dem Mitarbeiter zu sprechen. Erlauben Sie den Mikrofonzugriff in Ihrem Browser, wenn Sie dazu aufgefordert werden.
Während des Gesprächs können Sie auf klicken, um das Gespräch stummzuschalten oder die Stummschaltung aufzuheben. Wenn Sie auf Tastatur anzeigen klicken, können Sie die Tastatur öffnen und die DTMF-Einstellungen testen, ohne den aktuellen Sprachchat zu beenden oder einen Anruf zu tätigen. Wenn Sie das Tastenfeld verwenden, werden DTMF-Ereignisse an den Agenten gesendet. Das Öffnen des Tastenfelds beendet die Sprachinteraktion nicht. Sie können weiter sprechen, während das Tastenfeld angezeigt wird. Wenn Sie auf Tastatur ausblenden klicken, können Sie die Tastatur schließen und den Sprachchat fortsetzen.
Wenn Sie das Gespräch mit dem Mitarbeiter beendet haben, klicken Sie auf, um den Sprachchat zu beenden.
Sie können den Chat-Modus in derselben Sitzung fortsetzen, wenn der Sprach-Chat beendet ist. Sobald du mit der Eingabe beginnst, wechselt der Sprachmodus automatisch in den Chat-Modus und ändert sich zu
. Die Steuerelemente für den Sprachmodus und das Senden von Nachrichten wurden nun in einem einzigen Steuerelement zusammengefasst, um die Chat-Oberfläche übersichtlicher zu gestalten.
Sprachfunktionen im eingebetteten Agenten aktivieren
Sie können Ihren eingebetteten Agenten um Sprach-Ein- und -Ausgabe erweitern, um natürliche, gesprochene Interaktionen zu unterstützen. Nachdem Sie eine Sprachkonfiguration erstellt und Ihrem Agenten zugewiesen haben, können Sie diese im eingebetteten Agenten aktivieren, um Ihr individuelles Chat-Erlebnis zu verbessern. Dank dieser Konfiguration kann der integrierte Agent die Sprache der Benutzer verstehen, Audioantworten generieren und über nahtlose, dialogorientierte Sprachinteraktionen mit den Benutzern kommunizieren.
Weitere Informationen finden Sie unter „Aktivieren der Sprachfunktionen im Embedded Agent “.
Nächste Schritte
Nachdem Sie eine Sprachkonfiguration erstellt und einem Agenten zugewiesen haben, kann der Agent mit Audiokanälen verbunden werden, darunter „Telefon mit Genesys Audio Connector“ und „Telefon mit SIP“.
Weitere Informationen finden Sie unter: