組織内の多層サポート・システムでは、大規模言語モデルを搭載した会話型アシスタント(チャットボット)を人間のエージェントと並行して使用し、エンド・ユーザーに効率的で包括的なアシスタンスを提供できます。
エージェント・アシストによる対話のアーキテクチャーは、上の図に示されています。アーキテクチャー・フローの主な手順は次のとおりです。
製品マニュアル、よくある質問のドキュメント、提供資料、概要、解決済みのサポート・チケットなどのエンタープライズ・ドキュメントは、IBM watsonx Discoveryのインスタンスに取り込まれ、セマンティック検索用に準備されます。
ユーザーは、組織のWebサイト、専用アプリケーション、またはその他のプラットフォーム上のインターフェースを通じて、リクエスト、問題、または質問を送信します。このやり取りは、チャットベースのやり取りの主要インターフェースとして機能するIBM watsonx Assistantによって促進されます。
組織のドキュメントまたはナレッジ・ベースからのデータ取得を必要とする要求の場合、IBM watsonx Discoveryが呼び出され、ユーザーの要求に最も関連性の高い情報の一部が検索されて取得されます。
その後、watsonx Assistantはユーザーのリクエストとwatsonx Discoveryから取得した関連情報を、watsonx.aiでホストされている大規模言語モデル(LLM)に送信します。
LLMは、ユーザーのリクエストと提供された情報をLLMの埋め込み知識と統合し、人間のような応答を生成してwatsonx.aiに返します。この応答は、フォーマットやその他の処理を経て、ユーザーに提示される可能性があります。
ユーザーが生成された応答に満足していない場合(例えば、リクエストが微妙で複雑、または特定の知識を必要とする場合)、watsonx Assistantに通話を人間のエージェントにエスカレーションするよう選択できます。同様に、LLMの応答の信頼性が低い、または不快である可能性があると特定された場合、対話は自動的にエスカレーションされることがあります。さらに、ユーザーはいつでも人間の担当者と対話することを選択できます。watsonx Assistantは、企業のコンタクト・センター管理システムを介して対話を人間のエージェントにスムーズにつなぎます。
Watsonx Assistantのチャット履歴に完全にアクセスできる人間のエージェントが、ユーザーのリクエスト、問題、質問の解決を支援します。
解決後、システムはwatsonx Assistantを通じてユーザーからのフィードバックを求めることができます。このフィードバックは、頻繁に見逃されたりエスカレーションされたりしたお問い合わせ内容を分析し、組織がwatsonx.aiでホストされているLLMを調整したり、watsonx Discoveryの検索パラメーターをファイン・チューニングしてパフォーマンスを向上できるようにすることで、将来のやり取りを改善するのに役立ちます。
IBM watsonx AI製品のポートフォリオと概念アーキテクチャーのマッピングを下の図に示します。watsonx Assistantは仮想アシスタント・コンポーネントの対話機能を提供し、watsonx Assistantのアドオンであるwatsonx Discoveryはドキュメント取り込み機能とセマンティック検索機能を提供します。watsonx.aiモデル開発およびホスティング環境は、大規模な言語モデルの選択、調整、テスト、およびデプロイメントに使用されます。
顧客によっては、ローカル・リージョンでwatsonx.aiを利用できないか、セキュリティー上の懸念や規制上の要件により、watsonx.aiエンタープライズ・グレードのAIスタジオを使用できない場合があります。このような顧客には、顧客のデータセンター内、クラウド・サービス・プロバイダーのインフラストラクチャー上の仮想プライベートクラウド(VPC)内、またはその他の場所で実行されるRed Hat Openshiftにデプロイできるコンテナ化サービス・セットとしてwatsonx.aiを提供します。
プロジェクトに適したモデルを選択するには、多くの要素を考慮する必要があります。
モデルのライセンスによって、その使用方法が制限される場合があります。例えば、モデルのライセンスによって、商用アプリケーションの一部として使用できない場合があります。
モデル・トレーニングに使用されるデータ・セットは、特定のアプリケーションでモデルがどの程度適切に機能するかに直接影響し、モデルが意味をなさない、不快な、または単に望ましくない応答を生成するリスクに大きく影響します。同様に、著作権で保護されたデータやプライベート・データでトレーニングされたモデルは、ユーザーが法的責任を負う可能性があります。IBMは、トレーニング・データの完全な透明性と、モデルに起因する法的請求に対する補償を提供します。
モデルのサイズ、トレーニングに使用したパラメーターの数、コンテキスト・ウィンドウのサイズ(モデルが受け入れ可能なテキストの長さ)は、モデルのパフォーマンス、リソース要件、スループットに影響します。「大きいほど良い」という考え方に従って200億個のパラメーターを擁するモデルを選択することは素晴らしいことかもしれません、リソース要件と精度の向上(これがある場合)を考えると、それが正当化されない可能性があります。最近の研究では、一部のソリューションでは、小さいモデルの方が大きいモデルよりもむしろ大幅に優れていることが示されています。
モデルにファイン・チューニングを加えると、タスクへの適合性に影響する可能性があります。例えば、IBMはGraniteモデルの2つのバージョンを提供しています。1つは一般的なチャット・アプリケーション用に調整されたもので、もう1つは指示に従うように調整されたものです。
モデルを選択する際のその他の考慮事項は次のとおりです:
モデル・パラメーターの選択(例:モデルの温度)により、人間のようなテキストと事実に基づく応答の作成のバランスが取れます。モデルの温度を高い値に設定すると、一貫性はあるものの、面白みに欠ける、または簡潔すぎる応答が生成される可能性があります。一方、温度を低い値に設定すると、応答に多様性がもたらされますが、応答の長さと内容が予測不可能になります。
効果のない結果や不快な結果を防ぐためのモデル・ガードレールの選択と実装。
顧客データとユーザー・プロンプトの言語も考慮する必要があります。LLMの大部分は英語のテキストについてトレーニングを受けており、さまざまなレベルの専門知識で英語と他の言語間の翻訳を行うことができます。多言語またはローカライズされた言語のサポートを必要とするアプリケーションでは、サポートされている各言語でトレーニングされた複数のモデルの使用、または多言語入力を英語または別の「基本」言語に翻訳する翻訳ステップの導入が必要になる場合があります。