さまざまな図形と記号を使用したフローチャート
生成検索

生成検索は、生成AIモデルと検索機能を組み合わせたもので、検索ソリューションの検索機能と取得機能を大規模言語モデル(LLM)のコンテンツ生成機能と要約機能で拡張したものです。生成検索の概念アーキテクチャーは、以下の図に示されています。

生成検索ソリューションの主要コンポーネントとその相互接続の図。
生成検索ソリューションの主要コンポーネントとその相互接続の図。
  1. Word文書、PDF、Webデータ、その他の構造化テキストと非構造化テキストを含むクライアント・ドキュメントは、Content Analysisコンポーネントに取り込まれ、セマンティック検索用に準備されます。

     

  2. ユーザーは、Content Analysisユーザー・インターフェースを使用して質問を送信します。

     

  3. Content Analysisコンポーネントは、ユーザーの質問を使用して、ユーザーの質問に最も関連性の高い文書と情報の一部を特定します。ユーザーの質問に応じて、コンポーネントは質問を関連文書や文章とともにLLMに送信し、人間のような回答を生成します。

     

  4. LLMは生成した応答を返し、その後ユーザーに渡されます。

IBM製品アーキテクチャー

IBM watsonx製品ファミリーの生成検索パターンへのマッピングは、以下の図に示されています。IBM Watson Discoveryは、Content Analysisコンポーネントのドキュメントの取り込み、ドキュメントの理解、コンテンツ分析と洞察を提供するために使用されます。IBM watsonx.aiは、Watson Discoveryの拡張に使用される大規模言語モデルの選択、調整、テスト、およびデプロイに使用されます。

IBM Watson DiscoveryとIBM watsonx.ai SaaSプラットフォームが生成検索ソリューションを実現する方法の図解。
IBM Watson DiscoveryとIBM watsonx.ai SaaSプラットフォームが生成検索ソリューションを実現する方法の図解。
オンプレミス/プライベート・デプロイメント

お客様によっては、ローカル・リージョンでwatsonx.aiを利用できないか、セキュリティー上の懸念や規制上の要件により、watsonx.ai SaaSソリューションの使用が妨げられている場合があります。このようなお客様には、お客様のデータセンター内、クラウド・サービス・プロバイダーのインフラストラクチャー上の仮想プライベートクラウド(VPC)で実行されるRed Hat Openshiftにデプロイできるコンテナ化サービス・セットとしてwatsonx.aiを提供します。

IBM Watson DiscoveryとIBM watsonx.aiをオンプレミスにデプロイして、生成検索ソリューションを実現する方法の図。
IBM Watson DiscoveryとIBM watsonx.aiをオンプレミスにデプロイして、生成検索ソリューションを実現する方法の図。

アーキテクチャーの決定と考慮事項

プロジェクトに適したモデルを選択するには、多くの要素を考慮する必要があります。

モデルのライセンスによって、その使用方法が制限される場合があります。例えば、モデルのライセンスによって、商用アプリケーションの一部として使用できない場合があります。

モデル・トレーニングに使用されるデータセットは、特定のアプリケーションでモデルがどの程度適切に機能するかに直接影響し、モデルが意味をなさない、不快な、または単に望ましくない応答を生成するリスクに大きく影響します。同様に、著作権で保護されたデータやプライベート・データでトレーニングされたモデルは、ユーザーが法的責任を負う可能性があります。IBMは、トレーニング・データの完全な透明性と、モデルに起因する法的請求に対する補償を提供します。

モデルのサイズ、すなわちモデルがトレーニングされるパラメーターの数、コンテキストウィンドウのサイズ(モデルが受け入れ可能なテキストの長さ)は、モデル性能、リソース要件および拡張コスト毎、スループットに影響を与えます。「大きいほど良い」という考え方に従って200億個のパラメーターを擁するモデルを選択することは素晴らしいことかもしれません、リソース要件と精度の向上(これがある場合)を考えると、それが正当化されない可能性があります。最近の研究では、一部のソリューションでは、小さいモデルの方が大きいモデルよりもむしろ大幅に優れていることが示されています。

モデルにファイン・チューニングを加えると、タスクへの適合性に影響する可能性があります。例えば、IBMはGraniteモデルの2つのバージョンを提供しています。1つは一般的なチャット・アプリケーション用に調整されたもので、もう1つは指示に従うように調整されたものです。

モデルを選択する際のその他の考慮事項は次のとおりです。

  • モデル・パラメーターの選択(例:モデルの温度)により、人間のようなテキストと事実に基づく応答の作成のバランスが取れます。モデルの温度を高い値に設定すると、一貫性はあるものの、面白みに欠ける、または簡潔すぎる応答が生成される可能性があります。一方、温度を低い値に設定すると、応答に多様性がもたらされますが、応答の長さと内容が予測不可能になります。

  • 効果のない結果や不快な結果を防ぐためのモデル・ガードレールの選択と実装

  • クライアント・データとユーザー・プロンプトの言語も考慮する必要があります。LLMの大半は英語のテキストでトレーニングを受けており、多くの場合、英語とその他の言語の間で翻訳を行い、それぞれの専門レベルが異なります。多言語またはローカライズされた言語サポートを必要とするアプリケーションでは、サポートされている各言語でトレーニングされた複数のモデルの使用や、多言語インプットを英語または別の「基本」言語に翻訳する翻訳ステップの実装が必要になる場合があります。

お客様によっては、システムの応答を継続的に改善するためのフィードバック・メカニズムを望む場合があります。時間の経過とともに、このフィードバックはWatson Discovery構成(検索パラメーターの調整など)とLLMの微調整の両方を改善することができます。

規制の厳しい業界のクライアントは、規制に準拠するために監視の追加の層を追加し、クエリーがどのように処理されるか、およびAIが応答を生成する上での役割について、ユーザーに透明性を提供したいと考える場合があります。

他の統合システムと同様に、性能、ユーザー満足度、潜在的な問題を継続的に監視します。ユーザーの需要の増加に応じてインフラストラクチャーを拡張できるように準備しておきます。

次のステップ

ハイブリッドクラウドの導入パターンのデプロイメントについて、IBMのエキスパートに相談する