ツール呼び出しには、AIと外部ツールの連携を容易にするために連携する複数の主要コンポーネントが含まれます。AnthropicのClaude、MetaのLlama 3、Mistral、IBM® Granite™といった最新のLLMはすべてツール呼び出し機能を備えていますが、それぞれ処理方法が若干異なります。

最初のコンポーネントはAIモデル自体で、十分な知識が不足している場合や、リクエストを完了するために外部機能が必要な場合を認識します。



次に、ツール選択メカニズムは、検索エンジン、データベース、計算リソースなど、特定のタスクを処理するための適切な依存関係を識別します。



ツールを選択すると、APIインターフェースが機能し、AIが構造化されたクエリーを送信し、機械が読み取り可能な形式で応答を受信できるようになります。



最後に、応答処理システムは、取得されたデータが正しくフォーマットされ、意味のある方法でユーザーに提示されるように支援します。

ステップ1： ツールの必要性を認識する

ユーザーがLLMに「今のサンフランシスコの天気はどうですか」と質問したとします。AIは自然言語理解を使用して、静的なナレッジ・ベースからは得られないリアルタイムの天気データが必要であることを認識します。

モデルがツールを使用するために行ったリクエストには、一意のツール呼び出しIDが自動的に割り当てられます。このIDは、リクエストと対応する結果をリンクするための追跡番号として機能します。

ステップ2： ツールを選択する

AIはタスクに最適なツールを特定します。このケースでは、最新の気象データベースをチェックします。このステップにより、取得した情報の正確性と関連性が確保されます。

各ツールには、一意のツール名（または関数名）などのメタデータと構造化情報が含まれており、モデルとシステムがツールを正しく識別するのに役立ちます。その他のメタデータには、説明、ツールパラメータ、必要な入出力タイプなどがあります。

モデルは、利用可能なツールの選択肢からデータを取得する必要があると判断した後、ツールの選択を実行します。

テンプレートは、使用するツールとどの議論（または「arg」）をモデルに指示する構造化されたプロンプト形式で、APIとのより制御的で構造化されたやり取りが可能になります。



ツール呼び出しのコンテキストでは、argsは、生成モデルによってツールまたは関数が開始されたときにツールまたは関数に渡される構造化されたインプットを指します。これらの引数は、ツールが適切に実行するために必要なパラメーターを定義します。

ツール呼び出しと検索拡張生成 （RAG）を組み合わせると、システムが構造化出力を生成する前に構造化データと非構造化データの両方を取得できるようになり、AI機能が強化されます。

このアプローチでは、応答を生成する前に最も関連性の高いデータを取得することでコンテキストの関連性を高め、より情報に基づいた正確なアウトプットを実現します。



また、1つのステップで複数の取得を行うことでAPIのオーバーヘッドを最小限に抑え、遅延を抑え、コストを削減します。RAGは従来のツール呼び出しよりも柔軟性が高く、さまざまなソースからモデルを取得できるため、さまざまなドメインにわたって高度な適応性が実現されます。



従来のツール使用の厳格な構造とは異なり、RAGは取得した知識と推論および生成をより流動的に統合することを可能にし、より動的で洞察力に富んだ応答をもたらします。

ステップ3： クエリーを作成して、送信する

次に、AIはツールまたはAPIが理解できる構造化されたリクエストを作成します。

各ツールは、ツールの機能を定義する特定のツール関数に関連付けられています。これらの関数はAPIリファレンスに依存しており、エンドポイントURL、リクエスト・メソッド、レスポンス形式など、ツールのAPIの操作方法に関するドキュメントが提供されています。

多くのサービスでは、外部APIにアクセスするにはAPIキーが必要です。APIキーは、リクエストを実行するための権限を付与する一意の識別子です。ツールが選択され、パラメーターが設定されると、要求されたデータを取得するためのAPI呼び出しが行われます。このリクエストは通常、HTTP経由で外部サーバーに送信されます。

ステップ4： 応答を受信して、処理する

外部ツールはデータを返します。AIはツールの結果を解析する必要があります。天気予報のリクエストの場合、APIは気温、湿度、風速を含むJSONスキーマ・オブジェクトを返します。AIはこのデータをフィルタリングして構造化し、ユーザーにとって意味のある応答を要約します。

ステップ5： 情報を提供する、または行動を起こす

AIは処理済みの情報を直感的に提供します。リクエストにリマインダーの設定などの自動化が含まれる場合、AIはアクションがスケジュールされていることを確認します。

ステップ6： 検索結果を絞り込む

ユーザーがさらに詳しい情報や変更を要求した場合、AIは調整されたクエリーを使用してプロセスを繰り返すことができ、ユーザーのニーズに基づいて応答を継続的に改善することができます。

LangChainは、外部ツール、 API 、機能をLLMと統合するためのオープンソースフレームワークを提供することで、ツール呼び出しでよく利用されています。ツールの実行、アウトプットまたはインプットの処理、およびコンテキストに応じた意思決定の管理に役立ちます。



たとえば、LangChainはユーザー・クエリーのパーサーを使用して関数の引数を処理し、関連するパラメーターを抽出してツールに合わせて正しくフォーマットします。単純なツール呼び出しとは異なり、LangChainは以前のツール・アウトプットを保存して呼び出すことができるため、より優れたマルチターン相互作用が可能になります。



LangChainは複数のツールを連続的に組み合わせることができるため、より複雑なエージェント・ワークフローを実現できます。たとえば、まず天気APIからデータを取得し、その後別のツールを使用して天気予報に基づいた服装を推奨することができます。