思考の木プロンプティングとは

共同執筆者

AI Advocate | Technical Content Author

思考の木とは

思考の木（ToT）は、大規模言語モデル（LLM）の推論能力を強化するための革新的なフレームワークです。問題解決のために人間の認知戦略をシミュレートした手法となっており、木の枝分かれと同じように構造化された手順のもとで、LLMが複数の解の候補を探索できます。^[1]

思考の木の仕組み

ToTでは、一連の推論のステップを通じてLLMを制御します。各ステップは複数の経路に分岐するため、モデルは必要に応じてバックトラッキングや代替戦略の探索を行うことができます。例えば数独パズルを解くときには、さまざまな数字の配置を試行錯誤で探索するようにモデルを制御します。そして、ある数字を配置することが矛盾につながるときにはバックトラッキングを行い、別の数字を試すという手順を、パズルが解けるまで繰り返していきます。複数の解を検討し、間違いと判明した場合には破棄するというこの進め方は、人間の問題解決のアプローチを模しています。^[1][3]

思考の木（ToT）のフレームワーク

ToTは、人間の認知プロセスに似た方法で推論を構造化することによって、LLMの問題解決能力を強化するように設計された高度なフレームワークです。このフレームワークの主な構成要素には次の4つがあります。

思考の分解

ToTフレームワークでは、扱いやすい小さなステップに問題を明示的に分割します。これらのステップを思考と呼び、思考をつなぎ合わせることで解を導き出します。1つ1つの思考は、大きすぎて扱いづらかったり、小さすぎて役に立たなかったりすることがないよう、適切な大きさでなくてはなりません。たとえば旅行を計画するときの思考は、まず旅行先を決め、次に最適な交通手段を選び、最後に宿泊先を選ぶという構成が考えられます。数学の問題における思考は、1行の数式の場合もあれば、概念の簡潔な説明の場合もあります。このように、取り組みが容易で個別に評価しやすい主要なステップに問題を分解します。分解は問題の性質によって変わり、思考の有意性と評価可能性の両方を確保する必要があります。

思考の生成

思考の構成を定義したら、次のステップとして、思考をどのように生成するかを決定します。このフレームワークが提示している主な手法は次の2つです。^[4]

サンプリング：この手法では、同じプロンプトを使用して、複数の思考を独立して生成します。思考空間が豊富で多様な場合には、独立して生成した思考が重複する可能性が低く、この手法が最も効果を発揮します。例えばクリエイティブ・ライティングでは、互いに独立した複数のプロットのアイデアが生成される可能性があります。
提案：この手法では、「提案プロンプト」を使用して思考を順番に生成します。それぞれの思考は前の思考を土台としているため、思考空間が限られている場合の重複を回避しやすくなっています。例えば、論理的な問題解決においては、前のステップに基づいて次のステップを構築することで、一貫性を確保し、確実な前進が可能になります。

状態評価

確実に解へと近づくために、生成した思考は必ず評価しなくてはなりません。そのためにフレームワークが採用している戦略は次の2つです。

値：この戦略では、それぞれの状態にスカラー値（例えば1～10の評価）または分類（例えば確実、有望、不可能）を割り当てます。こうすることで、値の質や、解につながる可能性を示しやすくなります。この手法では、それぞれの思考の有望さを定量的に評価できます。
投票：この戦略では、さまざまな解を比較し、最も有望な解を選択します。投票が特に役立つタスクは、例えばクリエイティブ・ライティングや戦略的計画など、解の質が主観に基づく場合や、定量化が難しい場合です。複数の評価を組み合わせて、最適な経路を特定します。

検索アルゴリズム：

最後の構成要素は、解空間を探っていくために使用する探索アルゴリズムです。このフレームワークでは一般に、次の2つの基本的なアルゴリズムを使用します。

幅優先探索（BFS）：このアルゴリズムは、ツリーのうちで同じ深さの枝をすべて探ってから、次の深さに移ります。考えられるすべての解を平等に検討することから、最短経路や最も浅い解が望ましい問題において役立ちます。例えばパズル・ゲームの場合、BFSでは直後の一手をすべてチェックしてから、後続の手に進むことになります。
深さ優先探索（DFS）：このアルゴリズムは、1本の枝を深くまで探索してからバックトラッキングし、別の枝の探索に移ります。考えられる解の経路を1つずつ完全に調査できることから、個々の選択肢を詳細に探索する必要がある問題で役立ちます。例えば複雑な論理問題の解決に取り組む場合、DFSでは1つの仮説を深く掘り下げ、その妥当性をチェックしてから、別の案を検討することになります。

ToTフレームワークは、これらの構成要素を統合して、複数の解を体系的に検討し、誤りと判明した解を破棄することで、人間の問題解決を模倣します。

ToTフレームワークの運用の流れでは、考えられる解をツリー構造で反復的に探索していきます。最初のプロンプトから始まって、モデルはさまざまな思考や回答を生成し、それぞれが後続のクエリや展開につながります。これらの分岐は、モデルがさまざまな推論経路を探索する中で広がっていきます。このフレームワークは、LLMを利用した自己評価を通じて、進捗状況の追跡と解空間全体の探索を行い、各ステップの有効性を確保します。特定の推論経路が矛盾や行き止まりに至った場合、システムは前のノードにバックトラッキングして、別の可能性を探索できます。

このように構造化と柔軟性を兼ね備えた手法によって、LLMは複雑なマルチステップの推論タスクを、より効果的に処理できます。人間の能力に似た形で、複雑に入り組んだ思考と選択肢をたどっていき、必要に応じて戦略の再評価や調整を行います。

結局のところ、ToTフレームワークによって、LLMはより人間に近い推論と問題解決の能力を獲得し、戦略的な深い思考と意思決定を必要とするタスクでの有効性が高まります。

思考の連鎖（CoT）と思考の木（ToT）の違い

思考の木（ToT）と思考の連鎖（CoT）は、生成的事前トレーニング済みトランスフォーマー（例えばGPT-3やGPT-4）などの言語モデル（LM）におけるテキスト生成の構成と進め方を理解するための概念的アルゴリズムの役割を果たすフレームワークです。これらのプロンプト手法はプロンプト・エンジニアリングの一部をなしています。プロンプト・エンジニアリングでは、望ましい出力の生成を目指して、LMを効果的に制御する入力（プロンプト）を作成します。

思考の木プロンプト：このフレームワークは、テキストを階層的に生成するモデルの能力を基にして機能し、中心的なトピックやアイデアが、分岐先のサブトピックや詳細につながっていきます。モデルが特定のプロンプトに肉付けする方法として、具体性と関連性を徐々に高めたテキストをツリー構造のような形で生成するアプローチとなっています。先読みや木探索の戦略を取り入れて、モデルが複数の分岐を探索したうえで特定の経路を決定できることから、一般的な問題解決や、複雑な意思決定を必要とするシナリオに適しています。この手法は、個々の分岐の質を評価するための常識的推論とヒューリスティックを取り入れています。また自己整合性のメカニズムを採用し、モデルに対する複数回のプロンプトによって信頼性の高い評価が得られるようにしています。

思考の連鎖プロンプト：対照的にこちらの概念は、左から右へ直線的にテキストを生成するモデルの能力と結び付いており、後続の各トークンは先行するトークンから直接影響を受けます。こうした連続的な進め方は、より単純で分かりやすいテキスト生成のアプローチを反映しています。CoTは、明確なステップバイステップの論理的フローを必要とするタスクに効果を発揮します。モデルが学習するための例をいくつか提示するフューショット学習は、コンテキストを理解させることが可能となるため、この手法の強化につながります。CoTは、プロンプト・エンジニアリングにおいて基準となる手法の1つです。この基礎的な手法は、実装がより簡単ですが、ToTのような深さや複雑さに欠ける場合があります。

比較と用途：ToTプロンプトは、木探索と先読みの戦略を用いた、より複雑で相互接続的なテキスト生成の手法であるのに対し、CoTはより単純で直線的な進め方です。ToTは本質的に階層型であることから、バックトラッキングや代替戦略が重要な強化学習のシナリオなど、複数の解を詳細に探索する必要があるタスクに適しています。一方、直線的に進むCoTは、明確で論理的な思考の流れを必要とするタスクに最適です。

実際の用途では、GPT-3やGPT-4などのLM用のAPIは、クリエイティブ・ライティングから複雑な問題解決まで、さまざまなタスクのパフォーマンスを向上させるために、ToTやCoTなどのプロンプト手法を利用しています。^[2]プロンプト・エンジニアリングは進化を続け、言語モデルの高度なTransformerの機能を活用するための強力な手段を提供しています。

Think Newsletter

プロンプトの先を考え、コンテキスト全体を把握する

Thinkニュースレターで業界ニュース、AIツール、プロンプト・エンジニアリングの最新トレンドを先取りしましょう。さらに、メールに直接お届けする新しい解説、チュートリアル、専門家の洞察にアクセスできます。IBMプライバシー・ステートメントをご覧ください。

思考の木のメリットと制約

ToTフレームワークによって、複雑な問題解決におけるLLMの能力は大幅に向上します。一方で、このフレームワークの実装に内在する複雑さの増加に伴うトレードオフもあります。

メリット

このフレームワークは、人工知能の分野に次のようなメリットをもたらします。

問題解決能力の強化

ToTでは、LLMが複数の推論経路を同時に探索できることから、問題解決スキルが大幅に向上します。この手法は、複数の解の候補を検討して最も有望な解を選択する人間の認知プロセスを反映しています。例えば単語パズルやクリエイティブ・ライティングのように、戦略的な思考や計画を必要とするタスクにおいて、ToTのパフォーマンスの高さは実証されており、従来の手法よりも優れた成功率を達成しています。このように途中のステップを分解することによる複雑な推論の能力向上は、最初の決定が結果に大きく影響する難しいタスクで特に顕著です。^[4]

不確実性への対処

ToTを拡張した不確実思考の木（TouT）は、LLMの意思決定プロセスに内在する不確実性に明確に対処しています。TouTは、こうした不確実性を定量化して扱うことによって、より正確で信頼性の高い結果を得られるようにしています。TouTではモンテカルロ・ドロップアウトなどの手法を使用します。この手法は、予測の不確実性を推定する目的で、機械学習、特にディープラーニング・モデルで使用されています。この手法では、トレーニングと推論の両方の中でニューロンをランダムにドロップアウトして、ネットワーク内に複数の異なる「経路」を作成します。これらの異なる経路から予測の平均をとることにより、不確実性の推定に関してモデルの信頼性が高まります。この手法は、医療診断や財務予測など、正確で信頼性の高い予測が不可欠な用途で役立ちます。^[5]

制限

メリットのほかに、固有の制約がいくつかあり、考慮が必要です。

計算のオーバーヘッド

ToTのフレームワークでは、複数の決定パスの保持、バックトラッキング、別の解の探索など、複雑な運用が必要です。これらのプロセスは計算負荷が高く、処理能力とメモリーの面で大量のリソースが必要になることがよくあります。特に、計算リソースに制約がある環境の場合や、敏速な応答時間がきわめて重要なリアルタイム・アプリケーションの場合には、リソースの必要性によって、ToTの拡張性が損なわれる可能性があります。

実装の複雑さ

思考の木のシステムのセットアップには、プロンプター・エージェント、チェッカー・モジュール、メモリー・モジュール、思考の木コントローラーなど、さまざまなコンポーネントの統合が必要です。^[1]各コンポーネントは適切に連携させるための微調整が必要となります。これは複雑で時間のかかるプロセスとなる場合があります。加えて、システムの有効性は実装の品質に大きく依存します。いずれかのコンポーネントの構成に不備がある場合には、システム全体の有効性が損なわれ、信頼性の低下や、問題解決の経路の誤りにつながる可能性があります。

検索の非効率性

最近の研究では、ToTスタイルのプロンプトの効率性に関する懸念が提起されています。この調査では、ToTが価値の低い推論パスの冗長な探索につながり、その結果、不必要な計算オーバーヘッドが発生し、タスクの性能が低下する可能性があることが強調されています。より的を絞った計画的なストラテジーとは異なり、ToTには有望な分岐に優先順位を付けるメカニズムがないため、複雑な推論タスクでの有効性が妨げられる可能性があります。^[6]

これらの問題に取り組むために、研究者らは、推論プロセスをより効率的に導くために、プランニングのヒューリスティックと情報ゲインを組み込んだ代替アプローチ「検索の思考」を提案しています。これらの調査結果は、ToTは依然として強力な概念的枠組みであるものの、その実用化において、より効率的な検索戦略との統合が有益となる可能性があることを示唆しています。 ^[6]

AI Academy

AIの専門家になる

ビジネスの成長を促進するAIへの投資を優先できるように知識を習得します。今すぐ無料のAI Academyを試して、貴社のAIの未来をリードしましょう。

シリーズを見る

お客様事例

ToTフレームワークは、さまざまな用途で有効性が実証されており、堅牢性と適応性を発揮しています。ここでは、ToTで問題解決能力が大幅に向上した注目度の高い事例を4つ紹介します。

数独パズルを解く

ToTを適用して数独パズルを解く処理は、複雑な論理的課題の解決におけるToTの能力を示す例です。数のさまざまな配置を通じてモデルを制御し、矛盾が生じた場合のバックトラッキングを可能にすることによって、ToTで正解にスムーズにたどり着くことができます。決定を動的に再評価できることから、問題解決の精度と効率性が劇的に向上し、より静的な問題解決手法に対するToTの優位性が明確になります。^[1]

24ゲーム

戦略的計算ゲームである24は、ToTによってモデルが複数の計算経路を探索できるようになったことで、成功率が大幅に向上しました。この適応型推論のプロセスのもとで、モデルがより創造的かつ効果的にパズルを解けるようになり、数値問題の解決において認知の柔軟性をToTで高められることが実証されました。^[4]

クリエイティブ・ライティング

ToTはクリエイティブ・ライティングのタスクにも適用されています。一貫性が高くコンテキストに適合したストーリーをLLMで生成するうえで、ToTは役立ちます。思考プロセスを分岐ツリーに構造化することで、モデルはさまざまなプロットの展開や文体の選択肢を探り、最も有望な結果に基づいて選択や修正を行うことができます。この手法によって、LLMが生成するテキストの品質と独創性が高まり、より繊細なアプローチでストーリー・テリングを自動化できます。^[4]

5x5のクロスワードを解く

5x5のミニ・クロスワード・パズルを解くことは、注目に値するToTの用途の1つです。ToTのフレームワークのもとでは、モデルはクロスワードのカギごとに複数の単語の選択肢を検討することが可能で、その単語自体を単独で評価するだけでなく、既に配置した単語との関係性も評価できます。こうして包括的な評価を反復するアプローチは、パズル完成の精度を高めるうえで役立ち、言語的に複雑なタスクにおいて論理的推論や文脈的推論をToTで適用できることを実証しています。このコンテキストでのToTの利用が明確に示すように、複数の種類の知識と推論戦略を統合することが必要なタスクに関して、ToTには汎用性と有効性があります。^[4]

これらの事例が示すように、思考の木のフレームワークには多様な能力があり、論理的・数値的推論の強化にも、言語ベースのタスクにおける創造性と文脈理解の促進にも活用できます。個々の例から分かるとおり、ToTは分野横断的な問題解決に変革をもたらす可能性があります。