Think Newsletter
プロンプトの先を考え、コンテキスト全体を把握する
Thinkニュースレターで業界ニュース、AIツール、プロンプト・エンジニアリングの最新トレンドを先取りしましょう。さらに、メールに直接お届けする新しい解説、チュートリアル、専門家の洞察にアクセスできます。IBMプライバシー・ステートメントをご覧ください。
思考の木(ToT)は、大規模言語モデル(LLM)の推論能力を強化するための革新的なフレームワークです。問題解決のために人間の認知戦略をシミュレートした手法となっており、木の枝分かれと同じように構造化された手順のもとで、LLMが複数の解の候補を探索できます。[1]
ToTは、人間の認知プロセスに似た方法で推論を構造化することによって、LLMの問題解決能力を強化するように設計された高度なフレームワークです。このフレームワークの主な構成要素には次の4つがあります。
ToTフレームワークでは、扱いやすい小さなステップに問題を明示的に分割します。これらのステップを思考と呼び、思考をつなぎ合わせることで解を導き出します。1つ1つの思考は、大きすぎて扱いづらかったり、小さすぎて役に立たなかったりすることがないよう、適切な大きさでなくてはなりません。たとえば旅行を計画するときの思考は、まず旅行先を決め、次に最適な交通手段を選び、最後に宿泊先を選ぶという構成が考えられます。数学の問題における思考は、1行の数式の場合もあれば、概念の簡潔な説明の場合もあります。このように、取り組みが容易で個別に評価しやすい主要なステップに問題を分解します。分解は問題の性質によって変わり、思考の有意性と評価可能性の両方を確保する必要があります。
思考の構成を定義したら、次のステップとして、思考をどのように生成するかを決定します。このフレームワークが提示している主な手法は次の2つです。[4]
確実に解へと近づくために、生成した思考は必ず評価しなくてはなりません。そのためにフレームワークが採用している戦略は次の2つです。
最後の構成要素は、解空間を探っていくために使用する探索アルゴリズムです。このフレームワークでは一般に、次の2つの基本的なアルゴリズムを使用します。
ToTフレームワークは、これらの構成要素を統合して、複数の解を体系的に検討し、誤りと判明した解を破棄することで、人間の問題解決を模倣します。
ToTフレームワークの運用の流れでは、考えられる解をツリー構造で反復的に探索していきます。最初のプロンプトから始まって、モデルはさまざまな思考や回答を生成し、それぞれが後続のクエリや展開につながります。これらの分岐は、モデルがさまざまな推論経路を探索する中で広がっていきます。このフレームワークは、LLMを利用した自己評価を通じて、進捗状況の追跡と解空間全体の探索を行い、各ステップの有効性を確保します。特定の推論経路が矛盾や行き止まりに至った場合、システムは前のノードにバックトラッキングして、別の可能性を探索できます。
このように構造化と柔軟性を兼ね備えた手法によって、LLMは複雑なマルチステップの推論タスクを、より効果的に処理できます。人間の能力に似た形で、複雑に入り組んだ思考と選択肢をたどっていき、必要に応じて戦略の再評価や調整を行います。
結局のところ、ToTフレームワークによって、LLMはより人間に近い推論と問題解決の能力を獲得し、戦略的な深い思考と意思決定を必要とするタスクでの有効性が高まります。
思考の木(ToT)と思考の連鎖(CoT)は、生成的事前トレーニング済みトランスフォーマー(例えばGPT-3やGPT-4)などの言語モデル(LM)におけるテキスト生成の構成と進め方を理解するための概念的アルゴリズムの役割を果たすフレームワークです。これらのプロンプト手法はプロンプト・エンジニアリングの一部をなしています。プロンプト・エンジニアリングでは、望ましい出力の生成を目指して、LMを効果的に制御する入力(プロンプト)を作成します。
思考の木プロンプト:このフレームワークは、テキストを階層的に生成するモデルの能力を基にして機能し、中心的なトピックやアイデアが、分岐先のサブトピックや詳細につながっていきます。モデルが特定のプロンプトに肉付けする方法として、具体性と関連性を徐々に高めたテキストをツリー構造のような形で生成するアプローチとなっています。先読みや木探索の戦略を取り入れて、モデルが複数の分岐を探索したうえで特定の経路を決定できることから、一般的な問題解決や、複雑な意思決定を必要とするシナリオに適しています。この手法は、個々の分岐の質を評価するための常識的推論とヒューリスティックを取り入れています。また自己整合性のメカニズムを採用し、モデルに対する複数回のプロンプトによって信頼性の高い評価が得られるようにしています。
思考の連鎖プロンプト:対照的にこちらの概念は、左から右へ直線的にテキストを生成するモデルの能力と結び付いており、後続の各トークンは先行するトークンから直接影響を受けます。こうした連続的な進め方は、より単純で分かりやすいテキスト生成のアプローチを反映しています。CoTは、明確なステップバイステップの論理的フローを必要とするタスクに効果を発揮します。モデルが学習するための例をいくつか提示するフューショット学習は、コンテキストを理解させることが可能となるため、この手法の強化につながります。CoTは、プロンプト・エンジニアリングにおいて基準となる手法の1つです。この基礎的な手法は、実装がより簡単ですが、ToTのような深さや複雑さに欠ける場合があります。
比較と用途:ToTプロンプトは、木探索と先読みの戦略を用いた、より複雑で相互接続的なテキスト生成の手法であるのに対し、CoTはより単純で直線的な進め方です。ToTは本質的に階層型であることから、バックトラッキングや代替戦略が重要な強化学習のシナリオなど、複数の解を詳細に探索する必要があるタスクに適しています。一方、直線的に進むCoTは、明確で論理的な思考の流れを必要とするタスクに最適です。
実際の用途では、GPT-3やGPT-4などのLM用のAPIは、クリエイティブ・ライティングから複雑な問題解決まで、さまざまなタスクのパフォーマンスを向上させるために、ToTやCoTなどのプロンプト手法を利用しています。[2]プロンプト・エンジニアリングは進化を続け、言語モデルの高度なTransformerの機能を活用するための強力な手段を提供しています。
Think Newsletter
Thinkニュースレターで業界ニュース、AIツール、プロンプト・エンジニアリングの最新トレンドを先取りしましょう。さらに、メールに直接お届けする新しい解説、チュートリアル、専門家の洞察にアクセスできます。IBMプライバシー・ステートメントをご覧ください。
ToTフレームワークによって、複雑な問題解決におけるLLMの能力は大幅に向上します。一方で、このフレームワークの実装に内在する複雑さの増加に伴うトレードオフもあります。
このフレームワークは、人工知能の分野に次のようなメリットをもたらします。
ToTでは、LLMが複数の推論経路を同時に探索できることから、問題解決スキルが大幅に向上します。この手法は、複数の解の候補を検討して最も有望な解を選択する人間の認知プロセスを反映しています。例えば単語パズルやクリエイティブ・ライティングのように、戦略的な思考や計画を必要とするタスクにおいて、ToTのパフォーマンスの高さは実証されており、従来の手法よりも優れた成功率を達成しています。このように途中のステップを分解することによる複雑な推論の能力向上は、最初の決定が結果に大きく影響する難しいタスクで特に顕著です。[4]
ToTを拡張した不確実思考の木(TouT)は、LLMの意思決定プロセスに内在する不確実性に明確に対処しています。TouTは、こうした不確実性を定量化して扱うことによって、より正確で信頼性の高い結果を得られるようにしています。TouTではモンテカルロ・ドロップアウトなどの手法を使用します。この手法は、予測の不確実性を推定する目的で、機械学習、特にディープラーニング・モデルで使用されています。この手法では、トレーニングと推論の両方の中でニューロンをランダムにドロップアウトして、ネットワーク内に複数の異なる「経路」を作成します。これらの異なる経路から予測の平均をとることにより、不確実性の推定に関してモデルの信頼性が高まります。この手法は、医療診断や財務予測など、正確で信頼性の高い予測が不可欠な用途で役立ちます。[5]
メリットのほかに、固有の制約がいくつかあり、考慮が必要です。
ToTのフレームワークでは、複数の決定パスの保持、バックトラッキング、別の解の探索など、複雑な運用が必要です。これらのプロセスは計算負荷が高く、処理能力とメモリーの面で大量のリソースが必要になることがよくあります。特に、計算リソースに制約がある環境の場合や、敏速な応答時間がきわめて重要なリアルタイム・アプリケーションの場合には、リソースの必要性によって、ToTの拡張性が損なわれる可能性があります。
思考の木のシステムのセットアップには、プロンプター・エージェント、チェッカー・モジュール、メモリー・モジュール、思考の木コントローラーなど、さまざまなコンポーネントの統合が必要です。[1]各コンポーネントは適切に連携させるための微調整が必要となります。これは複雑で時間のかかるプロセスとなる場合があります。加えて、システムの有効性は実装の品質に大きく依存します。いずれかのコンポーネントの構成に不備がある場合には、システム全体の有効性が損なわれ、信頼性の低下や、問題解決の経路の誤りにつながる可能性があります。
最近の研究では、ToTスタイルのプロンプトの効率性に関する懸念が提起されています。この調査では、ToTが価値の低い推論パスの冗長な探索につながり、その結果、不必要な計算オーバーヘッドが発生し、タスクの性能が低下する可能性があることが強調されています。より的を絞った計画的なストラテジーとは異なり、ToTには有望な分岐に優先順位を付けるメカニズムがないため、複雑な推論タスクでの有効性が妨げられる可能性があります。[6]
これらの問題に取り組むために、研究者らは、推論プロセスをより効率的に導くために、プランニングのヒューリスティックと情報ゲインを組み込んだ代替アプローチ「検索の思考」を提案しています。これらの調査結果は、ToTは依然として強力な概念的枠組みであるものの、その実用化において、より効率的な検索戦略との統合が有益となる可能性があることを示唆しています。 [6]
ToTフレームワークは、さまざまな用途で有効性が実証されており、堅牢性と適応性を発揮しています。ここでは、ToTで問題解決能力が大幅に向上した注目度の高い事例を4つ紹介します。
ToTを適用して数独パズルを解く処理は、複雑な論理的課題の解決におけるToTの能力を示す例です。数のさまざまな配置を通じてモデルを制御し、矛盾が生じた場合のバックトラッキングを可能にすることによって、ToTで正解にスムーズにたどり着くことができます。決定を動的に再評価できることから、問題解決の精度と効率性が劇的に向上し、より静的な問題解決手法に対するToTの優位性が明確になります。[1]
戦略的計算ゲームである24は、ToTによってモデルが複数の計算経路を探索できるようになったことで、成功率が大幅に向上しました。この適応型推論のプロセスのもとで、モデルがより創造的かつ効果的にパズルを解けるようになり、数値問題の解決において認知の柔軟性をToTで高められることが実証されました。[4]
ToTはクリエイティブ・ライティングのタスクにも適用されています。一貫性が高くコンテキストに適合したストーリーをLLMで生成するうえで、ToTは役立ちます。思考プロセスを分岐ツリーに構造化することで、モデルはさまざまなプロットの展開や文体の選択肢を探り、最も有望な結果に基づいて選択や修正を行うことができます。この手法によって、LLMが生成するテキストの品質と独創性が高まり、より繊細なアプローチでストーリー・テリングを自動化できます。[4]
5x5のミニ・クロスワード・パズルを解くことは、注目に値するToTの用途の1つです。ToTのフレームワークのもとでは、モデルはクロスワードのカギごとに複数の単語の選択肢を検討することが可能で、その単語自体を単独で評価するだけでなく、既に配置した単語との関係性も評価できます。こうして包括的な評価を反復するアプローチは、パズル完成の精度を高めるうえで役立ち、言語的に複雑なタスクにおいて論理的推論や文脈的推論をToTで適用できることを実証しています。このコンテキストでのToTの利用が明確に示すように、複数の種類の知識と推論戦略を統合することが必要なタスクに関して、ToTには汎用性と有効性があります。[4]
これらの事例が示すように、思考の木のフレームワークには多様な能力があり、論理的・数値的推論の強化にも、言語ベースのタスクにおける創造性と文脈理解の促進にも活用できます。個々の例から分かるとおり、ToTは分野横断的な問題解決に変革をもたらす可能性があります。
ToT研究の最近の進展は、ToTの能力の拡大と、ToTの適用に伴う固有の課題への対処が中心となっています。主な進展は次のとおりです。
不確実思考の木(TouT)の導入は、ToTの研究において大きな進歩をもたらしました。TouTは、個々の決定パスの信頼性を評価する不確実性定量化のメカニズムを統合することによって、ToTを強化しています。不確実な条件下での決定が必要で、誤りのコストが大きくなる可能性がある用途において、この進展は非常に重要です。[5]
ToTを利用してLLMのグローバルな意思決定能力を強化することに焦点を当てて、さらなる研究が進められています。最近の研究では、フレームワークにフィードバック・ループが導入され、モデルが過去の決定から学習し、推論プロセスをリアルタイムで調整できるようになりました。この反復的なフィードバック・メカニズムは意思決定プロセスの改良に役立ち、問題のコンテキストの変化に敏感に反応する動的なプロセスを実現します。このような強化は、LLMの推論能力を人間の認知プロセスに近づけることを目的としています。人間の認知プロセスでは、過去の経験からの学びがその後の意思決定の形成において重要な役割を果たします。[4]
こうした最近の進展が示すとおり、思考の木のフレームワークを改良し発展させるための取り組みは現在も続いており、ますます複雑化する問題解決のシナリオにフレームワークを確実に適用して成果を生むための助けとなっています。こうした進展によって、LLMの能力が高まるだけでなく、人工知能の研究と応用に新たな道が開けます。
[1] Long, J. (May 2023). 「Large Language Model Guided Tree-of-Thought」、
[2] Karthik Narasimhan, S. Y. (July 2023). Official Repository of Tree of Thoughts (ToT). https://github.com/princeton-nlp/tree-of-thought-llm
[3] Pengfei Liu, W. Y. (2021). Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Computing Surveys.
[4] Shunyu Yao, D. Y. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. ArXiv, abs/2305.10601.
https://arxiv.org/abs/2305.10601
[5] 5 Shentong Mo, M. X. (September 2023). Tree of Uncertain Thoughts Reasoning for Large Language Models. ArXiv, abs/2309.07694. https://arxiv.org/abs/2309.07694
[6] Katz, M., Kokel, H., Srinivas, K., & Sohrabi, S. (2024). Thought of search: Planning with language models through the lens of efficiency. In A. Globerson, L. Mackey, D. Belgrave, A. Fan, U. Paquet, J. Tomczak, & C. Zhang (Eds.), Advances in Neural Information Processing Systems (Vol. 37, pp. 138491–138568).