Think Newsletter
プロンプトの先を考え、コンテキスト全体を把握する
Thinkニュースレターで業界ニュース、AIツール、プロンプト・エンジニアリングの最新トレンドを先取りしましょう。さらに、メールに直接お届けする新しい解説、チュートリアル、専門家の洞察にアクセスできます。IBMプライバシー・ステートメントをご覧ください。
zero-shotプロンプティングは、大規模言語モデル(LLM)の事前トレーニングを利用して適切な応答を推測するプロンプト・エンジニアリング 手法です。few-shotプロンプティングなどの他の手法とは対照的に、ゼロショット手法でプロンプトする場合、モデルにはアウトプットの例は提供されません。1
基盤モデルの利点の1つは、追加のトレーニング・データを必要とせずに、多くのユースケースに適応できることです。zero-shotプロンプティングでは、モデルはユースケースに対するアウトプットの例を受け取らずに、応答を生成するように求められます。zero-shotプロンプティングは、ゼロ・トレーニング・データを使用してモデルに予測を行わせる機械学習パターンであるゼロ・ショット・ラーニングの応用です。
以下の例では、 IBM GraniteシリーズのIBM granite-3-8b-instructモデルが、分類のユースケースでzero-shotプロンプティングを使用したプロンプトを与えられています。2この場合、モデルは、IT問題を「高」または「低」のいずれかに分類するように求められます。これは、問題の緊急性を示します。この例では、モデルはプロンプトの分類ラベルを「高」と推測し(太字のアウトプットが示すように)、この文脈では適切な応答となります。
注:プロンプトは、IBM® watsonx.aiのPrompt Labで「フリーフォーム」モードを使用して実行されました。
説明される問題のクラス名を高、中、または低のいずれかに設定します。最後の問題のクラス名のみを予測します。そのクラス名が選ばれた理由を簡単に説明してください。
クラス名:High
説明:ビジネス・コストが高い、多くのユーザーに影響がある、またはその両方を含む問題。
クラス名:中
説明:高と低の中間に該当する問題。
クラス名:低
説明:少数のユーザーに影響を与えるか、ビジネス上のコストが高くないか、またはその両方である問題。
問題:ユーザーからファイルをアップロードできないという報告が寄せられています。
クラス:高
説明: この問題は、多くのユーザーに影響を与え、高いビジネス・コストをもたらすため、重大であると考えられます。ファイルをアップロードできないと、ユーザーがタスクを完了できず、遅延や生産性の低下につながる可能性があります。さらに、この問題は複数の部門またはチームに影響を与え、ビジネス・コストをさらに増加させる可能性があります。
zero-shotプロンプティング・ストラテジーは、モデルに新しい問題を与えるときにデフォルトのプロンプト・エンジニアリングストラテジーとなることがよくあります。1この例では、明示的な応答例なしに、モデルがどのように適切な推論を生成することが想定されているのかを示します。zero-shotプロンプティング・シナリオは、新しい問題を解決するために事前知識を適用する上で、人間の学習を模倣します。3
モデルにはプロンプトの例は提供されていませんが、タスクを完了する方法に関する詳細が提供されます。1
指示:まず、モデルに提供される指示は、「記述された問題のクラス名を設定してください」です。
コンテキスト:次に、モデルのコンテキストにはクラス名の記述が含まれます。
入力データ:モデルは入力データを受け取り、「問題:ユーザーからファイルをアップロードできないという報告が寄せられています」というプロンプトを使用して、分類タスクを実行します。
アウトプット・インジケーター:オプションとして、モデルはアウトプット・インジケーター(この場合は問題のクラス名で応答するようにモデルに指示するテキスト「クラス:」)を受け取ることができます。アウトプット・インジケーターは、特定のタイプの応答に対してどのようなタイプのアウトプットを生成するかをモデルに示します。
このプロンプトのカスタマイズされた形式は、当面の分類問題に合わせてカスタマイズされています。他のユースケースでは、プロンプトに異なる形式が必要になる場合があり、同じ指示、コンテキスト、インプット・データ、そしてアウトプット・インジケータのコンポーネントが含まれていない可能性があります。1異なるモデルでは、プロンプトに異なる形式が必要になる場合があります。特定のモデルのプロンプトをフォーマットする方法については、必ずそのモデルに対して与えられている指示に従ってください。この例では、このモデルの事前トレーニングと説明したコンポーネントを使用したプロンプトの結果として、モデルはこのタスクに適切なアウトプットで応答します。
zero-shotプロンプティングとは対照的に、few-shotプロンプティングでは、タスクの予想されるインプットとアウトプットの例がモデルに提供されます。1上記の画像は、zero-shotプロンプティングとfew-shotプロンプティングの違いを図解しており、特別なケースとしてone-shotプロンプティングも示されています。
同じIBM granite-3-8b-instructモデルを使用することで、このタスクの「問題」とそれに対応する「クラス」の例が提供されます。2提供されている入出力の3つの例は、few-shotプロンプティングの戦略を示しています。このプロンプトに応答して、モデルはクラス 「中」(太字で強調表示)の妥当な予測を行います。
注:プロンプトはIBM watsonx.ai Prompt Labの「フリーフォーム」モードを使用して実行されました。
説明される問題のクラス名を高、中、または低のいずれかに設定してください。問題とそれに対応するクラス名の例をいくつか示しました。最後の問題のクラス名のみを予測してください。そのクラス名が選ばれた理由を簡単に説明してください。
クラス名:高
説明:ビジネスコストが高い、多くのユーザーに影響がある、またはその両方を含む問題。
クラス名:中
説明:高と低の中間に位置する問題。
クラス名:低
説明:少数のユーザーに影響を与えるか、ビジネス上のコストが高くないか、またはその両方である問題。
問題:新規ユーザーがアカウントを作成できないと報告しています。
クラス:高
問題:アプリの分析機能でラベルが重複しているとユーザーから報告がありました。
クラス:低
問題:米国のユーザーから、購入しようとしたときにアプリがクラッシュするという報告が寄せられています。
クラス:高
問題:ユーザーから、画像がアプリに読み込まれないと報告されています。
クラス:中
説明:アプリに画像が読み込まれないという問題は、ユーザーのエクスペリエンスに影響を与え、フラストレーションを引き起こす可能性がありますが、高いビジネスコストは発生せず、多くのユーザーには影響しません。したがって、これは中程度の問題に分類されます。
few-shotプロンプティングは、few-shot学習パラダイムから派生したストラテジーであり、通常、タスクにおけるzero-shotプロンプティングよりもモデルの性能を向上させるために使用されます。1この例では、AIモデルはzero-shotシナリオとfew-shotシナリオの両方で有用な推論を生成します。zero-shotプロンプティングとfew-shotプロンプティングのどちらを使用するかを決定する際には、問題の制約と両方のストラテジーの実証済みの性能を考慮する必要があります。ReynoldsとMcDonell(2021)は、プロンプト構造の改善により、zero-shotプロンプティングがいくつかのシナリオでfew-shotプロンプティングよりも優れている場合があることを発見しました。4Schulhoffなど(2024)は、いくつかのプロンプト戦略のパフォーマンスを比較して、異なる結果を得ています。5
メリット
制限
LLMのトレーニング方法の進歩により、さまざまなユースケースにわたってzero-shotプロンプティングを採用したモデルのアウトプットが向上しました。7
Think Newsletter
Thinkニュースレターで業界ニュース、AIツール、プロンプト・エンジニアリングの最新トレンドを先取りしましょう。さらに、メールに直接お届けする新しい解説、チュートリアル、専門家の洞察にアクセスできます。IBMプライバシー・ステートメントをご覧ください。
zero-shotプロンプティングは、基盤モデルの事前学習済みの知識と、要求されたプロンプトに適応して適切な応答を提供する柔軟性に依存します。1
zero-shotシナリオにおける応答の改善に、研究者は焦点を当てています。1zero-shotプロンプトの応答精度は、新しいモデルのトレーニング方法をテストする際に、モデルのパフォーマンスをベンチマークするためによく使用されます。7zero-shotプロンプトのパフォーマンスを向上させた2つの改善は、指示のチューニングと人間のフィードバックによる強化学習(RLHF)です。8, 9
指示のチューニングでは、さまざまなタスクの指示とそれらの結果を含むデータセットに対する教師あり学習を用いて、モデルをファイン・チューニングします。データセットには、テキストの要約、変換、読み取り理解などのタスクが含まれます。指示を含むデータセットを用いた微調整の戦略により、これらのカテゴリの新しいタスクでzero-shotプロンプティングのパフォーマンスが向上しました。8
ファイン・チューニングによってzero-shotプロンプティングの結果を改善するもう1つの例は、強化学習によってモデルをより良い出力に導くポリシーを学習するRLHFファイン・チューニングです。この3段階のプロセスでは、モデルはまず、人間が目標となる回答を提供した指示を含むデータセットを使用してファイン・チューニングされます。次に、モデルは人間がランク付けしたいくつかのプロンプトに対してアウトプットを予測します。最後に、ランク付けされたアウトプットは、人間が提供したランキングに基づいて最適なアウトプットを選択するためのポリシーを学習する強化学習モデルのトレーニングに使用されます。12
最終ステップでは、行動(意思決定または実行された経路)の結果(報酬または罰則)を使用して、適切な意思決定を行うためのストラテジー(またはポリシー)を学習する強化学習の能力を使用します。この場合の問題領域は、モデルが応答として適切なアウトプットを選択する際に使用される可能性のあるすべての潜在的なストラテジーです。9
従来の自然言語処理(NLP)用の教師あり機械学習と比較して、zero-shotプロンプティングではラベル付きトレーニング・データが不要です。人工知能の専門家やデータサイエンティストは、zero-shotプロンプティング・シナリオにおける大規模言語モデルの生成AIテクノロジーを、次のようなさまざまなユースケースで使用できます。10
テキスト分類
IBMのgranite-3-8b-instructモデルを使用してIT問題の優先度を分類する先行例で示したように、このモデルはさまざまなクラスに属する先例がなくても分類を達成できます。この機能は、ラベル付きトレーニング・データが限られている、または存在しない状況において理想的です。このゼロショット分類チュートリアルでは、このユースケースの実装を示します。
情報抽出
本文のテキストと質問が与えられると、LLMはプロンプトに従って、要求された情報を抽出できます。
質問への回答
モデルの事前トレーニングされた知識を使用して、ユーザーは質問に対する回答を求めることができます。
テキスト要約
テキストとテキスト要約の指示が与えられると、大規模言語モデルは、他のテキストの要約例を必要とせずに、zero-shotプロンプト・シナリオでこのタスクを実行できます。
世代
LLMは、指定されたユースケースに合わせて、テキスト、コード、画像などの形式でデータを生成します。
対話
通常、チャット用に調整されたモデル(有名なチャットGPTシリーズなど)を使用すると、LLMはチャットモードでユーザーと対話できるため、上記のユースケースの多くが実現できます。
マルチステップ推論タスクなどの複雑なユースケースの場合、zero-shotプロンプティングとfew-shotプロンプティングの両方がモデルから適切な応答を生成できない可能性があります。このような場合、思考連鎖や思考の木などの高度なプロンプト手法の方が優れた結果を生成する可能性があります。
思考の連鎖:思考の連鎖(CoT)プロンプトは、解決すべき一連の個別のステップとして大きなタスクを指定することにより、モデルにタスクを提示するストラテジーです。中間的なステップが明確化されるため、モデルが正しい応答を生成する能力が向上します。また、CoTを使用すると、中間ステップが明確になるため、問題解決プロセスの透明性が向上します。このプロンプト・エンジニアリング手法は、カスタマー・サービス用チャットボットの性能向上、研究者やライターの考えの整理、数学や科学の教育問題に関する段階的な説明の生成などの分野で成功を示しています。11
思考の木:思考の木(ToT)プロンプトは、潜在的な次のステップと、問題に対応する上で考えられる解決策の分岐テキストツリーを生成します。このツリー構造により、モデルは複数のプロセスについて検討し、一つのプロセスから許容可能な成果を得られなかった場合には、必要に応じてバックトラックすることができます。これは、解決策への潜在的なプロセスを比較する際に、人間の推論ストラテジーに近似するように設計されています。ソリューションを探索するための一般的なストラテジーには、ヒューリスティック検索および強化学習アプローチと並んで、幅優先検索(BFS)と深さ優先検索(DFS)があります。研究者たちはこのアプリケーションを使用して、数独や24などのパズルを解きました。12, 13
1. E. Saravia. "Prompt Engineering Guide." https://github.com/dair-ai/Prompt-Engineering-Guide (accessed Oct 2024).
2. "Granite 3.0 Language Models," IBM Research, Yorktown Heights, NY, Oct 2024. https://github.com/ibm-granite/granite-3.0-language-models/blob/main/paper.pdf
3. B. Romera-Paredes, P. Torr, "An embarrassingly simple approach to zero-shot learning," in ICML, 2015, pp. 2152–2161, https://proceedings.mlr.press/v37/romera-paredes15.pdf.
4. L. Reynolds, K. McDonell, "Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm", Feb 2021, https://doi.org/10.48550/arXiv.2102.07350.
5. S. Schulhoff, M. Ilie, N. Balepur, K. Kahadze, A. Liu, C. Si, Y. Li, A. Gupta, H. Han, S. Schulhoff, P. S. Dulepet, S. Vidyadhara, D. Ki, S. Agrawal, C. Pham, G. Kroiz, F. Li, H. Tao, A. Srivastava et al. "The Prompt Report: A Systematic Survey of Prompting Techniques," Dec 2024, https://doi.org/10.48550/arXiv.2406.06608.
6. Y. Li, Yinheng, "A Practical Survey on Zero-shot Prompt Design for In-context Learning," in RANLP, July 2023, pp. 641‑647, https://acl-bg.org/proceedings/2023/RANLP%202023/pdf/2023.ranlp-1.69.pdf.
7. H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozi`ere, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave and G. Lample, “LLaMA: Open and efficient foundation language models,” Feb 2023, https://doi.org/10.48550/arXiv.2302.13971.
8. J. Wei, M. Bosma, V. Y. Zhao, K. Guu, A. W. Yu, B. Lester, N. Du, A. M. Dai and Q. V. Le, "Finetuned Language Models are Zero-Shot Learners," in ICLR, 2022, https://doi.org/10.48550/arXiv.2109.01652.
9. L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. L. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray, J. Schulman, J. Hilton, F. Kelton, L. Miller, M. Simens, A. Askell, P. Welinder, P. Christiano, J. Leike, and R. Lowe, “Training language models to follow instructions with human feedback,” in NeurIPS, 2022, https://proceedings.neurips.cc/paper_files/paper/2022/file/b1efde53be364a73914f58805a001731-Paper-Conference.pdf.
10. P. Liu, W. Yuan, J. Fu, Z. Jiang, H. Hayashi, and G. Neubig, “Pre-train, prompt and predict: A systematic survey of prompting methods in Natural Language Processing,” ACM Computing Surveys, vol. 55, no. 9, pp. 1–35, Jan. 2023, https://dl.acm.org/doi/pdf/10.1145/3560815.
11. J. Wei, X. Wang, D. Schuurmans, M. Bosma, B. Ichter, F. Xia, E. Chi, Q. Le, and D. Zhou, “Chain-of-thought prompting elicits reasoning in large language models,” Jan 2023, https://doi.org/10.48550/arXiv.2201.11903.
12. J. Long, "Large Language Model Guided Tree-of-Thought," May 2023, https://doi.org/10.48550/arXiv.2305.08291.
13. S. Yao, D. Yu, J. Zhao, I. Shafran, T. L. Griffiths, Y. Cao, and K. Narasimhan, "Tree of Thoughts: Deliberate Problem Solving with Large Language Models," Dec 2023, https://doi.org/10.48550/arXiv.2305.10601.