検索拡張生成（RAG）は、信頼できるナレッジ・ベースからの参照を使用して大規模言語モデルのアウトプットを最適化するアーキテクチャーです。これにより、言語モデルが応答を生成する前に、トレーニング・データが検証済みのソースで強化されます。LLMは、大規模なコーパスでトレーニングされ、数十億のパラメーターを使用してアウトプットを生成しますが、トレーニング・コーパスからの最新または正確な情報にアクセスできない場合があります。RAGは、モデルを再トレーニングすることなく、すでに強力なLLMの機能を特定のドメインに拡張します。LLMのアウトプットを改善する強力で潜在的にコスト効率の高い方法であり、あらゆる状況での関連性、正確性、有用性を維持します。

DSPyでは、シグネチャーにコンテキスト・ステップを追加することで、RAGアーキテクチャーを使用します。このステップでは、検索モデルからコンテキストを収集し、それを言語モデルのプロンプトに追加して、より良い応答を促すことができます。

class GenerateAnswer(dspy.Signature):

“””Answer questions with short factoid answers.”””



context = dspy.InputField(desc=”may contain relevant facts”)

question = dspy.InputField()

answer = dspy.OutputField(desc=”often between 1 and 5 words”)

この新しいGenerateAnswerシグネチャーは、RAGモデルで使用できます。GenerateAnswerを「ChainOfThought」モジュールに渡し、検索されるコンテキストと質問応答が「思考の連鎖」アプローチを使用するようにします。

また、RAGからコンテキストの文章を生成し、それらのコンテキストの文章を使用して応答を生成するために、forwardメソッドを更新します。DSPyは、質問に応じて新しい応答を生成するたびに、この「forward」メソッドを呼び出し、ColBERT Wiki 17の要約データセットから両方のコンテキストを収集し、そのコンテキストを言語モデル（この場合はLlama 3.1）に渡します。それぞれの応答が生成されると、DSPyはそのアウトプットと目的のアウトプットを比較し、モデルが正しい応答を生成するのにプロンプトが役立っているか確認します。

class RAG(dspy.Module):

def __init__(self, num_passages=3):

super().__init__()



self.retrieve = dspy.Retrieve(k=num_passages)

self.generate_answer = dspy.ChainOfThought(GenerateAnswer)



def forward(self, question):

context = self.retrieve(question).passages

prediction = self.generate_answer(context=context, question=question)

return dspy.Prediction(context=context, answer=prediction.answer)

DSPyが最適なプロンプトを設計するのを支援するには、プロンプトをテストして評価するために使用できるテスト用データセットが必要です。

DSPyにテスト用の質問を出すには、HotPotQAデータセットをロードします。HotpotQAは、正しい答えに到達するために複数の検索と推論を必要とする自然なマルチホップ質問を主要な機能とする、質問応答データセットです。これは、モデルが裏付けとなる事実をどの程度適切に生成できるかをテストし、より説明可能な質問応答システムをトレーニングおよびテストするための優れたツールです。

例えば、データセットからの質問の1つは、「フランクリン・ルーズベルト大統領は、選挙人団の票を議会に送る責任を負う役職に誰を任命したか？」です。この質問に正しく答えるには、いくつかの情報が必要であることがわかります。

The answer is: “Robert Digges Wimberly Connor”.

サポート・コンテキストは、ロバート・ディッグス・ウィンバリー・コナーおよび米国立公文書記録管理局に関するWikipediaのページから得られます。

HotPotQAは、カーネギーメロン大学、スタンフォード大学、モントリオール大学のNLP研究者チームによって収集および公開されています。HotPotQAの詳細については、HotPotQAのGitHubサイトをご覧ください。

データセットをロードした後、トレーニング・セットとテスト・セットに分割します。これにより、検索チェーンをテストし、DSPyが言語モデルに最適なプロンプトを見つけるのを支援できます。

# Load the dataset.

dataset = HotPotQA(train_seed=1, train_size=20, eval_seed=2023, dev_size=50, test_size=0)



# Tell DSPy that the ‘question’ field is the input. Any other fields are labels and/or metadata.

trainset = [x.with_inputs(‘question’) for x in dataset.train]

devset = [x.with_inputs(‘question’) for x in dataset.dev]

次に、DSPyにプロンプトを生成して評価する機会を増やすために、より多くの例をブートストラップします。Callingcompileは、構成したすべてのアーキテクチャーとHotPotQAデータセットを使用してプロンプトを生成およびテストし、言語モデルから最高の性能を引き出すものです。

from dspy.teleprompt import BootstrapFewShot



# Validation logic: check that the predicted answer is correct.

# Also check that the retrieved context does actually contain that answer.

def validate_context_and_answer(example, pred, trace=None):

answer_EM = dspy.evaluate.answer_exact_match(example, pred)

answer_PM = dspy.evaluate.answer_passage_match(example, pred)

return answer_EM and answer_PM



# Set up a basic DSPy optimizer, which will compile your RAG program.

bfs_optimizer = BootstrapFewShot(metric=validate_context_and_answer)



# Compile!

compiled_rag = bfs_optimizer.compile(RAG(), trainset=trainset)

DSPyがプロンプト・エンジニアリングを行ってくれたので、次は以前に使用した2006年ノーベル賞に関するカスタム質問でテストします検索モデルは2017年のWikipediaからの抽出を使用しているため、そのコーパスに存在する可能性のある知識を使用して最大限のパフォーマンスを発揮します。

# Get the prediction. This contains `pred.context` and `pred.answer`.

pred = compiled_rag(test_question)



# Print the contexts and the answer.

print(f”Question: {test_question}”)

print(f”Predicted Answer: {pred.answer}”)

これで正しい答えが得られます。

Question: What country was the winner of the Nobel Prize in Literature in 2006 from and what was their name? Predicted Answer: Turkey, Orhan Pamuk

Orhan Pamuk氏はトルコ出身なので、この答えは正しいです。コンパイルされたバージョンのDSPyは、答えが正しいだけでなく、答えを正しく組み立て、完結かつ明確に応答しました。この予測応答のコンテキストを見て、モデルがどのようにして正しい答えに到達したかを確認してみましょう。

pred.context

これにより、次のものが返されます。

["Orhan Pamuk | Ferit Orhan Pamuk (generally known simply as Orhan Pamuk; born 7 June 1952) is a Turkish novelist, screenwriter, academic and recipient of the 2006 Nobel Prize in Literature. One of Turkey's most prominent novelists, his work has sold over thirteen million books in sixty-three languages, making him the country's best-selling writer.", '2006 Palanca Awards | The Carlos Palanca Memorial Awards for Literature winners in the year 2006 (rank, title of winning entry, name of author).', "Miguel Donoso Pareja | Miguel Donoso Pareja (July 13, 1931 – March 16, 2015) was an Ecuadorian writer and 2006 Premio Eugenio Espejo Award-winner (Ecuador's National Prize in literature, given by the President of Ecuador)."]

答えは、返されたコンテキストの最初のチャンクにあります。言語モデルのinspect_history()メソッドを使用すると、言語モデルの履歴を見ることで、DSPyがどのように最適なプロンプトを設計したかを確認できます。

lm.inspect_history()

DSPyが生成したプロンプトをテストしたコンパイル・プロセスの例がすべて含まれているため、この履歴は非常に長くなっています。履歴の最後の部分には、モデルがどのようにして正しい答えと正しい形式に到達したかが表示されます。

[[ ## context ## ]] [1] «Orhan Pamuk | Ferit Orhan Pamuk (generally known simply as Orhan Pamuk; born 7 June 1952) is a Turkish novelist, screenwriter, academic and recipient of the 2006 Nobel Prize in Literature. One of Turkey's most prominent novelists, his work has sold over thirteen million books in sixty-three languages, making him the country's best-selling writer.» [2] «2006 Palanca Awards | The Carlos Palanca Memorial Awards for Literature winners in the year 2006 (rank, title of winning entry, name of author).» [3] «Miguel Donoso Pareja | Miguel Donoso Pareja (July 13, 1931 – March 16, 2015) was an Ecuadorian writer and 2006 Premio Eugenio Espejo Award-winner (Ecuador's National Prize in literature, given by the President of Ecuador).» [[ ## question ## ]] What country was the winner of the Nobel Prize in Literature in 2006 from and what was their name? Respond with the corresponding output fields, starting with the field `[[ ## reasoning ## ]]`, then `[[ ## answer ## ]]`, and then ending with the marker for `[[ ## completed ## ]]`. [31mResponse:[0m [32m[[ ## reasoning ## ]] The text mentions the 2006 Nobel Prize in Literature and states that Orhan Pamuk, a Turkish novelist, was the winner. [[ ## answer ## ]] Turkey, Orhan Pamuk [[ ## completed ## ]][0m

DSPyがモデルを使用してプロンプトを生成したことがわかります。

対応するアウトプット・フィールドで応答します。先頭のフィールドは [[ ## reasoning ## ]] で、次に [[ ## answer ## ]] 、最後は次のマーカーで終わります [[ ## completed ## ]] .

これにより、正しい答えとフレーミングが導き出されます。