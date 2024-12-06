التوليد المعزز بالاسترجاع (RAG) هو بنية تعمل على تحسين مخرجات نموذج لغوي كبير باستخدام مراجع من قاعدة معرفية موثوق بها. يؤدي هذا إلى زيادة بيانات التدريب مع المصادر التي تم التحقق منها قبل أن يُنشئ النموذج اللغوي الاستجابة. يتم تدريب النماذج اللغوية الكبيرة على مجموعات كبيرة وتستخدم مليارات المَعلمات لتوليد المخرجات، لكنهم قد لا يتمكَّنون من الوصول إلى معلومات محدَّثة أو دقيقة من مجموعات التدريب الخاصة بهم. يوسِّع RAG قدرات النماذج اللغوية الكبيرة القوية بالفعل إلى مجال معين دون الحاجة إلى إعادة تدريب النموذج. إنها طريقة قوية وفعَّالة من حيث التكلفة لتحسين مخرجات النماذج اللغوية الكبيرة بحيث تظل ذات صلة ودقيقة ومفيدة في سياقات مختلفة.

في DSPy، يمكنك استخدام بنية RAG عن طريق إضافة خطوة السياق في فئة التوقيع (Signature). تجمع هذه الخطوة السياق من نموذج الاسترجاع وتضيفه إلى المطالبة إلى النموذج اللغوي على أمل الحصول على استجابة أفضل.

class GenerateAnswer(dspy.Signature):

“””Answer questions with short factoid answers.”””



context = dspy.InputField(desc=”may contain relevant facts”)

question = dspy.InputField()

answer = dspy.OutputField(desc=”often between 1 and 5 words”)

يمكن استخدام التوقيع newGenerateAnswer مع نموذج RAG الخاص بك. مرِّر GenerateAnswer إلى وحدة ChainOfThought بحيث يستخدم كلٌّ من السياق المسترجَع والسؤال والإجابة نهج سلسلة الأفكار.

كما تحدِّث دالة forward لتوليد مقاطع سياقية من RAG واستخدام هذه المقاطع السياقية لإنتاج الإجابات. ستستدعي DSPy هذه الدالة forward في كل مرة يتم فيها توليد إجابة جديدة عن سؤال، حيث تجمع السياق من مجموعة ملخصات ColBERT Wiki 17 ثم تمرره إلى النموذج اللغوي، وفي هذه الحالة Llama 3.1. مع توليد كل إجابة، سيقارن DSPy الناتج بالإجابة المرغوب فيها لضمان أن المطالبات تساعد النموذج على إنتاج الاستجابات الصحيحة.

class RAG(dspy.Module):

def __init__(self, num_passages=3):

super().__init__()



self.retrieve = dspy.Retrieve(k=num_passages)

self.generate_answer = dspy.ChainOfThought(GenerateAnswer)



def forward(self, question):

context = self.retrieve(question).passages

prediction = self.generate_answer(context=context, question=question)

return dspy.Prediction(context=context, answer=prediction.answer)

من أجل مساعدة DSPy على تصميم أفضل المطالبات، تحتاج إلى مجموعة بيانات اختبار يمكن استخدامها لاختبار المطالبات ثم تقييمها.

لتزويد DSPy بأسئلة اختبار، ستحمِّل مجموعة البيانات HotPotQA. تُعَد HotPotQA مجموعة بيانات للإجابة عن الأسئلة تحتوي على أسئلة طبيعية متعددة الخطوات تتطلب عدة استرجاعات واستنتاجات للوصول إلى الإجابة الصحيحة. وهي أداة رائعة لاختبار مدى جودة النماذج في توليد الحقائق الداعمة لتدريب واختبار أنظمة الإجابة عن الأسئلة الأكثر قابلية للتفسير.

على سبيل المثال، أحد الأسئلة من مجموعة البيانات هو: "من الذي عينه الرئيس Franklin Roosevelt وكان مسؤولًا عن نقل أصوات المجمع الانتخابي إلى الكونجرس؟" يمكنك أن ترى أن هذا السؤال يتطلب عدة أجزاء من المعلومات للإجابة بشكل صحيح.

The answer is: “Robert Digges Wimberly Connor”.

يأتي السياق الداعم من صفحات Wikipedia حول Robert Digges Wimberly Connor وعن إدارة الأرشيف والسجلات الوطنية.

تم جمع ونشر مجموعة بيانات HotPotQA بواسطة فريق من باحثي معالجة اللغة الطبيعية في جامعة كارنيجي ميلون، وجامعة ستانفورد، وجامعة مونتريال. يتوفر مزيد من المعلومات حول HotPotQA في موقعهم على GitHub.

بعد تحميل مجموعة البيانات، قسِّمها إلى مجموعات تدريب واختبار. يُتيح لك هذا اختبار سلسلة الاسترجاع ومساعدة DSPy على تحديد أفضل المطالبات للنموذج اللغوي.

# Load the dataset.

dataset = HotPotQA(train_seed=1, train_size=20, eval_seed=2023, dev_size=50, test_size=0)



# Tell DSPy that the ‘question’ field is the input. Any other fields are labels and/or metadata.

trainset = [x.with_inputs(‘question’) for x in dataset.train]

devset = [x.with_inputs(‘question’) for x in dataset.dev]

بعد ذلك، ستمهِّد المزيد من الأمثلة لإتاحة فرص أكثر لإطار عمل DSPy لإنشاء المطالبات وتقييمها. استدعاء دالة compile هو ما يستخدم كل البنية التي كوَّنتها بالإضافة إلى مجموعة بيانات HotPotQA لتوليد المطالبات واختبارها وتحقيق أفضل أداء من النموذج اللغوي الخاص بك.

from dspy.teleprompt import BootstrapFewShot



# Validation logic: check that the predicted answer is correct.

# Also check that the retrieved context does actually contain that answer.

def validate_context_and_answer(example, pred, trace=None):

answer_EM = dspy.evaluate.answer_exact_match(example, pred)

answer_PM = dspy.evaluate.answer_passage_match(example, pred)

return answer_EM and answer_PM



# Set up a basic DSPy optimizer, which will compile your RAG program.

bfs_optimizer = BootstrapFewShot(metric=validate_context_and_answer)



# Compile!

compiled_rag = bfs_optimizer.compile(RAG(), trainset=trainset)

والآن، بعد أن أنجز DSPy هندسة المطالبات نيابةً عنك، ستختبره بالسؤال المخصص حول جائزة نوبل لعام 2006 الذي استخدمته سابقًا. ونظرًا لأن نموذج الاسترجاع يستخدم مقتطفات من Wikipedia لعام 2017، فإن أداءه سيكون أفضل مع المعلومات الموجودة في تلك المجموعة من البيانات:

# Get the prediction. This contains `pred.context` and `pred.answer`.

pred = compiled_rag(test_question)



# Print the contexts and the answer.

print(f”Question: {test_question}”)

print(f”Predicted Answer: {pred.answer}”)

الآن تحصل على الإجابة الصحيحة.

السؤال: من أي بلد كان الفائز بجائزة نوبل للأدب عام 2006 وما اسمه؟ الإجابة المتوقعة: تركيا، Orhan Pamuk

Orhan Pamuk من تركيا لِذا فإن هذه الإجابة صحيحة. النسخة المحوَّلة برمجيًا من DSPy لم تُجب بشكل صحيح فحسب، بل صاغت الإجابة أيضًا بطريقة صحيحة، وقدَّمت ردًا قصيرًا وواضحًا. دعنا نرَ سياق هذه الاستجابة المتوقعة لنرى كيف وصل النموذج إلى الإجابة الصحيحة:

pred.context

يُظهر هذا:

["Orhan Pamuk | Ferit Orhan Pamuk (generally known simply as Orhan Pamuk; born 7 June 1952) is a Turkish novelist, screenwriter, academic and recipient of the 2006 Nobel Prize in Literature. One of Turkey's most prominent novelists, his work has sold over thirteen million books in sixty-three languages, making him the country's best-selling writer.", '2006 Palanca Awards | The Carlos Palanca Memorial Awards for Literature winners in the year 2006 (rank, title of winning entry, name of author).', "Miguel Donoso Pareja | Miguel Donoso Pareja (July 13, 1931 – March 16, 2015) was an Ecuadorian writer and 2006 Premio Eugenio Espejo Award-winner (Ecuador's National Prize in literature, given by the President of Ecuador)."]

الجواب في الجزء الأول من السياق الذي تم إرجاعه. يمكنك معرفة كيفية تصميم DSPy للمطالبات المُثلى من خلال النظر إلى تاريخ النموذج اللغوي باستخدام دالة inspect_history() للنموذج اللغوي.

lm.inspect_history()

هذا السجل طويل جدًا لأنه يشمل جميع الأمثلة من عملية التجميع حيث اختبَر DSPy المطالبات التي أنشأها. يوضِّح الجزء الأخير من السجل كيف توصَّل النموذج إلى الإجابة الصحيحة وبالصياغة المناسبة:

[[ ## context ## ]] [1] «Orhan Pamuk | Ferit Orhan Pamuk (generally known simply as Orhan Pamuk; born 7 June 1952) is a Turkish novelist, screenwriter, academic and recipient of the 2006 Nobel Prize in Literature. One of Turkey's most prominent novelists, his work has sold over thirteen million books in sixty-three languages, making him the country's best-selling writer.» [2] «2006 Palanca Awards | The Carlos Palanca Memorial Awards for Literature winners in the year 2006 (rank, title of winning entry, name of author).» [3] «Miguel Donoso Pareja | Miguel Donoso Pareja (July 13, 1931 – March 16, 2015) was an Ecuadorian writer and 2006 Premio Eugenio Espejo Award-winner (Ecuador's National Prize in literature, given by the President of Ecuador).» [[ ## question ## ]] What country was the winner of the Nobel Prize in Literature in 2006 from and what was their name? Respond with the corresponding output fields, starting with the field `[[ ## reasoning ## ]]`, then `[[ ## answer ## ]]`, and then ending with the marker for `[[ ## completed ## ]]`. [31mResponse:[0m [32m[[ ## reasoning ## ]] The text mentions the 2006 Nobel Prize in Literature and states that Orhan Pamuk, a Turkish novelist, was the winner. [[ ## answer ## ]] Turkey, Orhan Pamuk [[ ## completed ## ]][0m

يمكنك أن ترى أن DSPy استخدَم النموذج لتوليد المطالبة:

Respond with the corresponding output fields, starting with the field [[ ## reasoning ## ]] , then [[ ## answer ## ]] , and then ending with the marker for [[ ## completed ## ]] .

هذا يؤدي إلى الحصول على الإجابة الصحيحة والصياغة المناسبة.