يعمل التوليد المعزز بالاسترجاع عن طريق تحديد البيانات ذات الصلة باستعلام المستخدم، ثم استخدام تلك البيانات لإنشاء مطالبات أكثر إفادة. تمت إضافة آلية استرجاع المعلومات لزيادة المطالبات الخاصة بالنموذج اللغوي الكبير ومساعدته على توليد استجابات أكثر صلة.
تقوم نماذج التوليد المعزز بالاسترجاع بتوليد الإجابات من خلال عملية ذات أربع مراحل:
استعلام: يقدم المستخدم استعلامًا، مما يبدأ نظام التوليد المعزز بالاسترجاع (RAG).
استرجاع المعلومات: خوارزميات معقدة أو واجهات برمجة تطبيقات تمشط قواعد المعرفة الداخلية والخارجية بحثًا عن المعلومات ذات الصلة.
التكامل: يتم دمج البيانات المسترجعة مع استعلام المستخدم وتقديمها إلى نموذج التوليد المعزَّز بالاسترجاع للإجابة عنها. وحتى هذه النقطة، لم تعالج النماذج اللغوية الكبيرة الاستعلام.
الاستجابة: بدمج البيانات المسترجعة مع تدريبها ومعرفتها المخزنة، يولّد النموذج اللغوي الكبير ردًا غنيًا بالسياق ودقيقًا.
عند البحث في الوثائق، تستخدم أنظمة التوليد المعزَّز بالاسترجاع البحث الدلالي. وتصنف قواعد البيانات الموجهة البيانات حسب التشابه، ما يتيح إمكانية البحث حسب المعنى، وليس حسب الكلمات الرئيسية. تُمكِّن تقنيات البحث الدلالي خوارزميات التوليد المعزَّز بالاسترجاع من الوصول إلى الكلمات الدلالية السابقة لمقصد الاستعلام وإرجاع البيانات الأكثر صلة.
تتطلب أنظمة التوليد المعزَّز بالاسترجاع إنشاء بنية بيانات واسعة النطاق وصيانتها. يجب على مهندسي البيانات بناء مسارات البيانات اللازمة لربط بحيرات البيانات الخاصة بمؤسستهم بالنماذج اللغوية الكبيرة واستخدام التوليد المعزز بالاسترجاع (RAG). تحتاج أنظمة التوليد المعزز بالاسترجاع أيضًا إلى هندسة مطالبات دقيقة لتحديد موقع البيانات الصحيحة والتأكد من معرفة النموذج اللغوي الكبير بما يجب أن يفعله بها.
مرة أخرى، تخيل نموذج الذكاء الاصطناعي كطاهي هاوٍ في المنزل. فهو يعرف أساسيات الطهي ولكنه يفتقر إلى أحدث المعلومات والمعرفة الخبيرة لطاهٍ مدرب على مطبخ معين. يشبه التوليد المعزَّز بالاسترجاع إعطاء الطاهي المنزلي كتاب طبخ لهذا المطبخ. فمن خلال الجمع بين معرفته العامة بالطبخ والوصفات الموجودة في كتاب الطبخ، يمكن للطاهي المنزلي إعداد أطباقهم المفضلة الخاصة بكل سهولة.