يُعد التوليد المعزّز للاسترجاع (RAG) والضبط الدقيق طريقتين يمكن للمؤسسات استخدامهما للحصول على قيمة أكبر من النماذج اللغوية الكبيرة (LLMs). وكلاهما يعمل من خلال تخصيص النماذج اللغوية الكبيرة لحالات استخدام محددة، ولكن المنهجيات الكامنة وراءهما تختلف بشكل كبير.
على الرغم من أن الذكاء الاصطناعي التوليدي قد قطع شوطًا طويلاً منذ نشأته، لا تزال تشكل مهمة إنشاء إجابات مؤتمتة في الوقت الفعلي لاستفسارات المستخدمين تحديًا كبيرًا. وبينما تتسابق المؤسسات لدمج الذكاء الاصطناعي التوليدي في عملياتها لخفض التكاليف وتبسيط سير العمل والبقاء في صدارة المنافسين، فإنها غالبًا ما تُعاني من صعوبة في جعل روبوتات المحادثة والنماذج الأخرى تنشئ إجابات دقيقة بشكل موثوق.
يتمثل الفرق بين التوليد المعزّز للاسترجاع والضبط الدقيق في أن التوليد المعزّز للاسترجاع يعزز نموذج معالجة اللغة الطبيعية (NLP) من خلال ربطه بقاعدة بيانات خاصة بالمؤسسة، بينما يعمل الضبط الدقيق على تحسين نماذج التعلم العميق للمهام الخاصة بالمجال. يؤدي كل من التوليد المعزّز للاسترجاع والضبط الدقيق إلى نفس النتيجة المنشودة: تعزيز أداء النموذج لزيادة القيمة للمؤسسة التي تستخدمه.
تستخدم تقنية التوليد المعزّز للاسترجاع البيانات الداخلية للمؤسسة لزيادة هندسة المطالبات، بينما يعيد الضبط الدقيق تدريب النموذج على مجموعة مركزة من البيانات الخارجية لتحسين الأداء.
يقوم التوليد المعزّز للاسترجاع بتوصيل النماذج اللغوية الكبيرة بمخازن البيانات الحالية والخاصة التي لا يمكن الوصول إليها بطريقة أخرى. ويمكن لنماذج التوليد المعزّز للاسترجاع أن تقدم إجابات أكثر دقة من خلال السياق المضاف للبيانات الداخلية أكثر مما يمكنها تقديمه من دونها.
عادةً ما يتفوق النموذج المضبوط بدقة على النموذج الأساسي المقابل له، مثل GPT-3 أو GPT-4، عند تطبيق تدريبه باستخدام بيانات خاصة بالمجال. وتتمتع النماذج اللغوية الكبيرة المضبوطة بدقة بفهم أفضل للمجال المحدد ومصطلحاته، ما يسمح لها بإنشاء إجابات دقيقة.
تتعرّض النماذج اللغوية الكبيرة إلى الركود من دون الوصول المستمر إلى بيانات جديدة. تُعد النماذج اللغوية الكبيرة الحديثة شبكات عصبية هائلة تتطلب مجموعات كبيرة من البيانات والموارد الحسابية لتدريبها. فحتى أكبر موردي النماذج اللغوية الكبيرة، مثل Meta وMicrosoft وOpenAI، يعيدون تدريب نماذجهم بشكل دوري — ما يجعل أي نموذج لغوي كبير عفا عليه الزمن بشكل شبه فوري لحظة طرحه في الأسواق.
عندما لا تستطيع النماذج الاستفادة من البيانات الجديدة، فإنها غالبًا ما تهلوس أو تختلق: وهي ظاهرة تحدث عندما "تختلق" نماذج الذكاء الاصطناعي التوليدي إجابات لأسئلة لا تستطيع الإجابة عنها بشكل نهائي. تستخدم نماذج الذكاء الاصطناعي التوليدي خوارزميات إحصائية معقدة للتنبؤ بالإجابات عن استفسارات المستخدمين. وفي حال سأل المستخدم عن شيء لا يمكن للذكاء الاصطناعي العثور عليه بسهولة ضمن مجموعة بيانات التدريب الخاصة به، فإن أفضل ما يمكنه فعله هو التخمين.
التوليد المعزَّز بالاسترجاع هي طريقة تحسين النماذج اللغوية الكبيرة التي قدمتها Meta AI في ورقة بحثية صدرت عام 2020 باسم "التوليد المعزَّز بالاسترجاع للمهام واسعة المعرفة".[1] وهو إطار عمل لبنية البيانات الذي يربط بين النماذج اللغوية الكبيرة والبيانات المملوكة للمؤسسة، وغالبًا ما يتم تخزينها في مستودعات البيانات. تتسم منصات البيانات الضخمة هذه بالديناميكية وتحتوي على جميع البيانات التي تنتقل داخل المؤسسة عبر جميع نقاط الاتصال الداخلية والخارجية.
يعمل التوليد المعزَّز بالاسترجاع من خلال تحديد موقع المعلومات في مصادر البيانات الداخلية ذات الصلة باستعلام المستخدم، ثم استخدام تلك البيانات لإنشاء إجابات أكثر دقة. وتتم إضافة آلية "استرجاع" البيانات " لتعزيز" النماذج اللغوية الكبيرة من خلال مساعدتها " في إنشاء" إجابات أكثر صلة.
تنشئ نماذج التوليد المعزَّز بالاسترجاع الإجابات من خلال عملية مكونة من أربع مراحل:
الاستعلام: يقوم المستخدم بإرسال استعلام، ما يؤدي إلى تهيئة نظام التوليد المعزَّز بالاسترجاع.
استرجاع المعلومات: تمشط الخوارزميات المعقدة قواعد المعرفة في المؤسسة بحثًا عن المعلومات ذات الصلة.
التكامل: يتم دمج البيانات المسترجعة مع استعلام المستخدم وتقديمها إلى نموذج التوليد المعزَّز بالاسترجاع للإجابة عنها. وحتى هذه النقطة، لم تعالج النماذج اللغوية الكبيرة الاستعلام.
الاستجابة:من خلال دمج البيانات المسترجعة مع التدريب الخاص به ومعرفته المخزنة، تقوم النماذج اللغوية الكبيرة بإنشاء استجابة دقيقة من حيث السياق.
تستخدم أنظمة التوليد المعزَّز بالاسترجاع البحث الدلالي عند البحث في المستندات الداخلية. وتصنف قواعد البيانات الموجهة البيانات حسب التشابه، ما يتيح إمكانية البحث حسب المعنى، وليس حسب الكلمات الرئيسية. تُمكِّن تقنيات البحث الدلالي خوارزميات التوليد المعزَّز بالاسترجاع من الوصول إلى الكلمات الدلالية السابقة لمقصد الاستعلام وإرجاع البيانات الأكثر صلة.
تتطلب أنظمة التوليد المعزَّز بالاسترجاع إنشاء بنية بيانات واسعة النطاق وصيانتها. يجب على مهندسي البيانات بناء مسارات البيانات اللازمة لربط مستودعات البيانات الخاصة بمؤسستهم بالنماذج اللغوية الكبيرة.
لتصور تقنية التوليد المعزَّز بالاسترجاع، تخيل نموذج الذكاء الاصطناعي التوليدي كطباخ منزلي هاوٍ. إنهم يعرفون أساسيات الطهي، لكنهم يفتقرون إلى معرفة الخبيرة—قاعدة البيانات الخاصة بالمؤسسة— للطاهي المدرب على مطبخ معين. يشبه التوليد المعزَّز بالاسترجاع إعطاء الطباخ المنزلي كتاب طبخ لهذا المطبخ. فمن خلال الجمع بين معرفتهم العامة بالطبخ والوصفات الموجودة في كتاب الطبخ، يمكن للطاهي المنزلي إعداد أطباقهم المفضلة الخاصة بكل سهولة.
لاستخدام التوليد المعزَّز بالاسترجاع بفعالية، يجب على مهندسي البيانات إنشاء أنظمة ومسارات تخزين البيانات التي تلبي سلسلة من المعايير المهمة.
يجب تنظيم البيانات وصيانتها بدقة لتعزيز وظائف نظام التوليد المعزَّز بالاسترجاع وتمكين استرجاع البيانات في الوقت الفعلي. وتساعد البيانات الوصفية المحدثة للبيانات والحد الأدنى من تكرار البيانات على ضمان الاستعلام الفعال.
يمكن أن يؤدي تقسيم البيانات غير المهيكلة، مثل المستندات، إلى أجزاء أصغر حجمًا إلى تسهيل استرجاعها بشكل أكثر فعالية. ويسمح ” تقسيم البيانات“ بهذه الطريقة لأنظمة التوليد المعزَّز بالاسترجاع باسترداد بيانات أكثر دقة وخفض التكاليف في الوقت ذاته لأن الجزء الأكثر صلة من المستند فقط هو الذي سيتم تضمينه في المطالبة بالنماذج اللغوية الكبيرة.
بعد ذلك، يتم تضمين الأجزاء — وهي عملية تحويل النص إلى أرقام — في قاعدة بيانات متجهة.
يجب أن تتضمن مسارات البيانات قيودًا أمنية لمنع الموظفين من الوصول إلى البيانات خارج نطاق أدوارهم. وفي أعقاب صدور تشريعات الخصوصية التاريخية مثل اللائحة العامة لحماية البيانات (الاتحاد الأوروبي)، يجب على المؤسسات تطبيق إجراءات حماية صارمة للبيانات على جميع البيانات الداخلية. يجب عدم إتاحة معلومات التعريف الشخصية (PII) للمستخدمين غير المصرح لهم.
يجمع نظام التوليد المعزَّز بالاسترجاع بين استعلام المستخدمين والبيانات المصدرية لإنشاء مطالبات مخصصة للنماذج اللغوية الكبيرة. ويمكن لعملية ضبط المطالبات المستمرة التي تيسرها نماذج التعلم الآلي أن تعزز قدرة نظام التوليد المعزَّز بالاسترجاع على الإجابة عن الأسئلة بمرور الوقت.
الضبط الدقيق هو عملية إعادة تدريب نموذج مُدرَّب مسبقًا على مجموعة أصغر وأكثر تركيزًا من بيانات التدريب لمنحه معرفة خاصة بالمجال. ثم يقوم النموذج بعد ذلك بتعديل معلماته - أي الإرشادات التي تحكم سلوكه - وتضميناته لتتناسب بشكل أفضل مع مجموعة البيانات المحددة.
يعمل الضبط الدقيق من خلال تعريض النموذج لمجموعة بيانات من الأمثلة المصنفة. ويعمل النموذج على تحسين تدريبه الأولي حيث يقوم بتحديث أوزان النموذج بناءً على البيانات الجديدة. الضبط الدقيق هو طريقة تعلم خاضعة للإشراف، ما يعني أن البيانات المستخدمة في التدريب منظمة ومصنفة. وعلى النقيض من ذلك، تخضع معظم النماذج الأساسية للتعلم غير الخاضع للإشراف، حيث تكون البيانات غير مصنفة - يجب على النموذج تصنيفها من تلقاء نفسه.
تخيل مرة أخرى نماذج الذكاء الاصطناعي التوليدي كطباخ منزلي، سيكون الضبط الدقيق هو دورة الطهي في مطبخ معين. قبل الالتحاق بالدورة، سيكون لدى الطاهي المنزلي فهم عام لأساسيات الطهي. ولكن بعد الخضوع لتدريب على الطهي واكتساب المعرفة الخاصة بالمجال، سيصبحون أكثر كفاءة في طهي هذا النوع من الطعام.
يمكن ضبط النماذج ضبطًا دقيقًا بالكامل، ما يؤدي إلى تحديث جميع معلماتها، أو ضبطها بطريقة تُحدِّث المعلمات الأكثر صلة فقط. وتُعرف هذه العملية الأخيرة باسم الضبط الدقيق الفعال للمعلمات (PEFT) وتتفوق في جعل النماذج أكثر فعالية في مجال معين مع الحفاظ على انخفاض تكاليف التدريب.
يُعد الضبط الدقيق للنموذج عملية حوسبة مكثّفة وتتطلب عدة وحدات معالجة رسومات قوية تعمل بالترادف، فضلاً عن الذاكرة اللازمة لتخزين النماذج اللغوية الكبيرة نفسها. يُمكِّن الضبط الدقيق الفعال للمعلمات مستخدمي النماذج اللغوية الكبيرة من إعادة تدريب نماذجهم على إعدادات أجهزة أبسط مع تحقيق ترقيات أداء مماثلة في حالة الاستخدام المقصود للنموذج، مثل دعم العملاء أو تحليل المشاعر. ويتفوق الضبط الدقيق بشكل خاص في مساعدة النماذج على التغلب على التحيز، حيث توجد فجوة بين تنبؤات النموذج والنتائج الفعلية في العالم الحقيقي.
يحدث التدريب المسبق في بداية عملية التدريب. وتتم تهيئة أوزان النموذج أو المعلمات بشكل عشوائي، ويبدأ النموذج في التدريب على مجموعة البيانات الأولية الخاصة به. يقدم التدريب المسبق المستمر نموذجًا مدربًا لمجموعة بيانات جديدة غير مصنفة في ممارسة تُعرف باسم التعلم الانتقالي. "ينقل" النموذج المُدرَّب مسبقًا ما تعلمه حتى الآن إلى معلومات خارجية جديدة.
على العكس من ذلك، يستخدم الضبط الدقيق البيانات المصنفة لتحسين أداء النموذج في حالة استخدام محددة. ويتفوق الضبط الدقيق في تحسين مهارات النموذج في مهام محددة، في حين أن التدريب المسبق المستمر يمكن أن يُعمّق خبرة النموذج في المجال.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.
1 "التوليد المعزز بالاسترجاع لمهمة معالجة اللغة الطبيعية كثيفة المعرفة"، Lewis وآخرون، 12 إبريل 2021.