البحث التوليدي هو دمج نماذج الذكاء الاصطناعي التوليدي مع قدرات البحث؛ ما يوسِّع قدرات البحث والاسترجاع في حلول البحث عبر إمكانات توليد المحتوى والتلخيص التي توفِّرها النماذج اللغوية الكبيرة (LLMs). يوضِّح المخطط أدناه البنية المفاهيمية للبحث التوليدي.
يتم إدخال مستندات العملاء، بما في ذلك مستندات Word وملفات PDF وبيانات الويب وغيرها من النصوص المنظمة وغير المنظمة، إلى عنصر تحليل المحتوى (Content Analysis) وتجهيزها للبحث الدلالي.
يقدّم المستخدم سؤالًا عبر واجهة المستخدم الخاصة بتحليل المحتوى.
يستخدم عنصر تحليل المحتوى سؤال المستخدم لتحديد المستندات والمقاطع الأكثر صلة بالسؤال. بناءً على سؤال المستخدم، يرسل العنصر السؤال مع المستندات والمقاطع ذات الصلة إلى النموذج اللغوي الكبير لتوليد استجابة شبيهة برد الإنسان.
يعيد النموذج اللغوي الكبير الاستجابة التي تم توليدها، والتي يتم تمريرها بعد ذلك إلى المستخدم.
يُظهر الرسم البياني أدناه ربط مجموعة منتجات IBM watsonx بنمط البحث التوليدي. يتم استخدام IBM Watson Discovery لتوفير استيعاب المستندات وفهمها وتحليل المحتوى واستخراج الرؤى في عنصر تحليل المحتوى. يتم استخدام IBM watsonx.ai لاختيار وتعديل وضبط ونشر النموذج اللغوي الكبير المستخدم لتوسيع قدرات Watson Discovery.
بعض العملاء قد لا يتوفر لديهم watsonx.ai في منطقتهم المحلية، أو قد تكون لديهم مخاوف أمنية أو متطلبات تنظيمية تمنعهم من استخدام حل watsonx.ai SaaS. بالنسبة إلى هؤلاء العملاء، نقدِّم watsonx.ai كمجموعة من الخدمات المعبأة في حاويات يمكن نشرها على Red Hat Openshift داخل مراكز بيانات العملاء، أو ضمن سحابة خاصة افتراضية (VPC) في بنية مزوِّد الخدمة السحابية.
هناك العديد من العوامل التي تؤخذ في الاعتبار عند اختيار النماذج التي ستعمل بشكل جيد لمشروعك.
قد يقيد ترخيص النموذج كيفية استخدامه. فعلى سبيل المثال، قد يمنع ترخيص النموذج من استخدامه كجزء من تطبيق تجاري.
لمجموعة البيانات المستخدمة في تدريب النموذج تأثير مباشر في أداء النموذج في تطبيق محدد، كما تؤثِّر بشكل كبير في احتمال توليد النموذج لإجابات غير منطقية، أو مسيئة، أو غير مرغوب فيها ببساطة. وبالمثل، النماذج المدرَّبة على بيانات محمية بحقوق الطبع والنشر أو بيانات خاصة قد تعرِّض مستخدميها للمسؤولية القانونية. تقدِّم IBM شفافية كاملة حول بيانات التدريب وتعويض المستخدمين عن أي دعاوى قانونية ناشئة عن نماذجها.
حجم النموذج، أي عدد المعاملات التي تم تدريبه عليها، وحجم نافذة السياق، أي طول مقطع النص الذي يمكن للنموذج معالجته، يؤثِّران في أداء النموذج ومتطلبات الموارد، وبالتالي في التكلفة وسرعة المعالجة. رغم الإغراء باتِّباع فلسفة "الأكبر أفضل" واختيار نموذج بـ 20 مليار معاملة، قد لا تبرر متطلبات الموارد والتحسين المحتمل في الدقة هذا الاختيار. أظهرت الدراسات الحديثة أن النماذج الصغرى قد تتفوق بشكل كبير على النماذج الكبرى في بعض الحلول.
يمكن لأي ضبط دقيق يتم تطبيقه على نموذج ما أن يؤثر على ملاءمته لمهمة ما. على سبيل المثال، تقدم شركة IBM نسختين من نموذج Granite: إحداهما نسخة مضبوطة لتطبيقات الدردشة العامة، والنسخة الأخرى مضبوطة لاتباع التعليمات.
تشمل الاعتبارات الأخرى عند اختيار النموذج ما يلي:
اختيار معلمات النموذج، على سبيل المثال درجة حرارة النموذج التي تتحكم في التوازن بين توليد نصوص شبيهة بالنص البشري وتقديم استجابات واقعية. سيؤدي ضبط درجة حرارة النموذج على قيمة عالية إلى توليد استجابات متسقة ولكن من المحتمل أن تكون غير مثيرة للاهتمام أو موجزة للغاية، في حين أن ضبط درجة الحرارة على قيمة منخفضة يضيف تنوعًا أكبر في الاستجابات، ولكنه قد يؤدي أيضًا إلى عدم القدرة على التنبؤ في طول المحتوى ومضمونه.
اختيار وتنفيذ ضوابط الحماية للنموذج لمنع النتائج غير الفعالة أو المسيئة.
يجب أيضًا أخذ لغة بيانات العميل واستفسارات المستخدم في الاعتبار. الغالبية العظمى من النماذج اللغوية الكبيرة تم تدريبها على نصوص باللغة الإنجليزية، وغالبًا ما تستطيع الترجمة بين الإنجليزية ولغات أخرى بدرجات متفاوتة من الكفاءة. التطبيقات التي تتطلب دعم لغات متعددة أو دعمًا محليًا قد تحتاج إلى استخدام عدة نماذج مدرَّبة على كل لغة مدعومة، أو إضافة خطوة ترجمة لتحويل المدخلات متعددة اللغات إلى الإنجليزية أو لغة أساسية أخرى.
قد يريد بعض العملاء وجود آلية لتلقي الملاحظات بهدف تحسين استجابات النظام بشكل مستمر. مع مرور الوقت، يمكن أن تساعد هذه الملاحظات على تحسين تكوين Watson Discovery (مثل تعديل معايير البحث) وضبط النموذج اللغوي الكبير بدقة أكبر.
قد يريد العملاء في الصناعات المنظمة إضافة طبقة مراقبة إضافية للالتزام باللوائح، وتوفير الشفافية للمستخدمين حول كيفية معالجة استفساراتهم ودور الذكاء الاصطناعي في توليد الردود.
كما هو الحال مع أي نظام متكامل، تجب مراقبة الأداء ورضا المستخدمين وأي مشكلات محتملة بشكل مستمر. كُن مستعدًا لتوسيع البنية التحتية مع زيادة طلب المستخدمين.