تقييم النموذج اللغوي الكبير: لماذا يعد اختبار نماذج الذكاء الاصطناعي أمرًا مهمًا

30 أكتوبر 2024

المؤلفين

Amanda McGrath

Writer, IBM

Alexandra Jonker

Editorial Content Lead

تخيل أن شركة توظف موظفًا جديدًا. سيرته الذاتية ممتازة ويكمل جميع مهامه بسرعة وكفاءة. عمله يُنجَز من الناحية التقنية - ولكن هل يُنجَز بشكل جيد؟ هل هو ذو جودة عالية ودقيق وموثوق؟

كما هو الحال مع أي موظف جديد، يخصص المديرون وقتًا لمراجعة عملهم للتأكد من أنه يلبي معايير الشركة ويؤدي بشكل مناسب. وبما أن الذكاء الاصطناعي (AI) يلعب دورًا أكبر في نتائج الأعمال واتخاذ القرارات، يتعين على الشركات أن تفعل الشيء نفسه بالنسبة للنماذج اللغوية الكبيرة.

النماذج اللغوية الكبيرة (LLMs) هي نماذج أساسية يتم تدريبها على كميات هائلة من البيانات وتُستخدم للمهام المتعلقة بفهم وتوليد النصوص. على سبيل المثال، يُعد هذا النوع من أنظمة الذكاء الاصطناعي مفيدًا بشكل خاص في أعمال مثل إنشاء المحتوى والتلخيص وتحليل المشاعر.

لقد أحدثت النماذج اللغوية الكبيرة ثورة في مجال معالجة اللغة الطبيعية (NLP) وأدخلت الذكاء الاصطناعي التوليدي إلى أذهان الجمهور بطرق جديدة. ويُعدّ Chat GPT-3 و GPT-4 من OpenAI، إلى جانب Llama من Meta، أشهر الأمثلة، ولكن يتم استخدام مجموعة واسعة من النماذج اللغوية الكبيرة في مجالات مختلفة. تعتمد النماذج اللغوية الكبيرة على أدوات الذكاء الاصطناعي مثل روبوتات المحادثة والمساعدين الافتراضين وأدوات ترجمة اللغة وأنظمة توليد التعليمات البرمجية.

مع اعتماد تطبيقات النماذج اللغوية الكبيرة على نطاق أوسع، وخاصة للاستخدام في القطاعات ذات المخاطر العالية مثل الرعاية الصحية والتمويل، فإن اختبار مخرجاتها أصبح مهمًا بشكل متزايد. وهنا يأتي دور تقييم النماذج اللغوية الكبيرة.

ما هو تقييم النماذج اللغوية الكبيرة؟

تقييم النماذج اللغوية الكبيرة هو عملية تقييم أداء وقدرات نماذج اللغوية الكبيرة. يُشار إليها أحيانًا باسم "LLM eval"، وهي تنطوي على اختبار هذه النماذج عبر مهام ومجموعات بيانات ومقاييس مختلفة لقياس فعاليتها.

يمكن لطرق التقييم استخدام التقييم الآلي والتقييم البشري لإيجاد نقاط القوة والضعف في النماذج اللغوية الكبيرة. تتضمن العملية مقارنة مخرجات النموذج ببيانات الحقيقة الأساسية (المعلومات التي يفترض أنها صحيحة) أو الاستجابات التي يولدها الإنسان لتحديد دقة النموذج وتماسكه وموثوقيته. تساعد نتائج تقييم النماذج اللغوية الكبيرة (LLM) الباحثين والمطورين على تحديد مجالات التحسين. تشكل عمليات التقييم أيضًا عنصرًا أساسيًا في عمليات النموذج اللغوي الكبيرة، أو LLMOps، والتي تتضمن الإدارة التشغيلية للنماذج اللغوية الكبيرة.

لماذا يعتبر تقييم النماذج اللغوية الكبيرة مهمًا؟

نظرا لأن النماذج اللغوية الكبيرة تلعب أدوارًا أكبر في الحياة اليومية، فإن تقييمهم يساعد في ضمان عملهم على النحو المنشود. بالإضافة إلى الاحتياجات الفنية، يساعد تقييم النماذج اللغوية الكبيرة أيضًا في بناء الثقة بين المستخدمين والأطراف المعنية.

يمكن أن يساعد تقييم النماذج اللغوية الكبيرة في:

  • أداء النموذج
  • الاعتبارات الأخلاقية
  • المقارنة المعيارية
  • تطوير نموذج جديد
  • ثقة المستخدم والأطراف المعنية

أداء النموذج

يُظهر تقييم النماذج اللغوية الكبيرة ما إذا كان النموذج يعمل كما هو متوقع ويولد مخرجات عالية الجودة عبر مهامه ومجالاته. بالإضافة إلى الوظائف الأساسية، يمكن أن يكشف التقييم عن الفروق الدقيقة في فهم اللغة وجودة التوليد والكفاءة الخاصة بالمهمة. ويمكنه أيضًا تحديد نقاط الضعف المحتملة، مثل الفجوات المعرفية أو التناقضات في التفكير، مما يسمح للباحثين والمطورين باستهداف التحسينات بشكل أفضل.

الاعتبارات الأخلاقية

أثناء تطويرها، تتأثر النماذج اللغوية الكبيرة بالتحيزات البشرية، خاصةً من خلال بيانات التدريب. التقييم هو إحدى الطرق لتحديد وتخفيف التحيزات أو عدم الدقة المحتملة في استجابات النموذج. يساعد التركيز على أخلاقيات الذكاء الاصطناعي في الوقاية من التقنية التي تساهم في إدامة عدم المساواة الاجتماعية وتدعم النتائج الواقعية.

المقارنة المعيارية

يسمح تقييم النماذج اللغوية الكبيرة للأشخاص بمقارنة أداء النماذج المختلفة واختيار أفضلها لحالة الاستخدام الخاصة بهم. إنه يوفر وسيلة موحدة لمقارنة النتائج من مقاييس الأداء الأولية مع عوامل مثل الكفاءة الحاسوبية والقابليّة للتوسع.

تطوير نموذج جديد

يمكن للرؤى المكتسبة من تقييم النماذج اللغوية الكبيرة توجيه تطوير نماذج جديدة. وتساعد الباحثين على إيجاد طرق لإنشاء تقنيات تدريب جديدة أو تصميمات نماذج أو قدرات محددة.

ثقة المستخدم والأطراف المعنية

يدعم تقييم النماذج اللغوية الكبيرة الشفافية في التطوير ويبني الثقة في المخرجات. ونتيجة لذلك، فهو يساعد المؤسسات على تحديد توقعات واقعية وتعزيز الثقة في أدوات الذكاء الاصطناعي.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر رؤى وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

تقييم نموذج LLM مقابل تقييم نظام LLM

على الرغم من ارتباطهما الوثيق، إلا أن تقييم النماذج اللغوية الكبيرة (LLM) وتقييم نظام النماذج اللغوية الكبيرة لهما تركيزات متميزة.

تقييم النماذج اللغوية الكبيرة (والذي يمكن أن يسمى أيضًا تقييم نموذج LLM) يقيّم مدى جودة أداء النموذج. وهو ينظر إلى نموذج اللغة الأساسي نفسه، مع التركيز على قدرته على فهم وتوليد النص عبر مختلف المهام والمجالات. يتضمن تقييم النموذج عادةً اختبار القدرات الأولية للنموذج. وتشمل هذه القدرات فهمها للغة، وجودة النتائج التي تولدها والأداء الخاص بالمهام المحددة.

يعد تقييم نظام النماذج اللغوية الكبيرة (LLM) أكثر شمولاً ويوفر نظرة ثاقبة على الأداء الشامل للتطبيق المدعوم بنموذج لغوي كبير. ينظر تقييم النظام إلى النظام البنائي بأكمله الذي تم إنشاؤه حول النموذج اللغوي الكبير. وتتضمن هذه الجهود قابلية التوسع والأمن والتكامل مع مكونات أخرى، مثل واجهات برمجة التطبيقات أو قواعد البيانات.

باختصار، يركز تقييم النموذج على التأكد من أن النموذج اللغوي الكبير يعمل لمهام محددة، في حين أن تقييم النظام هو نظرة أكثر شمولية على استخدامه وفعاليته بشكل عام. كلاهما ضروريان لتطوير تطبيقات نماذج لغوية كبيرة قوية وفعالة.

مقاييس تقييم النماذج اللغوية الكبيرة

تتمثل الخطوة الأولى في تقييم النماذج اللغوية الكبيرة في تحديد معايير التقييم الشاملة بناءً على الاستخدام المقصود للنموذج. هناك العديد من المقاييس المستخدمة للتقييم، ولكن بعض المقاييس الأكثر شيوعًا تشمل:

  • الدقة
  • الاستدعاء
  • درجة F1
  • التماسك
  • الإرباك
  • BLEU
  • ROUGE
  • زمن الانتقال
  • السمية

الدقة

حساب النسبة المئوية للاستجابات الصحيحة في مهام مثل التصنيف أو الإجابة على الأسئلة.

الاستدعاء

يقيس العدد الفعلي للإيجابيات الحقيقية، أو التنبؤات الصحيحة، مقابل التوقعات الخاطئة في استجابات النموذج اللغوي الكبير.

درجة F1

يمزج الدقة والاستدعاء في مقياس واحد. تتراوح درجات F1 من 0 إلى 1، حيث يشير 1 إلى الاستدعاء والدقة الممتازين.

التماسك

تقييم التدفق المنطقي واتساق النص الذي تم إنشاؤه.

الإرباك

قياس مدى جودة توقع النموذج لتسلسل الكلمات أو عينة من النص. كلما تنبأ النموذج بالنتيجة الصحيحة بشكل أكثر اتساقًا، انخفضت درجة الإرباك.

BLEU (التقييم ثنائي اللغة)

تقييم جودة النص الذي يتم إنشاؤه آليًا، خاصةً في مهام الترجمة.

ROUGE (معيار الاستدعاء المُوجَّه قيد الدراسة لتقييم التلخيص)

تقييم جودة الملخصات النصية من خلال مقارنتها بالملخصات التي تم إنشاؤها بواسطة البشر.

زمن الانتقال

قياس كفاءة النموذج وسرعته الإجمالية.

السمية

قياس وجود محتوى ضار أو مسيء في مخرجات النموذج.

تطبيق أطر العمل ومعايير تقييم النموذج اللغوي الكبير

يقوم مٌقيمو النماذج اللغوية الكبيرة (LLM) بوضع معايير تقييم واضحة، ثم يختارون إطار عمل للتقييم يوفر منهجية شاملة لتقييم أداء النموذج. على سبيل المثال، يتم استخدام إطار عمل تقييم النموذج الأساسي (FM-eval) من IBM للتحقق من صحة وتقييم النماذج اللغوية الكبيرة الجديدة بطريقة منهجية وقابلة للتكرار ومتسقة.

تتضمن أطر التقييم معايير تقييم النماذج اللغوية الكبيرة (LLM)، وهي مجموعات بيانات أو مهام موحدة تستخدم لتحليل النتائج وتوجيه عملية التقييم. بينما تحدد الأطر كيفية تقييم النموذج اللغوي الكبير (LLM)، تحدد معايير الأداء ما يجب تقييمه—بعبارة أخرى، المهام والبيانات المحددة.

تتكون معايير تقييم النماذج اللغوية الكبيرة من مجموعات بيانات عينة، ومهام، وقوالب مطالبات لاختبار النماذج اللغوية الكبيرة على مهارات محددة، مثل الإجابة على الأسئلة، والترجمة الآلية، والتلخيص، وتحليل المشاعر. كما تتضمن مقاييس لتقييم الأداء وآلية تسجيل النقاط. يمكن أن تستند معايير التقييم الخاصة بهم إلى الحقيقة الأساسية أو التفضيلات البشرية.

من خلال تقييم النماذج اللغوية الكبيرة على هذه المعايير، يمكن للمطورين مقارنة أداء نماذج مختلفة وتتبع التقدم بمرور الوقت. تتضمن بعض الأمثلة على معايير النماذج اللغوية الكبيرة المستخدمة على نطاق واسع ما يلي:

  • مجموعة بيانات فهم اللغة متعدد المهام واسع النطاق (MMLU)، والتي تتكون من مجموعة من أسئلة الاختيار من متعدد التي تغطي مجالات مختلفة.
  • HumanEval، الذي يقيّم أداء الآلة من حيث توليد التعليمات البرمجية وخاصةً صحة الوظيفة.
  • TruthfulQA، الذي يعالج مشاكل الهلوسة من خلال قياس قدرة النموذج اللغوي الكبير على توليد إجابات صادقة للأسئلة.
  • تقييم فهم اللغة العام (GLUE)، و SuperGLUE، الذي يختبر أداء نماذج معالجة اللغة الطبيعية (NLP)، وخاصةً تلك المصممة لمهام فهم اللغة.
  • مكتبة مجموعات بيانات Hugging Face، التي توفر وصولاً مفتوح المصدر إلى العديد من مجموعات بيانات التقييم.

ويتم تقديم المعايير المحددة إلى النموذج اللغوي الكبير من خلال اختبارات بدون أمثلة وقليلة الأمثلة والضبط الدقيق لمعرفة مدى جودة عمل النموذج. من خلال "الاختبارات قليلة الأمثلة"، يتم تقييم النموذج اللغوي الكبير بناءً على قدرته على الأداء ببيانات محدودة بعد أن يتلقى عددًا صغيرًا من الأمثلة المصنفة التي توضح كيفية إنجاز المهمة. تطلب "الاختبارات بدون أمثلة" من النموذج اللغوي الكبير إكمال مهمة دون أي أمثلة، واختبار كيفية تكيفها مع الظروف الجديدة. ويؤدي "الضبط الدقيق" إلى تدريب النموذج على مجموعة بيانات مشابهة لما يستخدمه المعيار من أجل تحسين قدرة النموذج اللغوي الكبير على أداء مهمة محددة.

يمكن استخدام نتائج تقييم النماذج اللغوية الكبيرة (LLM) لتحسين وتكرار النموذج عن طريق ضبط المعلمات أو الضبط الدقيق أو حتى إعادة التدريب على بيانات جديدة.

النموذج اللغوي الكبير كقاضٍ مقابل وجود عنصر بشري في العملية

عند تقييم مخرجات النموذج، يستخدم المطورون والباحثون نهجين: النموذج اللغوي الكبير كقاضٍ والتقييم البشري في الحلقة.

في تقييم النموذج اللغوي الكبير كقاضٍ، يتم استخدام النموذج اللغوي الكبير نفسه لتقييم جودة مخرجاته الخاصة. على سبيل المثال، قد يشمل ذلك مقارنة النص الذي تم إنشاؤه بواسطة نموذج بمجموعة بيانات الحقيقة الأساسية، أو استخدام مقاييس مثل الإرباك أو F1 لقياس النتائج.

بالنسبة لنهج وجود عنصر بشري في العملية، يقيس المقيّمون البشريون جودة مخرجات النموذج اللغوي الكبير. يمكن أن يكون هذا النوع من التقييم مفيدًا في التقييمات الأكثر دقة، مثل التماسك والملاءمة وتجربة المستخدم، والتي يصعب التقاطها من خلال المقاييس الآلية وحدها.

حالات استخدام تقييم النماذج اللغوية الكبيرة

تقييم النماذج اللغوية الكبيرة له العديد من حالات الاستخدام العملية. تشمل بعض الأمثلة ما يلي:

تقييم دقة نظام الإجابة على الأسئلة

في التوليد المعزز بالاسترجاع (RAG)، يمكن أن يساعد تقييم النموذج اللغوي الكبير في اختبار جودة الإجابات التي يتم إنشاؤها بواسطة النموذج. يمكن للباحثين استخدام مجموعات البيانات مثل SQuAD (مجموعة بيانات أسئلة وأجوبة ستانفورد) أو TruthfulQA للتحقق من دقة نظام الاستجابة للأسئلة المدعوم بالنماذج اللغوية الكبيرة من خلال مقارنة استجابات النموذج بالإجابات الصحيحة.

تقييم طلاقة وتماسك النص الذي تم إنشاؤه

باستخدام المقاييس مثل BLEU والتقييم البشري، يمكن للباحثين اختبار جودة الردود النصية التي تقدمها روبوتات المحادثة أو أنظمة الترجمة الآلية. يساعد هذا على ضمان أن يكون النص الذي تم إنشاؤه متقن ومتماسكًا ومناسبًا للسياق.

الكشف عن التحيز والسمية

وباستخدام مجموعات البيانات والمقاييس المتخصصة، يمكن للباحثين تقييم وجود تحيزات ومحتوى سام في النص الذي تم إنشاؤه بواسطة النموذج اللغوي الكبير. على سبيل المثال، يمكن استخدام مجموعة بيانات ToxiGen لتقييم سمية مخرجات النموذج، مما قد يؤدي إلى تطبيقات أكثر أمانًا وشمولية.

مقارنة أداء النماذج اللغوية الكبيرة المختلفة

يمكن للباحثين استخدام مجموعات بيانات معيارية مثل GLUE أو SuperGLUE لمقارنة أداء مختلف النماذج اللغوية الكبيرة عبر مختلف مهام معالجة اللغة الطبيعية مثل تحليل المشاعر أو التعرف على الكيانات المسماة.

في حالات الاستخدام هذه وغيرها من حالات الاستخدام، يمكن أن يؤدي تقييم النموذج اللغوي الكبير إلى فوائد مهمة للأعمال. من خلال تحديد مجالات التحسين وفرص معالجة نقاط الضعف، يمكن أن يؤدي تقييم النموذج اللغوي الكبير إلى تجربة أفضل للمستخدمين ومخاطر أقل وتحقيق ميزة تنافسية محتملة.

تحديات تقييم النماذج اللغوية الكبيرة

على الرغم من جميع فوائد، يواجه تقييم النماذج اللغوية الكبيرة أيضًا بعض التحديات والقيود. تجعل الوتيرة السريعة لتطوير النماذج اللغوية الكبيرة من الصعب إنشاء معايير موحدة وطويلة الأمد. تقييم الفهم السياقي أمر صعب، كما هو الحال في اكتشاف الفروق الدقيقة في التحيز.

القابلية للتفسير تشكل أيضًا مشكلة: غالبًا ما ينظر إلى النماذج اللغوية الكبيرة على أنها "الصندوق الأسود"، مما يجعل من الصعب تفسير عملية صنع القرار لأغراض التقييم وتحديد العوامل التي تساهم في مخرجاتها.

كما أن العديد من مجموعات بيانات التقييم لا تمثل لغات أو ثقافات مختلفة. نتيجةً لذلك، قد يكون أداء النماذج التي يتم اختبارها باستخدام مجموعات البيانات هذه جيدًا على معايير محددة ولكنها مع ذلك تتعثر في سيناريوهات العالم الحقيقي.

مع استمرار تطوير وتطبيق النماذج اللغوية الكبيرة وتطبيقات التعلم الآلي المعقدة الأخرى بطرق جديدة، فإن التغلب على مثل هذه التحديات لضمان التقييم القوي سيلعب دورًا مهمًا في مساعدة المقيّمين والمطورين على تحسين فعالية النماذج اللغوية الكبيرة وسلامتها واستخدامها الأخلاقي.

حلول ذات صلة ®IBM watsonx.governance

يمكنك إدارة أنشطة الذكاء الاصطناعي الخاصة بالمؤسسة والوصول إلى قدرات الحوكمة والمخاطر والامتثال القوية.

خدمات ®IBM AI Governance

تعمل IBM Consulting مع العملاء على وضع استراتيجية مسؤولة وشفافة للذكاء الاصطناعي مدعومة بأطر عمل الحوكمة التنظيمية.

حلول الذكاء الاصطناعي من ®IBM

توسيع نطاق الذكاء الاصطناعي ليشمل المزيد من أجزاء عملك بثقة أكبر للحصول على نتائج أقوى.

الموارد

ما المقصود بحوكمة الذكاء الاصطناعي؟
موضوع ذو صلة

استكشف الموضوع

ما المقصود بإدارة مخاطر الذكاء الاصطناعي؟
المدونة

اقرأ المدونة

ما المقصود بأخلاقيات الذكاء الاصطناعي؟
موضوع ذو صلة

استكشف الموضوع

ما هي عمليات النماذج اللغوية الكبيرة (LLMOps)؟
موضوع ذو صلة

استكشف الموضوع

اتخِذ الخطوة التالية

تمكَّن من تسريع مهام سير عمل الذكاء الاصطناعي المسؤول والشفاف والقابل للتفسير عبر دورة الحياة في كل من نماذج الذكاء الاصطناعي التوليدي ونماذج التعلم الآلي. كما يمكنك توجيه أنشطة الذكاء الاصطناعي في مؤسستك وإدارتها ومراقبتها لتحسين إدارة لوائح الذكاء الاصطناعي المتزايدة واكتشاف المخاطر والتخفيف من حدتها.

استكشف watsonx.governance احجز عرضًا توضيحيًا مباشرًا