ما هو تقييم وكيل الذكاء الاصطناعي؟

المؤلفين

Cole Stryker

Staff Editor, AI Models

IBM Think

Michal Shmueli-Scheuer

Distinguished Engineer, AI Benchmarking and Evaluation

يشير تقييم وكيل الذكاء الاصطناعي إلى عملية تقييم وفهم أداء وكيل الذكاء الاصطناعي في تنفيذ المهام واتخاذ القرار والتفاعل مع المستخدمين. وبالنظر إلى استقلاليتهم المتأصلة، فإن تقييم الوكلاء أمر ضروري لتعزيز أدائهم لوظائفهم بشكل صحيح. يجب أن يتصرف وكلاء الذكاء الاصطناعي بما يتماشى مع نية مصمميهم، وأن يكونوا فعَّالين ويلتزموا بمبادئ الذكاء الاصطناعي الأخلاقي لتلبية احتياجات المؤسسة. يساعد التقييم على التحقق من مدى التزام الوكلاء بهذه المتطلبات، كما يُسهم في تحسين جودة الوكيل من خلال تحديد مجالات التطوير والتحسين.

يتم تقييم وكلاء الذكاء الاصطناعي التوليدي غالبًا في مهام تقليدية لتحويل النص إلى نص، على غرار المعايير القياسية للنماذج اللغوية الكبيرة (LLM)، حيث يتم بشكل شائع استخدام مقاييس مثل التماسك، والملاءمة، والموثوقية في النص الذي تم إنشاؤه. ومع ذلك، فإن وكلاء الذكاء الاصطناعي التوليدي عادةً ما ينفِّذون عمليات أوسع وأكثر تعقيدًا -بما في ذلك التفكير متعدد الخطوات، واستدعاء الأدوات، والتفاعل مع الأنظمة الخارجية- ما يتطلب تقييمًا أكثر شمولًا. حتى عندما يكون المُخرَج النهائي نصًا، فقد يكون ناتجًا عن إجراءات وسيطة مثل استعلام قاعدة بيانات أو استدعاء واجهة برمجة تطبيقات، ويجب تقييم كلٍّ من هذه الخطوات بشكل مستقل.

في حالات أخرى، قد لا يُنتج الوكيل مُخرجات نصية على الإطلاق، بل ينفِّذ مهمة مثل تحديث سجل أو إرسال رسالة، حيث يتم قياس النجاح من خلال دقة التنفيذ. لذلك، يجب أن يتجاوز التقييم جودة النص على المستوى السطحي ليشمل سلوك الوكيل العام، ونجاح المهمة، ومدى توافقه مع نية المستخدم. بالإضافة إلى ذلك، ولتجنُّب تطوير وكلاء ذوي قدرات عالية لكن يستهلكون موارد بشكل كثيف ما يَحُدّ من استخدامهم العملي، يجب أن يشمل التقييم قياسات للتكلفة والكفاءة.

إلى جانب قياس أداء المهام، يجب أن يُولي تقييم وكلاء الذكاء الاصطناعي أهمية قصوى لأبعاد حاسمة مثل الأمان، والموثوقية، والامتثال للسياسات، والحد من التحيُّز. وتُعَد هذه العوامل ضرورية لنشر الوكلاء في بيئات واقعية ذات مخاطر عالية. يساعد التقييم على ضمان تجنُّب الوكلاء للسلوك الضار أو غير الآمن، والحفاظ على ثقة المستخدم من خلال مُخرجات يمكن التنبؤ بها والتحقق منها، ومقاومة التلاعب أو سوء الاستخدام.

لتحقيق هذه الأهداف الوظيفية (مثل الجودة والتكلفة) وغير الوظيفية (مثل الأمان)، يمكن أن تشمل أساليب التقييم اختبارات المقارنة المعيارية، والتقييم بمشاركة بشرية، واختبارات A/B، والمحاكاة في بيئات واقعية. ومن خلال التقييم المنهجي لوكلاء الذكاء الاصطناعي، يمكن للمؤسسات تعزيز قدراتها في هذا المجال، وتحسين جهود الأتمتة، وتعزيز وظائف الأعمال، مع تقليل المخاطر المرتبطة بالذكاء الاصطناعي الوكيل غير الآمن أو غير الموثوق به أو المتحيّز.

أحدث الأخبار التقنية، مدعومة برؤى خبراء

ابقَ على اطلاع دومًا بأهم—اتجاهات المجال وأكثرها إثارة للفضول—بشأن الذكاء الاصطناعي والأتمتة والبيانات وغيرها الكثير مع نشرة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! أنت مشترك.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

كيف يعمل تقييم وكيل الذكاء الاصطناعي

يتطلّب تقييم وكيل الذكاء الاصطناعي اتباع نهج منظم ضمن إطار رسمي أوسع لقابلية الملاحظة. تختلف طرق التقييم (أو الاختبار) بشكل كبير، لكن العملية تتضمن عادةً الخطوات التالية:

1. تحديد أهداف ومقاييس التقييم

ما الغرض من الوكيل؟ ما النتائج المتوقعة؟ كيف يتم استخدام الذكاء الاصطناعي في سيناريوهات العالم الواقعي؟

اطَّلِع على "المقاييس الشائعة لتقييم وكلاء الذكاء الاصطناعي" للتعرُّف على أبرز المقاييس المستخدمة، والتي تندرج ضمن فئات الأداء، والتفاعل وتجربة المستخدم، والذكاء الاصطناعي الأخلاقي والمسؤول، والنظام والكفاءة، والمقاييس الخاصة بالمهام.

2. جمع البيانات والتحضير للاختبار

لتقييم وكيل الذكاء الاصطناعي بشكل فعَّال، استخدِم مجموعات بيانات تقييم تمثيلية، تتضمن مدخلات متنوعة تعكس سيناريوهات واقعية، وحالات اختبار تُحاكي ظروف الوقت الفعلي. تمثِّل البيانات المشروحة الحقيقة الأساسية التي يمكن اختبار نماذج الذكاء الاصطناعي بناءً عليها.

حدِّد كل خطوة محتملة في سير عمل الوكيل، سواء أكانت استدعاءً لواجهة برمجة التطبيقات (API)، أم تمريرًا للمعلومات إلى وكيل آخر، أم اتخاذ قرار. فمن خلال تقسيم سير عمل الذكاء الاصطناعي إلى أجزاء فردية، يصبح من الأسهل تقييم كيفية تعامُل الوكيل مع كل خطوة. ضع في اعتبارك أيضًا النهج الكامل الذي يتبعه الوكيل في سير العمل، أو بعبارة أخرى، مسار التنفيذ الذي يتبعه الوكيل لحل مشكلة متعددة الخطوات.

3. إجراء الاختبار

شغِّل وكيل الذكاء الاصطناعي في بيئات مختلفة، مع إمكانية استخدام نماذج لغوية كبيرة (LLMs) متنوعة كأساس له، وتتبَّع الأداء. قسِّم خطوات الوكيل إلى عناصر منفصلة وقيِّم كل عنصر منها. على سبيل المثال، راقِب استخدام الوكيل للتوليد المعزز بالاسترجاع (RAG) لإحضار المعلومات من قاعدة بيانات خارجية، أو راقِب استجابته لاستدعاء واجهة برمجة التطبيقات.

4. تحليل النتائج

قارِن النتائج بمعايير النجاح المحددة مسبقًا إن وُجدت، وإن لم تكن متوفرة، فاستخدِم نموذجًا لغويًا كبيرًا كمقيِّم (انظر أدناه). قيِّم المفاضلات من خلال الموازنة بين الأداء والاعتبارات الأخلاقية.

هل اختار الوكيل الأداة المناسبة؟ هل استدعى الدالة الصحيحة؟ هل نقَل المعلومات الصحيحة في السياق المناسب؟ وهل قدَّم استجابة دقيقة من الناحية الواقعية؟

يُعَد استخدام الأدوات واستدعاء الدوال قدرة أساسية لبناء وكلاء أذكياء قادرين على تقديم استجابات دقيقة في الوقت الفعلي وضمن السياق الصحيح. ضع في الاعتبار إجراء تقييم وتحليل مخصصَين باستخدام نهج قائم على القواعد، إلى جانب تقييم دلالي يعتمد على نموذج لغوي كبير كمقيِّم.

يُعَد النموذج اللغوي الكبير كمقيِّم نظامًا مؤتمتًا لتقييم أداء وكلاء الذكاء الاصطناعي، يعتمد على معايير ومقاييس محددة مسبقًا. وبدلًا من الاعتماد الكامل على مراجعين بشريين، يستخدم هذا النظام خوارزميات، أو قواعد استدلال، أو نماذج تقييم قائمة على الذكاء الاصطناعي لتحليل استجابات الوكيل وقراراته وتصرفاته.

راجِع "مقاييس تقييم استدعاء الدوال" أدناه.

5. التحسين والتكرار

يمكن للمطورين الآن تعديل التعليمات، وتصحيح الخوارزميات، وتبسيط المنطق، أو ضبط هندسة الوكلاء استنادًا إلى نتائج التقييم. على سبيل المثال، يمكن تحسين حالات استخدام دعم العملاء من خلال تسريع أوقات إنشاء الاستجابة وإكمال المهام. يمكن تحسين كفاءة النظام من أجل قابلية التوسع واستخدام الموارد.

وكلاء الذكاء الاصطناعي

5 أنواع من وكلاء الذكاء الاصطناعي: الوظائف الذاتية والتطبيقات الواقعية

اكتشِف كيف يتكيّف الذكاء الاصطناعي القائم على الأهداف والمنفعة مع سير العمل والبيئات المعقدة.

المقاييس الشائعة لتقييم وكلاء الذكاء الاصطناعي

يريد المطورون من الوكلاء العمل على النحو المنشود. ونظرًا لاستقلالية وكلاء الذكاء الاصطناعي، من المهم فهم "السبب" وراء القرارات التي يتخذها وكيل الذكاء الاصطناعي. راجِع بعضًا من أكثر المقاييس شيوعًا التي يمكن للمطوِّرين استخدامها لتقييم وكلائهم بنجاح.

مخصص لمهام محددة

بحسب تطبيق الذكاء الاصطناعي، يمكن أن تُستخدَم مقاييس تقييم محددة للجودة:

  • يعمل النموذج اللغوي الكبير كمقيِّم على تقييم جودة توليد النصوص باستخدام الذكاء الاصطناعي، بغض النظر عن توفُّر بيانات الحقيقة الأساسية.
  • تُعَد BLEU وROUGE بدائل منخفضة التكلفة تُستخدَم لتقييم جودة النصوص التي يتم إنشاؤها بواسطة الذكاء الاصطناعي من خلال مقارنتها بنصوص مكتوبة بواسطة البشر.

تشمل المقاييس الوظيفية الأخرى لتقييم أداء وكيل الذكاء الاصطناعي ما يلي:

  • يقيس معدل النجاح/إتمام المهام نسبة المهام أو الأهداف التي يُنجزها الوكيل بشكل صحيح أو مُرضٍ من إجمالي المهام التي تم تنفيذها.
  • معدل الخطأ هو النسبة المئوية للمخرجات غير الصحيحة أو العمليات التي فشلت.
  • تقيس التكلفة استهلاك الموارد، مثل عدد الرموز أو وقت الحوسبة.
  • زمن الانتقال هو الوقت الذي يستغرقه وكيل الذكاء الاصطناعي لمعالجة البيانات وإرجاع النتائج.

الذكاء الاصطناعي الأخلاقي والمسؤول

  • ثغرة إدخال المطالبات تقيِّم معدل نجاح التعليمات العدائية في تغيير سلوك الوكيل المستهدف.
  • معدل الالتزام بالسياسات هو النسبة المئوية للاستجابات التي تتوافق مع السياسات المؤسسية أو الأخلاقية المحددة مسبقًا.
  • درجة التحيز والإنصاف تكشِف التفاوتات في عملية اتخاذ القرار باستخدام الذكاء الاصطناعي عبر مجموعات المستخدمين المختلفة.

التفاعل وتجربة المستخدم

بالنسبة إلى وكلاء الذكاء الاصطناعي الذين يتفاعلون مع المستخدمين، مثل روبوتات المحادثة والمساعدين الافتراضيين، ينظر المقيِّمون إلى هذه المقاييس.

  • درجة رضا المستخدم (CSAT) تقيس مدى رضا المستخدمين عن استجابات الذكاء الاصطناعي.

  • معدل المشاركة يتتبع عدد المرات التي يتفاعل فيها المستخدمون مع نظام الذكاء الاصطناعي.

  • تدفق المحادثة يقيِّم قدرة الذكاء الاصطناعي على الحفاظ على محادثات متماسكة وذات مغزى.

  • معدل إكمال المهمة يقيس مدى فاعلية وكيل الذكاء الاصطناعي في مساعدة المستخدمين على إكمال المهمة.

استدعاء الوظائف

تساعد هذه المقاييس القائمة على القواعد في تقييم الفاعلية التشغيلية للأنظمة التي تعتمد على الذكاء الاصطناعي:

  • اسم الوظيفة غير صحيح: حاوَل الوكيل استدعاء وظيفة موجودة، لكنه استخدم اسمًا أو تهجئة غير صحيحة، ما أدى إلى فشل في التنفيذ.
  • المَعلمات المطلوبة مفقودة: بدأ الوكيل استدعاء وظيفة ولكنه حذف مَعلمة واحدة أو أكثر ضرورية لتشغيل الوظيفة.
  • نوع قيمة المَعلمة غير صحيح: قدَّم الوكيل قيمة مَعلمة، لكن نوعها (سلسلة، رقم، قيمة منطقية) لا يتطابق مع ما تتوقعه الوظيفة.
  • القيم المسموح بها: استخدَم الوكيل قيمة خارج مجموعة القيم المقبولة أو المحددة مسبقًا لمَعلمة معينة.
  • معلمة وهمية: أدرَج الوكيل مَعلمة في استدعاء الوظيفة غير مُعرَّفة أو غير مدعومة من قِبَل مواصفات الوظيفة.

فيما يلي بعض المقاييس الدلالية التي تعتمد على النموذج اللغوي الكبير كمقيِّم.

  • يساعد تأصيل قيمة المَعلمات على التأكد من أن كل قيمة لمَعلمة ما تستند مباشرةً إلى نص المستخدم، أو سجل السياق (مثل مخرجات استدعاءات واجهات برمجة التطبيقات السابقة)، أو القيم الافتراضية المحددة في مواصفات واجهة برمجة التطبيقات.
  • تحويل الوحدات يتحقق من صحة تحويلات الوحدات أو التنسيقات (تتجاوز الأنواع الأساسية) بين القيم في السياق وقيم المَعلمات في استدعاء الأداة.
حلول ذات صلة
وكلاء الذكاء الاصطناعي للأعمال

يمكنك إنشاء مساعدين ووكلاء ذكاء اصطناعي ووكلاء أقوياء يعملون على أتمتة مهام سير العمل والعمليات باستخدام الذكاء الاصطناعي التوليدي ونشرها وإدارتها.

    استكشف watsonx Orchestrate
    حلول وكلاء الذكاء الاصطناعي من IBM

    يمكنك بناء مستقبل عملك باستخدام حلول الذكاء الاصطناعي الجديرة بالثقة.

    استكشف حلول وكلاء الذكاء الاصطناعي
    خدمات الذكاء الاصطناعي لدى IBM Consulting

    تساعد خدمات IBM Consulting AI في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.

    استكشف خدمات الذكاء الاصطناعي
    اتخِذ الخطوة التالية

    سواء اخترت تخصيص التطبيقات والمهارات المُعدّة مسبقًا أو إنشاء خدمات مخصصة مستندة إلى وكلاء ونشرها باستخدام استوديو الذكاء الاصطناعي، فإن منصة IBM watsonx تُلبي احتياجاتك.

    استكشف watsonx Orchestrate استكشف watsonx.ai