أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
يشير تقييم وكيل الذكاء الاصطناعي إلى عملية تقييم وفهم أداء وكيل الذكاء الاصطناعي في تنفيذ المهام واتخاذ القرار والتفاعل مع المستخدمين. وبالنظر إلى استقلاليتهم المتأصلة، فإن تقييم الوكلاء أمر ضروري لتعزيز أدائهم لوظائفهم بشكل صحيح. يجب أن يتصرف وكلاء الذكاء الاصطناعي بما يتماشى مع نية مصمميهم، وأن يكونوا فعَّالين ويلتزموا بمبادئ الذكاء الاصطناعي الأخلاقي لتلبية احتياجات المؤسسة. يساعد التقييم على التحقق من مدى التزام الوكلاء بهذه المتطلبات، كما يُسهم في تحسين جودة الوكيل من خلال تحديد مجالات التطوير والتحسين.
يتم تقييم وكلاء الذكاء الاصطناعي التوليدي غالبًا في مهام تقليدية لتحويل النص إلى نص، على غرار المعايير القياسية للنماذج اللغوية الكبيرة (LLM)، حيث يتم بشكل شائع استخدام مقاييس مثل التماسك، والملاءمة، والموثوقية في النص الذي تم إنشاؤه. ومع ذلك، فإن وكلاء الذكاء الاصطناعي التوليدي عادةً ما ينفِّذون عمليات أوسع وأكثر تعقيدًا -بما في ذلك التفكير متعدد الخطوات، واستدعاء الأدوات، والتفاعل مع الأنظمة الخارجية- ما يتطلب تقييمًا أكثر شمولًا. حتى عندما يكون المُخرَج النهائي نصًا، فقد يكون ناتجًا عن إجراءات وسيطة مثل استعلام قاعدة بيانات أو استدعاء واجهة برمجة تطبيقات، ويجب تقييم كلٍّ من هذه الخطوات بشكل مستقل.
في حالات أخرى، قد لا يُنتج الوكيل مُخرجات نصية على الإطلاق، بل ينفِّذ مهمة مثل تحديث سجل أو إرسال رسالة، حيث يتم قياس النجاح من خلال دقة التنفيذ. لذلك، يجب أن يتجاوز التقييم جودة النص على المستوى السطحي ليشمل سلوك الوكيل العام، ونجاح المهمة، ومدى توافقه مع نية المستخدم. بالإضافة إلى ذلك، ولتجنُّب تطوير وكلاء ذوي قدرات عالية لكن يستهلكون موارد بشكل كثيف ما يَحُدّ من استخدامهم العملي، يجب أن يشمل التقييم قياسات للتكلفة والكفاءة.
إلى جانب قياس أداء المهام، يجب أن يُولي تقييم وكلاء الذكاء الاصطناعي أهمية قصوى لأبعاد حاسمة مثل الأمان، والموثوقية، والامتثال للسياسات، والحد من التحيُّز. وتُعَد هذه العوامل ضرورية لنشر الوكلاء في بيئات واقعية ذات مخاطر عالية. يساعد التقييم على ضمان تجنُّب الوكلاء للسلوك الضار أو غير الآمن، والحفاظ على ثقة المستخدم من خلال مُخرجات يمكن التنبؤ بها والتحقق منها، ومقاومة التلاعب أو سوء الاستخدام.
لتحقيق هذه الأهداف الوظيفية (مثل الجودة والتكلفة) وغير الوظيفية (مثل الأمان)، يمكن أن تشمل أساليب التقييم اختبارات المقارنة المعيارية، والتقييم بمشاركة بشرية، واختبارات A/B، والمحاكاة في بيئات واقعية. ومن خلال التقييم المنهجي لوكلاء الذكاء الاصطناعي، يمكن للمؤسسات تعزيز قدراتها في هذا المجال، وتحسين جهود الأتمتة، وتعزيز وظائف الأعمال، مع تقليل المخاطر المرتبطة بالذكاء الاصطناعي الوكيل غير الآمن أو غير الموثوق به أو المتحيّز.
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
يتطلّب تقييم وكيل الذكاء الاصطناعي اتباع نهج منظم ضمن إطار رسمي أوسع لقابلية الملاحظة. تختلف طرق التقييم (أو الاختبار) بشكل كبير، لكن العملية تتضمن عادةً الخطوات التالية:
ما الغرض من الوكيل؟ ما النتائج المتوقعة؟ كيف يتم استخدام الذكاء الاصطناعي في سيناريوهات العالم الواقعي؟
اطَّلِع على "المقاييس الشائعة لتقييم وكلاء الذكاء الاصطناعي" للتعرُّف على أبرز المقاييس المستخدمة، والتي تندرج ضمن فئات الأداء، والتفاعل وتجربة المستخدم، والذكاء الاصطناعي الأخلاقي والمسؤول، والنظام والكفاءة، والمقاييس الخاصة بالمهام.
لتقييم وكيل الذكاء الاصطناعي بشكل فعَّال، استخدِم مجموعات بيانات تقييم تمثيلية، تتضمن مدخلات متنوعة تعكس سيناريوهات واقعية، وحالات اختبار تُحاكي ظروف الوقت الفعلي. تمثِّل البيانات المشروحة الحقيقة الأساسية التي يمكن اختبار نماذج الذكاء الاصطناعي بناءً عليها.
حدِّد كل خطوة محتملة في سير عمل الوكيل، سواء أكانت استدعاءً لواجهة برمجة التطبيقات (API)، أم تمريرًا للمعلومات إلى وكيل آخر، أم اتخاذ قرار. فمن خلال تقسيم سير عمل الذكاء الاصطناعي إلى أجزاء فردية، يصبح من الأسهل تقييم كيفية تعامُل الوكيل مع كل خطوة. ضع في اعتبارك أيضًا النهج الكامل الذي يتبعه الوكيل في سير العمل، أو بعبارة أخرى، مسار التنفيذ الذي يتبعه الوكيل لحل مشكلة متعددة الخطوات.
شغِّل وكيل الذكاء الاصطناعي في بيئات مختلفة، مع إمكانية استخدام نماذج لغوية كبيرة (LLMs) متنوعة كأساس له، وتتبَّع الأداء. قسِّم خطوات الوكيل إلى عناصر منفصلة وقيِّم كل عنصر منها. على سبيل المثال، راقِب استخدام الوكيل للتوليد المعزز بالاسترجاع (RAG) لإحضار المعلومات من قاعدة بيانات خارجية، أو راقِب استجابته لاستدعاء واجهة برمجة التطبيقات.
قارِن النتائج بمعايير النجاح المحددة مسبقًا إن وُجدت، وإن لم تكن متوفرة، فاستخدِم نموذجًا لغويًا كبيرًا كمقيِّم (انظر أدناه). قيِّم المفاضلات من خلال الموازنة بين الأداء والاعتبارات الأخلاقية.
هل اختار الوكيل الأداة المناسبة؟ هل استدعى الدالة الصحيحة؟ هل نقَل المعلومات الصحيحة في السياق المناسب؟ وهل قدَّم استجابة دقيقة من الناحية الواقعية؟
يُعَد استخدام الأدوات واستدعاء الدوال قدرة أساسية لبناء وكلاء أذكياء قادرين على تقديم استجابات دقيقة في الوقت الفعلي وضمن السياق الصحيح. ضع في الاعتبار إجراء تقييم وتحليل مخصصَين باستخدام نهج قائم على القواعد، إلى جانب تقييم دلالي يعتمد على نموذج لغوي كبير كمقيِّم.
يُعَد النموذج اللغوي الكبير كمقيِّم نظامًا مؤتمتًا لتقييم أداء وكلاء الذكاء الاصطناعي، يعتمد على معايير ومقاييس محددة مسبقًا. وبدلًا من الاعتماد الكامل على مراجعين بشريين، يستخدم هذا النظام خوارزميات، أو قواعد استدلال، أو نماذج تقييم قائمة على الذكاء الاصطناعي لتحليل استجابات الوكيل وقراراته وتصرفاته.
راجِع "مقاييس تقييم استدعاء الدوال" أدناه.
يمكن للمطورين الآن تعديل التعليمات، وتصحيح الخوارزميات، وتبسيط المنطق، أو ضبط هندسة الوكلاء استنادًا إلى نتائج التقييم. على سبيل المثال، يمكن تحسين حالات استخدام دعم العملاء من خلال تسريع أوقات إنشاء الاستجابة وإكمال المهام. يمكن تحسين كفاءة النظام من أجل قابلية التوسع واستخدام الموارد.
يريد المطورون من الوكلاء العمل على النحو المنشود. ونظرًا لاستقلالية وكلاء الذكاء الاصطناعي، من المهم فهم "السبب" وراء القرارات التي يتخذها وكيل الذكاء الاصطناعي. راجِع بعضًا من أكثر المقاييس شيوعًا التي يمكن للمطوِّرين استخدامها لتقييم وكلائهم بنجاح.
بحسب تطبيق الذكاء الاصطناعي، يمكن أن تُستخدَم مقاييس تقييم محددة للجودة:
تشمل المقاييس الوظيفية الأخرى لتقييم أداء وكيل الذكاء الاصطناعي ما يلي:
بالنسبة إلى وكلاء الذكاء الاصطناعي الذين يتفاعلون مع المستخدمين، مثل روبوتات المحادثة والمساعدين الافتراضيين، ينظر المقيِّمون إلى هذه المقاييس.
درجة رضا المستخدم (CSAT) تقيس مدى رضا المستخدمين عن استجابات الذكاء الاصطناعي.
معدل المشاركة يتتبع عدد المرات التي يتفاعل فيها المستخدمون مع نظام الذكاء الاصطناعي.
تدفق المحادثة يقيِّم قدرة الذكاء الاصطناعي على الحفاظ على محادثات متماسكة وذات مغزى.
معدل إكمال المهمة يقيس مدى فاعلية وكيل الذكاء الاصطناعي في مساعدة المستخدمين على إكمال المهمة.
تساعد هذه المقاييس القائمة على القواعد في تقييم الفاعلية التشغيلية للأنظمة التي تعتمد على الذكاء الاصطناعي:
فيما يلي بعض المقاييس الدلالية التي تعتمد على النموذج اللغوي الكبير كمقيِّم.
إدارة نماذج الذكاء الاصطناعي التوليدي من أي مكان ونشرها في البيئات المحلية أو السحابية باستخدام IBM® watsonx.governance.
اكتشِف كيف يمكن لحوكمة الذكاء الاصطناعي أن تساعد على زيادة ثقة موظفيك في الذكاء الاصطناعي وتسريع الاعتماد عليه وتعزيز الابتكار، بالإضافة إلى تحسين ثقة العملاء.
تمكَّن من الاستعداد لقانون الذكاء الاصطناعي في الاتحاد الأوروبي ووضع نهج حوكمة مسؤول للذكاء الاصطناعي بمساعدة IBM Consulting.