تقييم وكلاء الذكاء الاصطناعي من المطالبات إلى المقاييس

مؤلف

Shalini Harkar

Lead AI Advocate

مَن هم وكلاء الذكاء الاصطناعي؟

يُعَد وكيل الذكاء الاصطناعي نظامًا برمجيًا قادرًا على تنفيذ المهام بشكل مستقل نيابةً عن مستخدم أو نظام آخر، من خلال تطوير سير عمل خاص به واستخدام الأدوات الخارجية حسب الحاجة.

لا تقتصر مهام الوكلاء على الفهم والمعالجة اللغوية البسيطة، بل تتجاوزها بكثير. فلديهم القدرة على اتخاذ القرارات، وحل المشكلات، والتفاعل مع البيئة، والعمل من أجل تحقيق الأهداف.

يتم الآن دمج وكلاء الذكاء الاصطناعي في مجموعة متنوعة من الحلول المؤسسية، بدءًا من أتمتة تكنولوجيا المعلومات وهندسة البرمجيات، ووصولًا إلى الواجهات الحوارية وتنفيذ توليد التعليمات البرمجية. وبفضل النماذج اللغوية الكبيرة (LLMs) التي يتم دعمهم بها، يستطيعون فهم التعليمات المعقدة، وتفكيكها إلى خطوات، والتفاعل مع موارد خارجية، ولديهم القدرة الإدراكية التي تمكِّنهم من معرفة الوقت المناسب لاستخدام أدوات أو خدمات معينة للمساعدة على إنجاز المهام.

لماذا يُعَد تقييم الوكلاء أمرًا مهمًا؟

تُعَد عملية تقييم الوكلاء خطوة مهمة عند تطوير ونشر أنظمة الذكاء الاصطناعي المستقلة؛ لأنها تقيس مدى كفاءة الوكيل في أداء المهام الموكلة إليه، واتخاذ القرارات، والتفاعل مع المستخدمين أو البيئات المحيطة. وبهذه الطريقة نضمن أن يعمل الوكلاء بشكل موثوق به وفعَّال وأخلاقي ضمن حالات الاستخدام المخصصة لهم.

تشمل الأسباب الرئيسية لتقييم الوكيل ما يلي:

  • التحقق الوظيفي: تساعد هذه الخطوة على التحقق من سلوكيات الوكيل وأفعاله في ظروف معينة، فضلًا عن إنجاز أهدافه في ظل قيود محددة.
  • تحسين التصميم: تحديد أوجه القصور ومواطن الضعف في تفكير الوكيل أو تخطيطه أو استخدامه للأدوات، ما يُتيح لنا تحسين بنية الوكيل وتدفق عمله بشكل تدريجي.
  • المتانة: قياس قدرة الوكيل على التعامل مع الحالات الاستثنائية، أو المدخلات المعادية، أو الظروف غير المثالية، ما يُعزز مرونته وتحمُّله للأخطاء.
  • مقاييس الأداء والموارد: يمكن تتبُّع مقاييس مثل زمن الانتقال، والإنتاجية، واستهلاك الرموز المميزة، والذاكرة، وغيرها من مقاييس الأنظمة، بهدف تحديد كفاءة وقت التشغيل وتقليل التكاليف التشغيلية.
  • جودة تفاعل المستخدم: قياس مدى وضوح ردود الوكيل، وفائدتها، وتماسكها، وملاءمتها، كمؤشر على رضا المستخدم أو كفاءة المحادثة.
  • تحليل إنجاز الأهداف: من خلال استخدام معايير النجاح أو معايير الأداء المرتبطة بمهام محددة، يمكننا تقييم مدى دقة وموثوقية الوكيل في إنجاز أهدافه.
  • الاعتبارات الأخلاقية ومعايير السلامة: يمكن تقييم مخرجات الوكيل من حيث العدالة، والانحياز، والأضرار المحتملة، ومدى التزامها بإجراءات السلامة المعتمدة.

مقاييس تقييم وكلاء الذكاء الاصطناعي

يعتمد تقييم أداء وكيل الذكاء الاصطناعي على مقاييس مصنَّفة ضمن عدة فئات أداء رسمية، مثل الدقة، وزمن الاستجابة (السرعة)، وتكلفة الموارد المستخدمة. تُشير الدقة إلى مدى قدرة الوكيل على تقديم إجابات صحيحة وذات صلة، إضافةً إلى كفاءته في إنجاز المهام الموكلة إليه. يقيس زمن الاستجابة سرعة الوكيل في معالجة المُدخلات وإنتاج المخرجات. يُعَد تقليل زمن الانتقال أمرًا بالغ الأهمية في البرامج التفاعلية وفي الوقت الفعلي، بينما تقيس التكلفة كمية الموارد الحوسبية التي يستهلكها الوكيل، مثل استخدام الرموز المميزة، أو استدعاء واجهات برمجة التطبيقات (API)، أو وقت المعالجة في النظام. توفِّر هذه المقاييس إرشادات لتحسين أداء النظام والحد من التكاليف التشغيلية.

بينما تندرج المقاييس الأساسية مثل الصحة، والفائدة، والتماسك تحت فئة الدقة، فإن زمن الاستجابة (زمن الانتقال) يُستخدَم لقياس مؤشرات مثل معدل الإنتاجية، ومتوسط زمن الانتقال، وتأخير الانتهاء بسبب المهلة. تتضمن مقاييس التكلفة كلًّا من استخدام الرموز المميزة، وزمن الحوسبة، وعدد مرات استدعاء واجهات برمجة التطبيقات (API)، واستهلاك الذاكرة.

في هذا البرنامج التعليمي سنتناول المقاييس الأساسية: الصحة، والفائدة، والتماسك، والتي تندرج تحت فئة الدقة.

  • الصحة: تقيِّم الصحة مدى دقة ردود الوكيل من الناحية الواقعية والمنطقية بناءً على التعليمات أو المهمة المُعطاة. يُعَد هذا المقياس غالبًا أبسط مؤشرات التقييم، خاصةً في مجالات مثل الرعاية الصحية، والاستشارات القانونية، والدعم الفني.
  • الفائدة: تقيِّم الفائدة مدى فائدة أو قابلية تنفيذ رد الوكيل بالنسبة إلى نية المستخدم. حتى لو كان الرد صحيحًا من الناحية الواقعية، فقد لا يكون مفيدًا إذا لم يتطرق إلى الحل أو الخطوات التالية.
  • التماسك: يتعلق بتدفق النص، سواء من حيث الترابط المنطقي أم السردي. وهذا المقياس مهم في التفاعلات متعددة الدورات وفي التفاعلات التي يتم فيها الاستدلال على عدة خطوات. يُشير التماسك إلى إذا ما كان أداء الوكيل "منطقيًا ومترابطًا" من البداية حتى النهاية.

ستقوم بتطوير وكيل سفر وتقييم أدائه باستخدام نموذج لغوي كبير كمقيِّم.

المتطلبات الأساسية

  1. تحتاج إلى حساب IBM® Cloud لإنشاء مشروع watsonx.ai.

  2. تحتاج أيضًا إلى إصدار Python 3.12.7.

الخطوات

الخطوة 1. إعداد البيئة

رغم توفُّر عدة أدوات للاختيار منها، يُرشدك هذا الدليل خلال خطوات إعداد حساب IBM لاستخدام Jupyter Notebook.

  1. تسجيل الدخول إلى watsonx.ai باستخدام حساب IBM Cloud الخاص بك.

  2. أنشئ مشروع watsonx.aiيمكنك الحصول على معرِّف المشروع من داخل مشروعك. انقر على علامة التبويب الإدارة (Manage)، ثم انسخ معرِّف المشروع من قسم التفاصيل (Details) في صفحة عام (General). ستحتاج إلى هذا المعرِّف في هذا البرنامج التعليمي.

  3. أنشئ Jupyter Notebookتفتح هذه الخطوة بيئة Jupyter Notebook حيث يمكنك نسخ الكود من هذا البرنامج التعليمي. وبدلًا من ذلك، يمكنك تنزيل هذا الدفتر إلى نظامك المحلي ورفعه إلى مشروعك في watsonx.ai كأصل. لعرض المزيد من برامج IBM® Granite التعليمية، تفضَّل بزيارة مجتمع IBM Granite.

الخطوة 2. إعداد مثيل watsonx.ai Runtime ومفتاح واجهة برمجة التطبيقات.

  1. أنشئ مثيل خدمة watsonx.ai Runtime (اختَر المنطقة المناسبة لك، واختَر خطة Lite، وهي مثيل مجاني).

  2. أنشئ مفتاح واجهة برمجة تطبيقات (API).

  3. اربط مثيل خدمة watsonx.ai Runtime بالمشروع الذي أنشأته في watsonx.ai.

الخطوة 3. تثبيت واستيراد المكتبات ذات الصلة وإعداد بيانات الاعتماد الخاصة بك.

نحن بحاجة إلى عدد قليل من المكتبات والوحدات لهذا البرنامج التعليمي. تأكَّد من استيراد المكتبات التالية، وإذا لم تكن مثبَّتة، يمكنك تثبيتها بسرعة باستخدام pip.

ملحوظة، تم بناء هذا البرنامج التعليمي باستخدام Python 3.12.7.

!pip install -q langchain langchain-ibm langchain_experimental langchain-text-splitters langchain_chroma transformers bs4 langchain_huggingface sentence-transformers
import os
import getpass
import requests
import random
import json
from typing import Type
from typing import Dict, List
from langchain_ibm import WatsonxLLM
from langchain_ibm import ChatWatsonx
from ibm_watsonx_ai.metanames import GenTextParamsMetaNames as GenParams
from langchain_ibm import WatsonxEmbeddings
from langchain.vectorstores import Chroma
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain.agents.agent_types import AgentType
from langchain.prompts import ChatPromptTemplate
from langchain.evaluation import load_evaluator
from langchain.agents import initialize_agent, Tool

لإعداد بيانات الاعتماد، نحتاج إلى كلٍّ من WATSONX_APIKEY وWATSONX_PROJECT_ID اللذين أنشأتهما في الخطوة 1. سنقوم أيضًا بتعيين عنوان URL الذي يعمل كنقطة نهاية لواجهة برمجة التطبيقات. يمكن أن تختلف نقطة نهاية واجهة برمجة التطبيقات الخاصة بك اعتمادًا على موقعك الجغرافي.

WATSONX_APIKEY = getpass.getpass("Please enter your watsonx.ai Runtime API key (hit enter): ")
WATSONX_PROJECT_ID = getpass.getpass("Please enter your project ID (hit enter): ")
URL = "https://us-south.ml.cloud.ibm.com"

الخطوة 4. تهيئة النموذج اللغوي الكبير

سنستخدم نموذج Granite 3 - 8B Instruct في هذا البرنامج التعليمي. لتهيئة النموذج اللغوي الكبير، نحتاج إلى تعيين مَعلمات النموذج. لمعرفة المزيد حول مَعلمات النموذج هذه، مثل الحد الأدنى والحد الأقصى للرموز المميزة، راجِع  الوثائق.

llm = ChatWatsonx(model_id="ibm/granite-3-8b-instruct",
url = URL,
apikey = WATSONX_APIKEY,
project_id = WATSONX_PROJECT_ID,
params = {"decoding_method": "greedy","temperature": 0, "min_new_tokens": 5,
"max_new_tokens": 2000})

الخطوة 5. بناء وكيل مستكشف السفر (رفيق).

دعنا نطوِّر مساعدًا ذكيًا لاكتشاف الوجهات السياحية، يساعد المستخدمين على تخطيط الرحلات والبحث عن المعلومات المتعلقة بالسفر.

سنُنشئ تطبيقًا بسيطًا لمساعد السفر يمكنه جلب معلومات عن شركات الطيران والفنادق استجابةً لاستفسارات المستخدم، من خلال الاتصال بواجهة برمجة سفر خارجية. لدمج التخطيط الديناميكي للسفر مع وكلاء الذكاء الاصطناعي، سننشئ وظيفة بسيطة تُجري استعلامات إلى واجهة API، ونغلِّفها كأداة.

def travel_api(query: str) -> str:
# Example of connecting to a real travel API
response = requests.get("https://www.partners.skyscanner.net", params={"query": query})
if response.status_code == 200:
return response.json().get("result", "No results found.")
return "Error contacting travel API."

travel_tool = Tool(
name="TravelPlannerTool",
func=travel_api,
description="Connects to a travel API to find flights and hotels for a given city and date"
)
agent = initialize_agent(
tools=[travel_tool],
llm=llm,
agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
verbose=True,
handle_parsing_errors= "Check your output and make sure it conforms! Do not output an action and a final answer at the same time."
)
query = "What are the best places to visit in India during winters?"
response = agent.invoke(query)
print("\n--- Travel Agent Response ---")
print(response)

الخطوة 6. إجراء التقييم والحصول على النتيجة.

وأخيرًا، نقوم بتنفيذ عملية التقييم وطباعة النتيجة النهائية للتقييم. لتقييم مخطط الرحلات باستخدام ثلاثة معايير مميزة (الصحة، والفائدة، والتماسك)، يتم إعداد موجِّه تقييم منظم موجَّه إلى نموذج لغوي كبير مخصص للتقييم.

from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

evaluation_prompt = PromptTemplate(
input_variables=["input", "prediction"],
template="""
You are an evaluation agent.

### User Input:
{input}

### Agent's Response:
{prediction}

Evaluate this response based on:
- Correctness (Is the information factually accurate?)
- Helpfulness (Is it useful and actionable?)
- Coherence (Is it well-written and logically structured?)

Reply in this format:
Correctness: <score>/5 - <reason>
Helpfulness: <score>/5 - <reason>
Coherence: <score>/5 - <reason>
"""
)
eval_input = evaluation_prompt.format(input=query, prediction=response)
evaluation_result = agent.invoke(eval_input)

تُظهِر النتيجة تقييمًا نوعيًا وكميًا لمخطط الرحلات، بناءً على ثلاثة معايير: الصحة، والفائدة، والتماسك.

دعنا نشرح معنى كل درجة وكل مقياس ضمن سياق مخرجات الوكيل:

  • الصحة تخبرنا عن مدى دقة الرد ومنطقيته من الناحية الواقعية. في المثال السابق، كانت المعلومات الواقعية صحيحة؛ ولذلك حصلت الصحة على درجة (5 من 5).
  • الفائدة توضِّح مدى ملاءمة واستفادة المستخدم من الاستجابة، ويتم قياس ذلك بمدى فائدتها. درجة (5 من 5) في هذا السياق تعني أن خطة السفر التي قدمها الذكاء الاصطناعي مفيدة ومُصممة بعناية. تُشير الدرجة إلى أن الخطة مفيدة لشخص يبحث لأول مرة عن أفضل الأماكن للزيارة في الهند خلال فصل الشتاء.
  • التماسك يُظهِر إذا كان المخطط منظمًا بشكل منطقي وسهل القراءة. حصل مثالنا على درجة تماسك عالية تبلغ 5.

 

الخاتمة

عند تقييم قدرة الوكيل على تلبية احتياجات المستخدم فعليًا، تؤدي معايير مثل التماسك، والفائدة، والدقة دورًا محوريًا. سواء أكنت تستخدِم OpenAI أم IBM Granite أم النماذج اللغوية الكبيرة كخدمة من مزودين آخرين، من الضروري الاعتماد على طرق تقييم منظمة -مثل مجموعات البيانات المخصصة للتقييم، والمعايير المرجعية، والتعليقات التوضيحية، والحقيقة الأساسية- لاختبار المخرجات النهائية بشكل شامل. في حالات الاستخدام العملية مثل روبوتات المحادثة أو دعم العملاء المعتمد على RAG، تُعَد الأُطُر مفتوحة المصدر مثل LangGraph ذات قيمة كبيرة. تدعم هذه الأُطُر الأتمتة القابلة للتوسع، والتوجيه الموثوق به، وتمكِّن دورات التكرار السريعة. تسهِّل هذه التقنيات أيضًا تشغيل أنظمة الذكاء الاصطناعي التوليدي، وتصحيح السلوكيات، وتحسين وتكوين مهام سير العمل المعقدة. ومن خلال تحديد حالات الاختبار بعناية ومراقبة مقاييس قابلية الملاحظة مثل تكلفة الحوسبة، والسعر، وزمن الانتقال، يمكن للفرق تحسين أداء النظام باستمرار. في النهاية، يؤدي تطبيق منهج تقييم موثوق به وقابل للتكرار إلى تعزيز الدقة في أنظمة التعلم الآلي وتقوية مصداقيتها مع مرور الوقت.

حلول ذات صلة
وكلاء الذكاء الاصطناعي للأعمال

يمكنك إنشاء مساعدين ووكلاء ذكاء اصطناعي ووكلاء أقوياء يعملون على أتمتة مهام سير العمل والعمليات باستخدام الذكاء الاصطناعي التوليدي ونشرها وإدارتها.

    استكشف watsonx Orchestrate
    حلول وكلاء الذكاء الاصطناعي من IBM

    يمكنك بناء مستقبل عملك باستخدام حلول الذكاء الاصطناعي الجديرة بالثقة.

    استكشف حلول وكلاء الذكاء الاصطناعي
    خدمات الذكاء الاصطناعي لدى IBM Consulting

    تساعد خدمات IBM Consulting AI في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.

    استكشف خدمات الذكاء الاصطناعي
    اتخِذ الخطوة التالية

    سواء اخترت تخصيص التطبيقات والمهارات المُعدّة مسبقًا أو إنشاء خدمات مخصصة مستندة إلى وكلاء ونشرها باستخدام استوديو الذكاء الاصطناعي، فإن منصة IBM watsonx تُلبي احتياجاتك.

    استكشف watsonx Orchestrate استكشف watsonx.ai