تقييم وكلاء الذكاء الاصطناعي من المطالبات إلى المقاييس

مؤلف

Lead AI Advocate

مَن هم وكلاء الذكاء الاصطناعي؟

يُعَد وكيل الذكاء الاصطناعي نظامًا برمجيًا قادرًا على تنفيذ المهام بشكل مستقل نيابةً عن مستخدم أو نظام آخر، من خلال تطوير سير عمل خاص به واستخدام الأدوات الخارجية حسب الحاجة.

لا تقتصر مهام الوكلاء على الفهم والمعالجة اللغوية البسيطة، بل تتجاوزها بكثير. فلديهم القدرة على اتخاذ القرارات، وحل المشكلات، والتفاعل مع البيئة، والعمل من أجل تحقيق الأهداف.

يتم الآن دمج وكلاء الذكاء الاصطناعي في مجموعة متنوعة من الحلول المؤسسية، بدءًا من أتمتة تكنولوجيا المعلومات وهندسة البرمجيات، ووصولًا إلى الواجهات الحوارية وتنفيذ توليد التعليمات البرمجية. وبفضل النماذج اللغوية الكبيرة (LLMs) التي يتم دعمهم بها، يستطيعون فهم التعليمات المعقدة، وتفكيكها إلى خطوات، والتفاعل مع موارد خارجية، ولديهم القدرة الإدراكية التي تمكِّنهم من معرفة الوقت المناسب لاستخدام أدوات أو خدمات معينة للمساعدة على إنجاز المهام.

لماذا يُعَد تقييم الوكلاء أمرًا مهمًا؟

تُعَد عملية تقييم الوكلاء خطوة مهمة عند تطوير ونشر أنظمة الذكاء الاصطناعي المستقلة؛ لأنها تقيس مدى كفاءة الوكيل في أداء المهام الموكلة إليه، واتخاذ القرارات، والتفاعل مع المستخدمين أو البيئات المحيطة. وبهذه الطريقة نضمن أن يعمل الوكلاء بشكل موثوق به وفعَّال وأخلاقي ضمن حالات الاستخدام المخصصة لهم.

تشمل الأسباب الرئيسية لتقييم الوكيل ما يلي:

التحقق الوظيفي: تساعد هذه الخطوة على التحقق من سلوكيات الوكيل وأفعاله في ظروف معينة، فضلًا عن إنجاز أهدافه في ظل قيود محددة.
تحسين التصميم: تحديد أوجه القصور ومواطن الضعف في تفكير الوكيل أو تخطيطه أو استخدامه للأدوات، ما يُتيح لنا تحسين بنية الوكيل وتدفق عمله بشكل تدريجي.
المتانة: قياس قدرة الوكيل على التعامل مع الحالات الاستثنائية، أو المدخلات المعادية، أو الظروف غير المثالية، ما يُعزز مرونته وتحمُّله للأخطاء.
مقاييس الأداء والموارد: يمكن تتبُّع مقاييس مثل زمن الانتقال، والإنتاجية، واستهلاك الرموز المميزة، والذاكرة، وغيرها من مقاييس الأنظمة، بهدف تحديد كفاءة وقت التشغيل وتقليل التكاليف التشغيلية.
جودة تفاعل المستخدم: قياس مدى وضوح ردود الوكيل، وفائدتها، وتماسكها، وملاءمتها، كمؤشر على رضا المستخدم أو كفاءة المحادثة.
تحليل إنجاز الأهداف: من خلال استخدام معايير النجاح أو معايير الأداء المرتبطة بمهام محددة، يمكننا تقييم مدى دقة وموثوقية الوكيل في إنجاز أهدافه.
الاعتبارات الأخلاقية ومعايير السلامة: يمكن تقييم مخرجات الوكيل من حيث العدالة، والانحياز، والأضرار المحتملة، ومدى التزامها بإجراءات السلامة المعتمدة.

مقاييس تقييم وكلاء الذكاء الاصطناعي

يعتمد تقييم أداء وكيل الذكاء الاصطناعي على مقاييس مصنَّفة ضمن عدة فئات أداء رسمية، مثل الدقة، وزمن الاستجابة (السرعة)، وتكلفة الموارد المستخدمة. تُشير الدقة إلى مدى قدرة الوكيل على تقديم إجابات صحيحة وذات صلة، إضافةً إلى كفاءته في إنجاز المهام الموكلة إليه. يقيس زمن الاستجابة سرعة الوكيل في معالجة المُدخلات وإنتاج المخرجات. يُعَد تقليل زمن الانتقال أمرًا بالغ الأهمية في البرامج التفاعلية وفي الوقت الفعلي، بينما تقيس التكلفة كمية الموارد الحوسبية التي يستهلكها الوكيل، مثل استخدام الرموز المميزة، أو استدعاء واجهات برمجة التطبيقات (API)، أو وقت المعالجة في النظام. توفِّر هذه المقاييس إرشادات لتحسين أداء النظام والحد من التكاليف التشغيلية.

بينما تندرج المقاييس الأساسية مثل الصحة، والفائدة، والتماسك تحت فئة الدقة، فإن زمن الاستجابة (زمن الانتقال) يُستخدَم لقياس مؤشرات مثل معدل الإنتاجية، ومتوسط زمن الانتقال، وتأخير الانتهاء بسبب المهلة. تتضمن مقاييس التكلفة كلًّا من استخدام الرموز المميزة، وزمن الحوسبة، وعدد مرات استدعاء واجهات برمجة التطبيقات (API)، واستهلاك الذاكرة.

في هذا البرنامج التعليمي سنتناول المقاييس الأساسية: الصحة، والفائدة، والتماسك، والتي تندرج تحت فئة الدقة.

الصحة: تقيِّم الصحة مدى دقة ردود الوكيل من الناحية الواقعية والمنطقية بناءً على التعليمات أو المهمة المُعطاة. يُعَد هذا المقياس غالبًا أبسط مؤشرات التقييم، خاصةً في مجالات مثل الرعاية الصحية، والاستشارات القانونية، والدعم الفني.
الفائدة: تقيِّم الفائدة مدى فائدة أو قابلية تنفيذ رد الوكيل بالنسبة إلى نية المستخدم. حتى لو كان الرد صحيحًا من الناحية الواقعية، فقد لا يكون مفيدًا إذا لم يتطرق إلى الحل أو الخطوات التالية.
التماسك: يتعلق بتدفق النص، سواء من حيث الترابط المنطقي أم السردي. وهذا المقياس مهم في التفاعلات متعددة الدورات وفي التفاعلات التي يتم فيها الاستدلال على عدة خطوات. يُشير التماسك إلى إذا ما كان أداء الوكيل "منطقيًا ومترابطًا" من البداية حتى النهاية.

ستقوم بتطوير وكيل سفر وتقييم أدائه باستخدام نموذج لغوي كبير كمقيِّم.

المتطلبات الأساسية

تحتاج إلى حساب IBM® Cloud لإنشاء مشروع watsonx.ai.
تحتاج أيضًا إلى إصدار Python 3.12.7.

الخطوات

الخطوة 1. إعداد البيئة

رغم توفُّر عدة أدوات للاختيار منها، يُرشدك هذا الدليل خلال خطوات إعداد حساب IBM لاستخدام Jupyter Notebook.

تسجيل الدخول إلى watsonx.ai باستخدام حساب IBM Cloud الخاص بك.
أنشئ مشروع watsonx.ai. يمكنك الحصول على معرِّف المشروع من داخل مشروعك. انقر على علامة التبويب الإدارة (Manage)، ثم انسخ معرِّف المشروع من قسم التفاصيل (Details) في صفحة عام (General). ستحتاج إلى هذا المعرِّف في هذا البرنامج التعليمي.
أنشئ Jupyter Notebook. تفتح هذه الخطوة بيئة Jupyter Notebook حيث يمكنك نسخ الكود من هذا البرنامج التعليمي. وبدلًا من ذلك، يمكنك تنزيل هذا الدفتر إلى نظامك المحلي ورفعه إلى مشروعك في watsonx.ai كأصل. لعرض المزيد من برامج IBM® Granite التعليمية، تفضَّل بزيارة مجتمع IBM Granite.

الخطوة 2. إعداد مثيل watsonx.ai Runtime ومفتاح واجهة برمجة التطبيقات.

أنشئ مثيل خدمة watsonx.ai Runtime (اختَر المنطقة المناسبة لك، واختَر خطة Lite، وهي مثيل مجاني).
أنشئ مفتاح واجهة برمجة تطبيقات (API).
اربط مثيل خدمة watsonx.ai Runtime بالمشروع الذي أنشأته في watsonx.ai.

الخطوة 3. تثبيت واستيراد المكتبات ذات الصلة وإعداد بيانات الاعتماد الخاصة بك.

نحن بحاجة إلى عدد قليل من المكتبات والوحدات لهذا البرنامج التعليمي. تأكَّد من استيراد المكتبات التالية، وإذا لم تكن مثبَّتة، يمكنك تثبيتها بسرعة باستخدام pip.

ملحوظة، تم بناء هذا البرنامج التعليمي باستخدام Python 3.12.7.

!pip install -q langchain langchain-ibm langchain_experimental langchain-text-splitters langchain_chroma transformers bs4 langchain_huggingface sentence-transformers

import os
import getpass
import requests
import random
import json
from typing import Type
from typing import Dict, List
from langchain_ibm import WatsonxLLM
from langchain_ibm import ChatWatsonx
from ibm_watsonx_ai.metanames import GenTextParamsMetaNames as GenParams
from langchain_ibm import WatsonxEmbeddings
from langchain.vectorstores import Chroma
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain.agents.agent_types import AgentType
from langchain.prompts import ChatPromptTemplate
from langchain.evaluation import load_evaluator
from langchain.agents import initialize_agent, Tool

لإعداد بيانات الاعتماد، نحتاج إلى كلٍّ من WATSONX_APIKEY وWATSONX_PROJECT_ID اللذين أنشأتهما في الخطوة 1. سنقوم أيضًا بتعيين عنوان URL الذي يعمل كنقطة نهاية لواجهة برمجة التطبيقات. يمكن أن تختلف نقطة نهاية واجهة برمجة التطبيقات الخاصة بك اعتمادًا على موقعك الجغرافي.

WATSONX_APIKEY = getpass.getpass("Please enter your watsonx.ai Runtime API key (hit enter): ")
WATSONX_PROJECT_ID = getpass.getpass("Please enter your project ID (hit enter): ")
URL = "https://us-south.ml.cloud.ibm.com"

الخطوة 4. تهيئة النموذج اللغوي الكبير

سنستخدم نموذج Granite 3 - 8B Instruct في هذا البرنامج التعليمي. لتهيئة النموذج اللغوي الكبير، نحتاج إلى تعيين مَعلمات النموذج. لمعرفة المزيد حول مَعلمات النموذج هذه، مثل الحد الأدنى والحد الأقصى للرموز المميزة، راجِع الوثائق.

llm = ChatWatsonx(model_id="ibm/granite-3-8b-instruct",
url = URL,
apikey = WATSONX_APIKEY,
project_id = WATSONX_PROJECT_ID,
params = {"decoding_method": "greedy","temperature": 0, "min_new_tokens": 5,
"max_new_tokens": 2000})

الخطوة 5. بناء وكيل مستكشف السفر (رفيق).

دعنا نطوِّر مساعدًا ذكيًا لاكتشاف الوجهات السياحية، يساعد المستخدمين على تخطيط الرحلات والبحث عن المعلومات المتعلقة بالسفر.

سنُنشئ تطبيقًا بسيطًا لمساعد السفر يمكنه جلب معلومات عن شركات الطيران والفنادق استجابةً لاستفسارات المستخدم، من خلال الاتصال بواجهة برمجة سفر خارجية. لدمج التخطيط الديناميكي للسفر مع وكلاء الذكاء الاصطناعي، سننشئ وظيفة بسيطة تُجري استعلامات إلى واجهة API، ونغلِّفها كأداة.

def travel_api(query: str) -> str:
# Example of connecting to a real travel API
response = requests.get("https://www.partners.skyscanner.net", params={"query": query})
if response.status_code == 200:
return response.json().get("result", "No results found.")
return "Error contacting travel API."

travel_tool = Tool(
name="TravelPlannerTool",
func=travel_api,
description="Connects to a travel API to find flights and hotels for a given city and date"
)

agent = initialize_agent(
tools=[travel_tool],
llm=llm,
agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
verbose=True,
handle_parsing_errors= "Check your output and make sure it conforms! Do not output an action and a final answer at the same time."
)

query = "What are the best places to visit in India during winters?"
response = agent.invoke(query)
print("\n--- Travel Agent Response ---")
print(response)

الخطوة 6. إجراء التقييم والحصول على النتيجة.

وأخيرًا، نقوم بتنفيذ عملية التقييم وطباعة النتيجة النهائية للتقييم. لتقييم مخطط الرحلات باستخدام ثلاثة معايير مميزة (الصحة، والفائدة، والتماسك)، يتم إعداد موجِّه تقييم منظم موجَّه إلى نموذج لغوي كبير مخصص للتقييم.

from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

evaluation_prompt = PromptTemplate(
input_variables=["input", "prediction"],
template="""
You are an evaluation agent.

### User Input:
{input}

### Agent's Response:
{prediction}

Evaluate this response based on:
- Correctness (Is the information factually accurate?)
- Helpfulness (Is it useful and actionable?)
- Coherence (Is it well-written and logically structured?)

Reply in this format:
Correctness: <score>/5 - <reason>
Helpfulness: <score>/5 - <reason>
Coherence: <score>/5 - <reason>
"""
)

eval_input = evaluation_prompt.format(input=query, prediction=response)
evaluation_result = agent.invoke(eval_input)

تُظهِر النتيجة تقييمًا نوعيًا وكميًا لمخطط الرحلات، بناءً على ثلاثة معايير: الصحة، والفائدة، والتماسك.

دعنا نشرح معنى كل درجة وكل مقياس ضمن سياق مخرجات الوكيل:

الصحة تخبرنا عن مدى دقة الرد ومنطقيته من الناحية الواقعية. في المثال السابق، كانت المعلومات الواقعية صحيحة؛ ولذلك حصلت الصحة على درجة (5 من 5).
الفائدة توضِّح مدى ملاءمة واستفادة المستخدم من الاستجابة، ويتم قياس ذلك بمدى فائدتها. درجة (5 من 5) في هذا السياق تعني أن خطة السفر التي قدمها الذكاء الاصطناعي مفيدة ومُصممة بعناية. تُشير الدرجة إلى أن الخطة مفيدة لشخص يبحث لأول مرة عن أفضل الأماكن للزيارة في الهند خلال فصل الشتاء.
التماسك يُظهِر إذا كان المخطط منظمًا بشكل منطقي وسهل القراءة. حصل مثالنا على درجة تماسك عالية تبلغ 5.

الخاتمة

عند تقييم قدرة الوكيل على تلبية احتياجات المستخدم فعليًا، تؤدي معايير مثل التماسك، والفائدة، والدقة دورًا محوريًا. سواء أكنت تستخدِم OpenAI أم IBM Granite أم النماذج اللغوية الكبيرة كخدمة من مزودين آخرين، من الضروري الاعتماد على طرق تقييم منظمة -مثل مجموعات البيانات المخصصة للتقييم، والمعايير المرجعية، والتعليقات التوضيحية، والحقيقة الأساسية- لاختبار المخرجات النهائية بشكل شامل. في حالات الاستخدام العملية مثل روبوتات المحادثة أو دعم العملاء المعتمد على RAG، تُعَد الأُطُر مفتوحة المصدر مثل LangGraph ذات قيمة كبيرة. تدعم هذه الأُطُر الأتمتة القابلة للتوسع، والتوجيه الموثوق به، وتمكِّن دورات التكرار السريعة. تسهِّل هذه التقنيات أيضًا تشغيل أنظمة الذكاء الاصطناعي التوليدي، وتصحيح السلوكيات، وتحسين وتكوين مهام سير العمل المعقدة. ومن خلال تحديد حالات الاختبار بعناية ومراقبة مقاييس قابلية الملاحظة مثل تكلفة الحوسبة، والسعر، وزمن الانتقال، يمكن للفرق تحسين أداء النظام باستمرار. في النهاية، يؤدي تطبيق منهج تقييم موثوق به وقابل للتكرار إلى تعزيز الدقة في أنظمة التعلم الآلي وتقوية مصداقيتها مع مرور الوقت.

ابدأ بتحقيق عائد الاستثمار: دليل عملي للذكاء الاصطناعي الوكيل

تعرَّف على كيفية توسيع استخدام الذكاء الاصطناعي الوكيل لتحقيق عائد استثمار قابل للقياس عبر مؤسستك. يوضِّح هذا الدليل أبرز العوائق التي تَحُدّ من التأثير، وكيفية قياس عائد الاستثمار بفاعلية، وإطار عمل عملي لدعم اعتماد ناجح على مستوى المؤسسة.

الموارد

المؤسسة في عام 2030: مصممة للابتكار الدائم

اكتشِف توقعاتنا الخمسة حول العوامل التي ستحدِّد أكثر الشركات نجاحًا في 2030 - والخطوات التي يمكن للقادة اتخاذها للحصول على ميزة تعتمد على الذكاء الاصطناعي أولًا.

ضرورة حوكمة الذكاء الاصطناعي: اللوائح المتغيّرة وظهور الذكاء الاصطناعي الوكيل

اكتشِف كيف يؤدي ظهور اللوائح الجديدة ووكلاء الذكاء الاصطناعي إلى إعادة تشكيل الحاجة إلى أطر حوكمة قوية للذكاء الاصطناعي.

شرح الذكاء الاصطناعي الوكيل

يقدِّم Techsplainers من IBM شرحًا لمبادئ الذكاء الاصطناعي الوكيل، من المفاهيم الأساسية إلى حالات الاستخدام العملية. تساعدك الحلقات الواضحة والسريعة على تعلم الأساسيات بسرعة.

إطلاق العنان للعائد على الاستثمار من الذكاء الاصطناعي: دليل عملي لإنتاجية المؤسسات

تعرَّف على استراتيجيات مثبتة لزيادة الإنتاجية ودعم تحوُّل المؤسسات باستخدام الذكاء الاصطناعي والابتكار كعنصر أساسي.

كيف يمكن لوكلاء ومساعدي الذكاء الاصطناعي أن يفيدوا مؤسستك

استعرض هذا الدليل الشامل الذي يوضِّح حالات الاستخدام الرئيسية والقدرات الأساسية، ويقدِّم توصيات خطوة بخطوة لمساعدتك على اختيار الحلول المناسبة لعملك.

إعادة تصور إنتاجية الأعمال باستخدام وكلاء ومساعدي الذكاء الاصطناعي

اعرف كيف يمكن لوكلاء ومساعدي الذكاء الاصطناعي التعاون معًا من أجل تحقيق مستويات جديدة من الإنتاجية.

جرّب watsonx Orchestrate®

استكشف كيف يمكن لمساعدي الذكاء الاصطناعي التوليدي تخفيف أحمال العمل لديك وتحسين الإنتاجية.

من المشاريع المعزَّزة بالذكاء الاصطناعي إلى تحقيق الأرباح: كيف يمكن للذكاء الاصطناعي الفاعل أن يحافظ على العوائد المالية

اكتشف كيف تنتقل المؤسسات من تنفيذ مشاريع تجريبية متفرقة للذكاء الاصطناعي إلى استخدامه كعنصر محوري في عمليات التحول الجوهرية.

تقرير Omdia حول الذكاء المُمكّن: تأثير وكلاء الذكاء الاصطناعي

اكتشف كيف يمكنك الاستفادة من الإمكانات الكاملة للذكاء الاصطناعي التوليدي باستخدام وكلاء الذكاء الاصطناعي.

كيف سيعمل وكلاء الذكاء الاصطناعي على إعادة ابتكار الإنتاجية

تعلم طرق استخدام الذكاء الاصطناعي لتكون أكثر إبداعًا وفعالية، وابدأ بالتكيف مع مستقبل يتضمن العمل عن كثب مع وكلاء الذكاء الاصطناعي.

الدخول في المؤسسة الوكيلة: وضع الذكاء الاصطناعي في العمل عبر ملكيتك التقنية بأكملها

تابِع المستجدات حول أحدث وكلاء الذكاء الاصطناعي الناشئين، نقطة تحوُّل أساسية في ثورة الذكاء الاصطناعي.

مستقبل الوكلاء، واستهلاك الذكاء الاصطناعي للطاقة، واستخدام الكمبيوتر لدى Anthropic، ووضع علامة مائية للنص المُولَّد بالذكاء الاصطناعي لدى Google

ابقَ في الصدارة مع خبراء الذكاء الاصطناعي لدينا في هذه الحلقة من برنامج Mixture of Experts الذين يتعمقون في مستقبل وكلاء الذكاء الاصطناعي، وغيره من الموضوعات الأخرى.

كيف تستخدم Comparus "المساعد المصرفي"

استخدمت Comparus حلولًا من watsonx.ai وأظهرت بشكل مميز إمكانات الخدمات المصرفية التفاعلية كنموذج جديد للتواصل.

حلول ذات صلة

IBM watsonx.governance

إدارة نماذج الذكاء الاصطناعي التوليدي من أي مكان ونشرها في البيئات المحلية أو السحابية باستخدام IBM® watsonx.governance.

اكتشف watsonx.governance

حلول حوكمة الذكاء الاصطناعي

اكتشِف كيف يمكن لحوكمة الذكاء الاصطناعي أن تساعد على زيادة ثقة موظفيك في الذكاء الاصطناعي وتسريع الاعتماد عليه وتعزيز الابتكار، بالإضافة إلى تحسين ثقة العملاء.

اكتشف حلول حوكمة الذكاء الاصطناعي

خدمات استشارات إدارة الذكاء الاصطناعي

تمكَّن من الاستعداد لقانون الذكاء الاصطناعي في الاتحاد الأوروبي ووضع نهج حوكمة مسؤول للذكاء الاصطناعي بمساعدة IBM Consulting.

اكتشف خدمات إدارة الذكاء الاصطناعي

اتخذ الخطوة التالية

توجيه الذكاء الاصطناعي لديك وإدارته ومراقبته من خلال محفظة موحَّدة؛ لتسريع تحقيق نتائج مسؤولة وشفافة وقابلة للتفسير.