يُعَد وكيل الذكاء الاصطناعي نظامًا برمجيًا قادرًا على تنفيذ المهام بشكل مستقل نيابةً عن مستخدم أو نظام آخر، من خلال تطوير سير عمل خاص به واستخدام الأدوات الخارجية حسب الحاجة.
لا تقتصر مهام الوكلاء على الفهم والمعالجة اللغوية البسيطة، بل تتجاوزها بكثير. فلديهم القدرة على اتخاذ القرارات، وحل المشكلات، والتفاعل مع البيئة، والعمل من أجل تحقيق الأهداف.
يتم الآن دمج وكلاء الذكاء الاصطناعي في مجموعة متنوعة من الحلول المؤسسية، بدءًا من أتمتة تكنولوجيا المعلومات وهندسة البرمجيات، ووصولًا إلى الواجهات الحوارية وتنفيذ توليد التعليمات البرمجية. وبفضل النماذج اللغوية الكبيرة (LLMs) التي يتم دعمهم بها، يستطيعون فهم التعليمات المعقدة، وتفكيكها إلى خطوات، والتفاعل مع موارد خارجية، ولديهم القدرة الإدراكية التي تمكِّنهم من معرفة الوقت المناسب لاستخدام أدوات أو خدمات معينة للمساعدة على إنجاز المهام.
تُعَد عملية تقييم الوكلاء خطوة مهمة عند تطوير ونشر أنظمة الذكاء الاصطناعي المستقلة؛ لأنها تقيس مدى كفاءة الوكيل في أداء المهام الموكلة إليه، واتخاذ القرارات، والتفاعل مع المستخدمين أو البيئات المحيطة. وبهذه الطريقة نضمن أن يعمل الوكلاء بشكل موثوق به وفعَّال وأخلاقي ضمن حالات الاستخدام المخصصة لهم.
تشمل الأسباب الرئيسية لتقييم الوكيل ما يلي:
يعتمد تقييم أداء وكيل الذكاء الاصطناعي على مقاييس مصنَّفة ضمن عدة فئات أداء رسمية، مثل الدقة، وزمن الاستجابة (السرعة)، وتكلفة الموارد المستخدمة. تُشير الدقة إلى مدى قدرة الوكيل على تقديم إجابات صحيحة وذات صلة، إضافةً إلى كفاءته في إنجاز المهام الموكلة إليه. يقيس زمن الاستجابة سرعة الوكيل في معالجة المُدخلات وإنتاج المخرجات. يُعَد تقليل زمن الانتقال أمرًا بالغ الأهمية في البرامج التفاعلية وفي الوقت الفعلي، بينما تقيس التكلفة كمية الموارد الحوسبية التي يستهلكها الوكيل، مثل استخدام الرموز المميزة، أو استدعاء واجهات برمجة التطبيقات (API)، أو وقت المعالجة في النظام. توفِّر هذه المقاييس إرشادات لتحسين أداء النظام والحد من التكاليف التشغيلية.
بينما تندرج المقاييس الأساسية مثل الصحة، والفائدة، والتماسك تحت فئة الدقة، فإن زمن الاستجابة (زمن الانتقال) يُستخدَم لقياس مؤشرات مثل معدل الإنتاجية، ومتوسط زمن الانتقال، وتأخير الانتهاء بسبب المهلة. تتضمن مقاييس التكلفة كلًّا من استخدام الرموز المميزة، وزمن الحوسبة، وعدد مرات استدعاء واجهات برمجة التطبيقات (API)، واستهلاك الذاكرة.
في هذا البرنامج التعليمي سنتناول المقاييس الأساسية: الصحة، والفائدة، والتماسك، والتي تندرج تحت فئة الدقة.
ستقوم بتطوير وكيل سفر وتقييم أدائه باستخدام نموذج لغوي كبير كمقيِّم.
تحتاج إلى حساب IBM® Cloud لإنشاء مشروع watsonx.ai.
تحتاج أيضًا إلى إصدار Python 3.12.7.
رغم توفُّر عدة أدوات للاختيار منها، يُرشدك هذا الدليل خلال خطوات إعداد حساب IBM لاستخدام Jupyter Notebook.
تسجيل الدخول إلى watsonx.ai باستخدام حساب IBM Cloud الخاص بك.
أنشئ مشروع watsonx.ai. يمكنك الحصول على معرِّف المشروع من داخل مشروعك. انقر على علامة التبويب الإدارة (Manage)، ثم انسخ معرِّف المشروع من قسم التفاصيل (Details) في صفحة عام (General). ستحتاج إلى هذا المعرِّف في هذا البرنامج التعليمي.
أنشئ Jupyter Notebook. تفتح هذه الخطوة بيئة Jupyter Notebook حيث يمكنك نسخ الكود من هذا البرنامج التعليمي. وبدلًا من ذلك، يمكنك تنزيل هذا الدفتر إلى نظامك المحلي ورفعه إلى مشروعك في watsonx.ai كأصل. لعرض المزيد من برامج IBM® Granite التعليمية، تفضَّل بزيارة مجتمع IBM Granite.
أنشئ مثيل خدمة watsonx.ai Runtime (اختَر المنطقة المناسبة لك، واختَر خطة Lite، وهي مثيل مجاني).
اربط مثيل خدمة watsonx.ai Runtime بالمشروع الذي أنشأته في watsonx.ai.
نحن بحاجة إلى عدد قليل من المكتبات والوحدات لهذا البرنامج التعليمي. تأكَّد من استيراد المكتبات التالية، وإذا لم تكن مثبَّتة، يمكنك تثبيتها بسرعة باستخدام pip.
ملحوظة، تم بناء هذا البرنامج التعليمي باستخدام Python 3.12.7.
لإعداد بيانات الاعتماد، نحتاج إلى كلٍّ من WATSONX_APIKEY وWATSONX_PROJECT_ID اللذين أنشأتهما في الخطوة 1. سنقوم أيضًا بتعيين عنوان URL الذي يعمل كنقطة نهاية لواجهة برمجة التطبيقات. يمكن أن تختلف نقطة نهاية واجهة برمجة التطبيقات الخاصة بك اعتمادًا على موقعك الجغرافي.
سنستخدم نموذج Granite 3 - 8B Instruct في هذا البرنامج التعليمي. لتهيئة النموذج اللغوي الكبير، نحتاج إلى تعيين مَعلمات النموذج. لمعرفة المزيد حول مَعلمات النموذج هذه، مثل الحد الأدنى والحد الأقصى للرموز المميزة، راجِع الوثائق.
دعنا نطوِّر مساعدًا ذكيًا لاكتشاف الوجهات السياحية، يساعد المستخدمين على تخطيط الرحلات والبحث عن المعلومات المتعلقة بالسفر.
سنُنشئ تطبيقًا بسيطًا لمساعد السفر يمكنه جلب معلومات عن شركات الطيران والفنادق استجابةً لاستفسارات المستخدم، من خلال الاتصال بواجهة برمجة سفر خارجية. لدمج التخطيط الديناميكي للسفر مع وكلاء الذكاء الاصطناعي، سننشئ وظيفة بسيطة تُجري استعلامات إلى واجهة API، ونغلِّفها كأداة.
وأخيرًا، نقوم بتنفيذ عملية التقييم وطباعة النتيجة النهائية للتقييم. لتقييم مخطط الرحلات باستخدام ثلاثة معايير مميزة (الصحة، والفائدة، والتماسك)، يتم إعداد موجِّه تقييم منظم موجَّه إلى نموذج لغوي كبير مخصص للتقييم.
تُظهِر النتيجة تقييمًا نوعيًا وكميًا لمخطط الرحلات، بناءً على ثلاثة معايير: الصحة، والفائدة، والتماسك.
دعنا نشرح معنى كل درجة وكل مقياس ضمن سياق مخرجات الوكيل:
عند تقييم قدرة الوكيل على تلبية احتياجات المستخدم فعليًا، تؤدي معايير مثل التماسك، والفائدة، والدقة دورًا محوريًا. سواء أكنت تستخدِم OpenAI أم IBM Granite أم النماذج اللغوية الكبيرة كخدمة من مزودين آخرين، من الضروري الاعتماد على طرق تقييم منظمة -مثل مجموعات البيانات المخصصة للتقييم، والمعايير المرجعية، والتعليقات التوضيحية، والحقيقة الأساسية- لاختبار المخرجات النهائية بشكل شامل. في حالات الاستخدام العملية مثل روبوتات المحادثة أو دعم العملاء المعتمد على RAG، تُعَد الأُطُر مفتوحة المصدر مثل LangGraph ذات قيمة كبيرة. تدعم هذه الأُطُر الأتمتة القابلة للتوسع، والتوجيه الموثوق به، وتمكِّن دورات التكرار السريعة. تسهِّل هذه التقنيات أيضًا تشغيل أنظمة الذكاء الاصطناعي التوليدي، وتصحيح السلوكيات، وتحسين وتكوين مهام سير العمل المعقدة. ومن خلال تحديد حالات الاختبار بعناية ومراقبة مقاييس قابلية الملاحظة مثل تكلفة الحوسبة، والسعر، وزمن الانتقال، يمكن للفرق تحسين أداء النظام باستمرار. في النهاية، يؤدي تطبيق منهج تقييم موثوق به وقابل للتكرار إلى تعزيز الدقة في أنظمة التعلم الآلي وتقوية مصداقيتها مع مرور الوقت.
يمكنك إنشاء مساعدين ووكلاء ذكاء اصطناعي ووكلاء أقوياء يعملون على أتمتة مهام سير العمل والعمليات باستخدام الذكاء الاصطناعي التوليدي ونشرها وإدارتها.
يمكنك بناء مستقبل عملك باستخدام حلول الذكاء الاصطناعي الجديرة بالثقة.
تساعد خدمات IBM Consulting AI في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.