منظر علوي لتفاح يتحرك عبر منشأة معالجة، فيما تظهر في المقدمة يد تمسك تفاحة واحدة

ما المقصود بتقييم النموذج؟

By David Zax

تاريخ النشر 10 مارس 2026

تعريف تقييم النموذج

يشير تقييم النموذج إلى عملية قياس مدى جودة أداء نموذج التعلّم الآلي. وتطرح هذه العملية السؤال التالي: عندما يصدر نموذجك حكمًا بشأن العالم الواقعي، فكم مرة يكون هذا الحكم صحيحًا؟ أو، في الحالات التي تُقاس على نطاق متدرج، إلى أي مدى كان قريبًا من الصواب؟

تكلفة الوقوع في الخطأ

ومع تزايد اعتماد الشركات على نماذج الذكاء الاصطناعي، أصبحت المخاطر المالية أكبر من أي وقت مضى. في فبراير 2021، اتخذت إدارة Zillow رهانًا كبيرًا استنادًا إلى نماذج التعلّم الآلي التي تستخدمها الشركة للتنبؤ بقيم المنازل. ولم يقتصر دور Zillow على إعداد هذه التقديرات، بل كانت الشركة نفسها تشتري في كثير من الأحيان المنازل التي حدّد نموذجها أسعارها، وذلك من خلال نشاط ذي صلة يحمل اسم Zillow Offers.

وبعد ثمانية أشهر فقط، أوقفت Zillow نشاط Zillow Offers وسجّلت شطبًا في قيمة المخزون بلغ 304 ملايين دولار أمريكي. وقالت الشركة إن السبب في ذلك يعود إلى شرائها عددًا كبيرًا من المنازل بأسعار تجاوزت ما كانت تتوقع أن تتمكن من بيعها به. وهبط سهم الشركة، كما سرّحت Zillow نحو 25% من موظفيها.

ما السبب؟ لم يكن نموذج الذكاء الاصطناعي لديها يتمتع بالدقة الكافية لمواكبة تحولات السوق. فلم تتطابق تنبؤاته وتوقعاته مع القيم الفعلية للمنازل.¹

ومع انتشار نماذج التعلّم الآلي (ML) في مجالات الرعاية الصحية والتوظيف والعدالة الجنائية، يمكن أن يؤدي ضعف التقييم إلى إلحاق ضرر حقيقي بأشخاص حقيقيين. وفي مجالي علم البيانات والصناعة، أصبح ضبط مقاييس تقييم النماذج على نحو صحيح جزءًا أساسيًا من نشر الذكاء الاصطناعي بصورة مسؤولة.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

أنواع النماذج والمقاييس

صُممت النماذج المختلفة لأداء مهام مختلفة.

وتُسند نماذج التصنيف البيانات الواردة إلى واحدة من عدة فئات محددة. (فالنموذج الذي يحدد ما إذا كان المريض مصابًا بتعفن الدم أم لا يُعد نموذج تصنيف.)

أما نماذج الانحدار، فتُخرج قيمة رقمية تقع على نطاق متصل. (وكان نموذج Zillow لتسعير المنازل نموذج انحدار.)

وتتطلب الأنواع المختلفة من النماذج أساليب مختلفة للاختبار. وغالبًا ما يكون تقييم الأداء بالاستناد إلى عدة مقاييس هو الخيار الأمثل، إذ لا يخلو أي مقياس منفرد من أوجه عدم اليقين.

نماذج التصنيف ومقاييس التصنيف

وتتعامل بعض النماذج مع "مسائل التصنيف"، أي إنها تقسم العالم إلى فئات. ومقاييس التصنيف بدورها مباشرة وحاسمة بطبيعتها. وتُعد دقة النموذج من المقاييس السهلة الفهم نسبيًا، إذ تُحتسب بقسمة عدد التنبؤات الصحيحة على العدد الإجمالي للتنبؤات. (وفي التعلّم الآلي، تشير كلمة "تنبؤ" إلى التقديرات المدروسة التي تصدرها النماذج، حتى لو كانت تتعلق بشيء يحدث في الوقت الراهن لا في المستقبل.)

غير أن المشكلة في الاعتماد على دقة النموذج تكمن في أن الرقم المرتفع قد يمنح الأطراف المعنية شعورًا زائفًا بالأمان. فالنموذج المصمم لاكتشاف حدث نادر لكنه كارثي، مثل نوع معيّن من السرطان، قد ينتهي به الأمر إلى تصنيف كل فحص على أنه سلبي بشكل تلقائي. وفي هذه الحالة، سيحقق النموذج مستوى مرتفعًا من الدقة، لأن 99.99% من تلك القراءات السلبية ستكون صحيحة. لكن هذه الدقة العالية لن تكون ذات جدوى تُذكر للمريض الذي تلقى النتيجة السلبية الخاطئة النادرة. فالنموذج كان دقيقًا من الناحية التقنية، لكنه أخفق في أداء المهمة المطلوبة منه.

ومن هنا تبرز فائدة تحليل أداء نموذج التصنيف بحسب أنواع التنبؤات، أو التقديرات المدروسة، التي يصدرها. وفي مهمة تصنيف ثنائي، مثل اكتشاف السرطان، توجد أربع نتائج محتملة. وعند عرضها في مصفوفة 2×2، يُطلق على هذا الإطار عادة اسم "مصفوفة الالتباس":

القيم الإيجابية الصحيحة (اكتشاف السرطان بدقة)
القيم السلبية الصحيحة (استبعاد السرطان بدقة)
القيم الإيجابية الخاطئة (تشخيص الإصابة بالسرطان رغم عدم وجوده)
القيم السلبية الخاطئة (عدم اكتشاف السرطان رغم وجوده)

وهنا يبدأ السبب وراء أهمية التمييز بين هذه الفئات في الظهور بوضوح. ولا شك أن التشخيص الإيجابي الخاطئ للسرطان قد يكون تجربة قاسية نفسيًا، إلى أن تكشف الفحوص الإضافية أن الأمر لم يكن سوى إنذار طبي كاذب. أما النتيجة السلبية الخاطئة، فقد تكون قاتلة.

وقد طور المتخصصون في علم البيانات مجموعة من المقاييس الفرعية لتحليل أداء نماذج التصنيف وتقييم العلاقات بين أقسام مصفوفة الالتباس.

ويطرح المقياس المعروف باسم الدقة (Precision) السؤال التالي: من بين جميع التنبؤات الإيجابية التي أصدرها نموذج التصنيف، كم منها كان صحيحًا؟

لنفترض أن خوارزمية للتعرف على الصور مثبتة في سيارة مرت بعشرة تقاطعات ضمن مسار اختباري، وكان في ستة منها علامات توقف. لكن القول إن النموذج "رصد علامات التوقف الست كلها" يتجاهل فروقًا جوهرية محتملة في الدقة. فإذا رصد العلامات الست بدقة ولم ينتج أي قيم إيجابية خاطئة، فإن قيمة دقته تكون 6/6، أي 100%. أما إذا رصد تلك العلامات الست، لكنه "تخيل" أيضًا أربع علامات توقف غير موجودة، فإن قيمة دقته تنخفض إلى 6/10 فقط، أي 60% لا غير.

أما المقياس المعروف باسم الاستدعاء (Recall)، ويُعرف أيضًا باسم معدل القيم الإيجابية الصحيحة، فيقيس جانبًا مختلفًا بدرجة دقيقة. ويجيب الاستدعاء عن السؤال التالي: من بين جميع علامات التوقف الموجودة فعلًا، كم عدد العلامات التي تمكن النموذج من رصدها؟

وتخيل الآن مسارًا اختباريًا آخر يضم 100 تقاطع، يوجد في 50 منها علامات توقف. فإذا رصد النموذج 30 علامة من هذه العلامات الخمسين، كانت قيمة الاستدعاء لديه 60%، وإذا رصد 40 علامة، ارتفعت إلى 80%، وهكذا. (لا يهتم الاستدعاء بالإنذارات الكاذبة، ولذلك يمكن نظريًا "التحايل" للوصول به إلى 100% عبر تدريب النموذج على رؤية علامات التوقف في كل مكان.)

وتنطوي هاتان القيمتان، الدقة (Precision) والاستدعاء (Recall)، على مفاضلة مستمرة بينهما. فالمهندس الذي يسعى إلى رفع الاستدعاء (Recall) قد يبالغ في ذلك، فينتهي إلى نموذج يطلق عددًا أكبر من القيم الإيجابية الخاطئة. وفي كثير من الأحيان، يتمثل ضبط النموذج في إدارة المفاضلة بين Recall أعلى، أي رصد جميع الحالات التي تسعى إلى اكتشافها، ودقة (Precision) أقل، أي المبالغة في الرصد والتقاط قيم إيجابية خاطئة أيضًا.

وعند إدارة هذه المفاضلة، يلجأ ممارسو التعلّم الآلي غالبًا إلى مقياس يُعرف باسم درجة F1، وهو المتوسط التوافقي لكل من الدقة (Precision) والاستدعاء (Recall). (ويختلف المتوسط التوافقي عن المتوسط التقليدي في أنه يتأثر بدرجة أكبر بالقيم المنخفضة. ولذلك، تنخفض درجة F1 بسرعة إذا كانت قيمة الدقة Precision) أو الاستدعاء (Recall) منخفضة.)

وتبلغ درجة F1 المثالية 1.0، لكن لا توجد للأسف قاعدة واحدة تصلح لجميع الحالات لتحديد ما إذا كانت الدرجة عالية بما يكفي، لأن السياق يلعب دورًا حاسمًا في ذلك.² غير أن المؤكد هو أن ارتفاع درجة F1 يُعد أفضل. فكلما اقتربت الدرجة من 1.0، زادت قدرة النموذج على اكتشاف ما صُمم لاكتشافه بفاعلية، مع تقليل القيم الإيجابية الخاطئة والقيم السلبية الخاطئة.³

مقاييس التصنيف المرتبطة بالثقة والعتبات

وضمن مقاييس التصنيف، هناك مقياسان يرتبطان ارتباطًا وثيقًا بمفهومي الثقة والعتبات.

فالنموذج لا يكتفي بإخراج نتيجة من قبيل "علامة توقف" أو "ليست علامة توقف". بل قد يقدّم نتيجة مثل: "هناك احتمال بنسبة 98% أن تكون هذه علامة توقف"، وهو تنبؤ يتمتع بدرجة عالية من الثقة. وقد يقدّم أيضًا نتيجة مثل: "هناك احتمال بنسبة 51% أن تكون هذه علامة توقف"، وهو تنبؤ منخفض الثقة نسبيًا.

وصُمم المقياس المعروف باسم Log Loss لتقييم مستوى الثقة في تنبؤات النموذج. فالأخطاء التي تصدر بثقة عالية تترتب عليها عقوبة كبيرة. كما تُفرض عقوبة أيضًا على التنبؤات الصحيحة التي تصدر بدرجة ثقة منخفضة، ولكن بدرجة أقل. أما النموذج المثالي، فسيحقق 0 في Log Loss، غير أن الوصول إلى ذلك نادر الحدوث. وما يُعد "درجة جيدة" يعتمد، مرة أخرى، على نموذجك ونوع المهمة التي يؤديها.

ومهما بلغت درجة الثقة التي يقدمها النموذج، فإن المستخدمين البشر لنماذج التعلّم الآلي (ML) يظلون في نهاية المطاف مطالبين بتحديد عتبة تُحوِّل تقديرات النموذج إلى قرار نهائي بنعم أو لا. فقد تُعتمد قاعدة من قبيل: "إذا تجاوزت درجة الثقة 75%، فلتكن النتيجة: نعم، هذه علامة توقف." لكن المستخدم البشري قد يختار بدلًا من ذلك عتبة عند 51% أو 98% من الثقة. ومن الطبيعي أن تختلف مخرجات النموذج اختلافًا كبيرًا تبعًا للعتبة التي يقع عليها الاختيار.

ويفحص منحنى ROC، المشتق من المصطلح التقني خاصية تشغيل المُستقبِل (receiver operating characteristic)، وكذلك المقياس المرتبط به ROC AUC، أو "المساحة تحت المنحنى"، أداء النموذج عبر عدد كبير من العتبات المختلفة. ومن الناحية التقنية، يرسم منحنى ROC معدل القيم الإيجابية الصحيحة (TPR) في مقابل معدل القيم الإيجابية الخاطئة (FPR) مع تغيّر العتبة. أما من الناحية المفاهيمية، فإن ROC AUC يتجاوز القرارات المرتبطة بحد فاصل بعينه، ويركز بدلًا من ذلك على تقييم قدرة النموذج عمومًا على التمييز، أي: "بصرف النظر عن موضع العتبة، هل يواصل النموذج إعطاء درجات ثقة أعلى بصورة متسقة عندما تكون علامات التوقف موجودة فعلًا؟" ويلخّص ROC AUC هذه القدرة العامة على التمييز بين الحالات الإيجابية والحالات السلبية.

أكاديمية الذكاء الاصطناعي

لماذا تعد نماذج الأساس نقلة نوعية في الذكاء الاصطناعي

تعرَّف على فئة جديدة من نماذج الذكاء الاصطناعي المرنة والقابلة لإعادة الاستخدام التي يمكن أن تفتح مصادر جديدة للإيرادات، وتُسهم في تقليل التكاليف، وزيادة الإنتاجية، ثم استخدم دليلنا لمعرفة المزيد من التفاصيل.

انتقل إلى الحلقة

نماذج الانحدار ومقاييس الانحدار

ويتناول القسم السابق مسائل "التصنيف"، حيث تكون الظاهرة، سواء كانت علامة توقف أو سرطانًا، موجودة بوضوح أو غير موجودة. لكن كثيرًا من الظواهر، مثل قيم المنازل أو مستويات الجلوكوز لدى المريض، تقع على نطاق متدرج، وهو ما يتطلب نماذج مختلفة ومقاييس أداء مختلفة. والنماذج التي تتعامل مع هذه الظواهر تُنتج قيمًا رقمية بدلًا من فئات. وتُعرف هذه النماذج باسم نماذج الانحدار، ويجري تقييمها باستخدام مقاييس الانحدار، التي تطرح بصيغ مختلفة سؤالًا واحدًا في جوهره: "إلى أي مدى يبتعد هذا الرقم عن القيمة الصحيحة؟"

ويجيب متوسط الخطأ المطلق (MAE) عن السؤال التالي: "في المتوسط، إلى أي مدى ابتعدت تقديراتنا عن القيمة الصحيحة؟" فإذا قدّر أحد النماذج هذا الأسبوع أن منزلًا سيباع بسعر 500,000 دولار أمريكي، ثم بيع فعليًا بسعر 525,000 دولار أمريكي، وقدّر في الأسبوع التالي أن منزلًا آخر سيباع بسعر 400,000 دولار أمريكي، ثم بيع فعليًا بسعر 390,000 دولار أمريكي، فإن متوسط الخطأ المطلق لهذا النموذج يبلغ 17,500 دولار أمريكي (25,000 + 10,000، ثم القسمة على 2). ولا يهتم MAE بما إذا كان النموذج يميل باستمرار إلى المبالغة في التقدير أو إلى التقليل منه. بل يركّز فقط على متوسط الفارق عن القيمة الصحيحة.

ويتشابه الجذر التربيعي لمتوسط مربعات الخطأ (RMSE) مع ذلك، لكنه يفرض عقوبة أشد على القيم التي تبتعد كثيرًا عن القيمة الصحيحة. ويتحقق ذلك من خلال تربيع الأخطاء، وهو ما يجعل الأخطاء الكبيرة أكبر أثرًا، قبل أخذ الجذر التربيعي للمتوسط الناتج. وفي المثال السابق، تبلغ قيمة RMSE 19,039 دولارًا أمريكيًا. (أما MSE، أو متوسط مربعات الخطأ، فيعمل بطريقة مماثلة ولكن من دون الجذر التربيعي، وهو ما يجعله أقل سهولة في التفسير، وإن ظل مفيدًا من الناحية الرياضية في بعض الحالات.) ويكون RMSE مفيدًا على وجه الخصوص عندما تترتب على الأخطاء الكبيرة تكلفة مرتفعة.

وهناك مقياس آخر أقل مباشرة من حيث الفهم، وهو R-squared. ولا يقيس R-squared مدى ابتعاد تنبؤات النموذج عن القيم الصحيحة، بل يقيس مقدار التباين الكلي في المتغير المستهدف الذي تمكن النموذج من تفسيره.

ولفهم R-squared بصورة أوضح، تخيل أولًا نموذجًا مبسطًا لتسعير المنازل يعطي القيمة نفسها لكل منزل، وهي متوسط السعر في المنطقة. ويطرح R-squared السؤال التالي: إلى أي مدى يتفوق نموذجنا على نموذج لا يفعل سوى التخمين على أساس المتوسط؟ وكلما زادت قدرة النموذج على تفسير التباين في الأسعار الفعلية، ارتفعت قيمة R-squared لديه. (فإذا بلغت قيمة R-squared 0.85، فهذا يعني أن النموذج يفسر نحو 85% من التباين في النتيجة، أما إذا كانت قيمته 0، فهذا يعني أنه لا يتفوق على النموذج الذي يكتفي بإعطاء المتوسط.)

وكغيره من المقاييس، لا يخلو R-squared من أوجه قصور. ويكون هذا المقياس أقل موثوقية على نحو خاص عند التعامل مع بيانات تتضمن قيَمًا خارجية.

تحديات تقييم النموذج ومشكلاته

فليس كل طالب يجتاز اختبارًا يكون قد استوعب المادة فعلًا. فقد يكون الطالب قد حفظ البطاقات التعليمية من دون أن يستوعب المفاهيم. وقد يكون قد غش، أو اطّلع على الاختبار مسبقًا بطريقة ما، أو ربما حالفه الحظ فحسب. وينطبق الأمر نفسه على نماذج التعلّم الآلي.

عندما تكون البيانات محدودة

ومن أبسط الأخطاء في تقييم نماذج التعلّم الآلي اختبار النموذج باستخدام البيانات نفسها التي استُخدمت في تدريبه. فقد يحقق النموذج أداءً مرتفعًا جدًا، لا لأنه تعلّم بالفعل، بل لأنه حفظ البيانات حفظًا. وفي هذه الحالة، يكون قد أخفق في تعميم أي فهم للظاهرة الأساسية التي صُمم لاكتشافها، ومن المرجح أن يفشل عند مواجهة بيانات جديدة في العالم الواقعي. ويُعرف هذا السلوك الشبيه بالحفظ في المصطلح التقني باسم الإفراط في تخصيص البيانات (Overfitting).

ويُعرف الإجراء الوقائي المعتاد باسم تقسيم البيانات إلى تدريب واختبار، حيث تُقسَّم البيانات المتاحة إلى مجموعة يُسمح للنموذج بالتعلّم منها، وهي بيانات التدريب، وجزء آخر لا يُسمح له برؤيته إلا عند الاختبار، وهو مجموعة الاختبار. لكن هذا الإجراء بدوره لا يضمن نتائج مثالية دائمًا، إذ قد يؤدي التقسيم غير الموفق إلى تشويه نتائج اختبار النموذج. وفوق ذلك، إذا كانت البيانات محدودة، تنشأ مفاضلة صعبة بين تخصيصها للتدريب والاحتفاظ بها للاختبار.

ويعالج ممارسو التعلّم الآلي هذه المشكلات باستخدام التحقق المتقاطع. وفي التحقق المتقاطع، تُقسَّم مجموعة البيانات إلى أجزاء تُعرف باسم folds. ويُستخدم معظم هذه الأجزاء لتدريب النموذج، بينما يُخصَّص جزء واحد لاختباره. ثم تُكرر العملية على نسخة جديدة من النموذج، مع تدوير هذه الأجزاء، بحيث يصبح جزء مختلف في كل مرة هو مجموعة الاختبار. وبعد ذلك، يُحسب متوسط نتائج الاختبار عبر هذه الجولات المختلفة. ويمنح هذا النهج تقديرًا أكثر استقرارًا لمدى جودة أداء النموذج على البيانات الجديدة، كما يتيح الاستفادة بدرجة أكبر من مجموعة بيانات محدودة، لأن كل نقطة بيانات يمكن استخدامها للتدريب في سياق، وللاختبار في سياق آخر.

وفي نهاية المطاف، إذا لم يحقق أي من النماذج المرشحة أداءً كافيًا، فقد يلجأ الممارسون إلى ضبط المعلمات الفائقة، أي تعديل الإعدادات الداخلية مثل عمق النموذج أو معدل التعلّم، لمعرفة ما إذا كان ذلك سيحسن الأداء.

وفي Python، تجعل مكتبات مثل scikit-learn تطبيق التحقق المتقاطع أمرًا سهلًا، وهو أحد الأسباب التي جعلته ممارسة قياسية.

عندما لا تكون "الإجابة الصحيحة" واضحة

وأحيانًا تكون ما يُعرف باسم "الحقيقة المرجعية" واضحة تمامًا: فالمريض إما مصاب بالسرطان أو غير مصاب به، والمنزل إما بيع بهذا السعر أو ذاك. لكن مع ظهور النماذج اللغوية الكبيرة (LLMs)، أصبح أداء النموذج في كثير من الأحيان أقل وضوحًا وأصعب قياسًا.

فقد يواجه روبوت محادثة مدعوم بنموذج لغوي كبير بعض المهام الثنائية، مثل ما إذا كان يحصل على الحقائق بصورة صحيحة أم خاطئة. لكن المستخدم قد يقيّمه أيضًا على أبعاد كثيرة مختلفة يصعب تحديدها بدقة، مثل الود أو مدى الفائدة. وفي مثل هذه الحالات، لا توجد إجابة واحدة صحيحة، ولا توجد "قيم حقيقية" يمكن القياس عليها. ويُعد التقييم البشري المعيار الذهبي لتقييم مخرجات النماذج اللغوية الكبيرة، لكنه أسلوب يصعب توسيع نطاقه.

وفي نهاية المطاف، قد يأتي التقييم النهائي للنموذج في مثل هذه الحالات من طرحه للاستخدام الفعلي ومراقبة ما إذا كان المستخدمون يحققون قيمة فعلية منه أم لا.

مؤلف

David Zax

Staff Writer

IBM Think

كيفية اختيار نموذج الأساس المناسب

تعرف على كيفية اختيار النهج الصحيح في إعداد مجموعات البيانات واستخدام نماذج الأساس.

الموارد

المؤسسة في عام 2030: مصممة للابتكار الدائم

اكتشِف توقعاتنا الخمسة حول العوامل التي ستحدِّد أكثر الشركات نجاحًا في 2030 - والخطوات التي يمكن للقادة اتخاذها للحصول على ميزة تعتمد على الذكاء الاصطناعي أولًا.

استكشف IBM Granite

اكتشف ®IBM Granite، مجموعة نماذج الذكاء الاصطناعي المفتوحة عالية الأداء والموثوق بها، والمصممة خصوصًا للأعمال التجارية والمُحسَّنة لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والمتواليات الزمنية وآليات الحوكمة والحماية.

شرح النماذج اللغوية الكبيرة

تُبسط سلسة Techsplainers من IBM أساسيات نماذج اللغة الكبيرة، بدءًا من المفاهيم الأساسية وصولاً إلى حالات الاستخدام العملية. تساعدك الحلقات الواضحة والسريعة على تعلم الأساسيات بسرعة.

كيفية اختيار نموذج الأساس المناسب

تعرّف على كيفية اختيار نموذج أساس الذكاء الاصطناعي الأكثر ملاءمة لحالة الاستخدام الخاصة بك.

اكتشف إمكانات النماذج اللغوية الكبيرة

استكشف مقالات ومدونات وبرامج IBM Developer التعليمية لتعزيز معرفتك بالنماذج اللغوية الكبيرة.

دليل الرئيس التنفيذي لتحسين النماذج

تعرَّف على كيفية دفع الفِرَق باستمرار نحو تحسين أداء النماذج وتحقيق التفوق على المنافسين باستخدام أحدث تقنيات الذكاء الاصطناعي والبنية التحتية.

نهج متميز لنماذج أساس الذكاء الاصطناعي

استكشف قيمة نماذج الأساس على مستوى المؤسسة التي توفر مزايا الثقة والأداء والتكلفة المنخفضة لكل المجالات.

اكتشف إمكانات الذكاء الاصطناعي التوليدي والتعلُّم الآلي، واستفد من قدراتهما الكاملة.

تعرَّف على كيفية دمج الذكاء الاصطناعي التوليدي، والتعلم الآلي، ونماذج الأساس في عمليات أعمالك لتحسين الأداء.

حلول ذات صلة

IBM Bob

تسريع عملية تسليم البرامج مع Bob، شريكك المدعوم بالذكاء الاصطناعي للتطوير الآمن والمدرك للأهداف.

استكشف ®IBM Bob

IBM® watsonx Orchestrate

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate

حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي

اتخذ الخطوة التالية

أينما كنت ضمن دورة حياة تطوير البرمجيات، فإن Bob يساندك عبر تقديم تقييمات قائمة على الوكلاء ومدركة للهدف ومتوافقة مع متطلبات الأمان، بما يسرّع تسليم برمجيات عالية الجودة.

الحواشي

1. “Zillow iBuying Home Zestimates,”CNN, 2021.

2. “What is a good F1 score?” OneModel

3. “Calculating F1 Score,” Telnyx.com