ما هو قياس عدم اليقين في التعلم الآلي؟

Joshua Noble

Data Scientist

ما هو التقدير الكمي لعدم اليقين؟

ذات مرة، كتب عالم الإحصاء جورج بوكس قائلًا: "كل النماذج خاطئة، لكن بعضها مفيد".1 فالنماذج، سواء أكانت نوعية أم ذكاءً اصطناعيًا أم رياضية ديناميكية أو إحصائية، دائمًا ما تكون قاصرة عن تمثيل تعقيدات الواقع.

هناك أنواع متعددة من عدم اليقين تؤثر على النماذج بجميع أنواعها. وتشمل مصادر عدم اليقين العملية العشوائية أو الخصائص العشوائية في نظام (يشار إليه باسم عدم اليقين العلمي)، أو المعرفة غير المكتملة (يشار إليها باسم عدم اليقين المعرفي)، أو القيود الحسابية.

لا يساعدنا عدم اليقين في النموذج على تقدير مدى دقة النموذج بمرور الوقت فحسب، بل يساعدنا أيضًا على إظهار نطاق النتائج المحتملة. كما يساعد على فهم كيفية تقليل عدم اليقين في كل من القياس والنماذج.

عدم اليقين والدقة مفهومان مختلفان يرتبطان ارتباطًا وثيقًا بعضهما ببعض. دقة التنبؤ هي مدى قرب التنبؤ من قيمة معروفة. عدم اليقين هو مقدار التنبؤات والقيم المستهدفة التي يمكن أن تختلف.

نظام رؤية الكمبيوتر الذي يصنّف صور التفاح فقط إلى لون أحمر أو لون أخضر، يكون لديه قدر أقل بكثير من عدم اليقين المتأصل من نظام يصنّف صور كل أنواع الفاكهة المعروفة في العالم. والقياس الكمّي لعدم اليقين (UQ) هو طريقة لقياس مدى تباين عدم اليقين بين هاتين المشكلتين على وجه الدقة.

عندما يحتوي النموذج على شكوك، ستختلف مخرجاته باختلاف الاحتمالات. حيث إننا سنتعامل مع هذه المخرجات كمتغيرات عشوائية وسنستخدم توزيعات الاحتمالات للتقدير الكمي لعدم اليقين. وكلما اتسع نطاق التوزيع، أصبحت النتيجة غير مؤكدة. وبينما يعمل التباين بشكل جيد مع التوزيعات الغاوسية، إلا أن العديد من أنظمة العالم الحقيقي تخلق توزيعات غير قياسية تتطلب أساليب قياس مختلفة.

تساعد أساليب التقدير الكمي لعدم اليقين (UQ) في إخبارك بمدى ثقتك التي يجب أن توليها لأي تنبؤ معين. وهذا قد يكون تنبؤًا يتم إجراؤه بواسطة تقنية إحصائية مثل اختبار التوزيعات أو تنبؤًا أو استنتاجًا بواسطة خوارزمية التعلم الآلي . يساعدنا التقدير الكمي لعدم اليقين أيضًا على فهم نطاق النتائج المحتملة للنماذج.

على سبيل المثال، عندما يتنبأ نموذج الطقس باحتمالية هطول أمطار بنسبة 70%، يساعد التقدير الكمي لعدم اليقين في تقييم مدى موثوقية هذه النسبة 70%، هل كان التنبؤ مبنيًا على بيانات تدريب قوية وموثوقة، أو هل كان عدم اليقين مرتفعًا لدرجة أن الاحتمالية الفعلية قد تقع ضمن نطاق واسع يتراوح بين 50% و90%.

تعتبر طرق التقدير الكمي لعدم اليقين مهمة؛ لأنها توضح كيف تؤثر الأخطاء والمجهول على النتائج النهائية. وهذا يمنع النماذج من أن تصبح مفرطة في الثقة كما يساعد على التركيز على كيفية تحسين دقة نموذج التعلم الآلي.

يساعد حساب التقدير الكمي لعدم اليقين في تحديد أوجه عدم اليقين الأكثر أهمية ويساعد على تحسين تدريب النموذج. كما تساعد جودة التعلم صانعي القرار على فهم موثوقية التنبؤات. ويساعدك التقدير الكمي لعدم اليقين على تحويل عبارة مثل "قد يكون هذا النموذج خاطئًا" إلى معلومات محددة وقابلة للقياس حول مدى خطأه وبأي طرق قد يكون خاطئًا. وهذا شيء مفيد لا يقدر بثمن، خاصة عند العمل في مجالات مثل الطب أو الهندسة التي لا تتحمل الأخطاء أو نحوها من السيناريوهات التي تمثل فيها الموثوقية أهمية قصوى.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

طرق استخدام التقدير الكمي لعدم اليقين

يأتي عدم اليقين في نوعين أساسيين: عدم اليقين القائم على البيانات وعدم اليقين القائم على النموذج. في كلتا الحالتين، قد يكون من المفيد معرفة مدى موثوقية التنبؤ قبل إجراؤه وبعد إجرائه.

يمكنك اعتبار هذا بمثابة نموذج يتوقع عدد دورات فتح وإغلاق مفصل الباب قبل تعطله، مع خطأ تقديري بزيادة أو نقصان 1000 عملية. كما يمكن للتقدير الكمي لعدم اليقين أن يُظهر مدى احتمالية أن تتسبب عملية إغلاق مفصل الباب هذه المرة في كسره (فشله).

الطرق القائمة على أخذ العينات

تعد الأساليب القائمة على أخذ العينات من أكثر الأساليب استخدامًا للتقدير الكمي لعدم اليقين؛ لأنها تتعامل مع أي نوع من تعقيد النموذج وتوفر توصيفًا بديهيًا شاملًا لعدم اليقين. فمن خلال إنشاء العديد من السيناريوهات المحتملة، يمكن لأخذ العينات بناء صورة إحصائية للنتائج المحتملة ومدى عدم اليقين في توقعاتنا عند تطبيقها على بيانات العالم الحقيقي. وبدلًا من حساب عدم اليقين تحليليًا، فإن هذه الطرق تستخدم التحليل الإحصائي للعديد من مخرجات العينات لتوصيف توزيعات عدم اليقين.

وتعد محاكاة مونت كارلو واحدة من أكثر الأساليب شيوعًا. حيث يقوم هذا بتشغيل الآلاف من عمليات محاكاة النماذج مع إدخالات متنوعة بشكل عشوائي لمعرفة نطاق المخرجات المحتملة. وهذا أمر شائع بشكل خاص في نماذج المعلمات، حيث تُقارن فترات الثقة ومخرجات النماذج المختلفة معًا لتحديد النطاق الكامل لجميع القيم المحتملة للتنبؤ.

يوجد شكل آخر يُسمَّى أخذ عينات المكعبات اللاتينية المفرطة، وهو نسخة أكثر كفاءة من محاكاة مونت كارلو، إذ يحقق تغطية جيدة لمساحة المُدخلات بأكملها باستخدام عدد أقل من الأشواط التشغيلية.

إسقاط مونت كارلو هو أسلوب آخر يُبقي الإسقاط نشطًا أثناء التنبؤ، حيث يتم تشغيل عدة تمريرات أمامية للحصول على توزيع المخرجات.2 حيث يُستخدم الإسقاط في المقام الأول كأسلوب تنظيم، وهي طريقة تُستخدم للضبط الدقيق لنماذج التعلم الآلي. وتهدف إلى تحسين دالة الخسارة المعدَّلة مع تجنب مشكلات الإفراط في التجهيز أو نقص التجهيز.

يُطبق "إسقاط مونت كارلو" أسلوب الإسقاط في وقت الاختبار، ويُجري عدة تمريرات أمامية باستخدام أقنعة إسقاط مختلفة. وهذا يجعل النموذج ينتج توزيعًا للتنبؤات بدلًا من تقدير نقطة واحدة. حيث يوفر التوزيع رؤى حول عدم اليقين النموذجي بشأن التنبؤات. فهو أسلوب فعال من الناحية الحسابية للحصول على توزيعات مخرجات الشبكات العصبية دون حاجة إلى تدريب الشبكات العصبية عدة مرات.

عندما يكون تشغيل النموذج الفعلي عدة مرات مكلفا جدًا، يقوم الإحصائيون بإنشاء نماذج "بديلة" مبسطة باستخدام أساليب مثل انحدار العملية الغاوسية (GPR).5 حيث يعد انحدار العملية الغاوسية (GPR) نهج بايزي لنمذجة اليقين في التنبؤات مما يجعله أداة قيمة للتحسين والتنبؤ بالسلاسل الزمنية والتطبيقات. يعتمد انحدار العملية الغاوسية (GPR) على مفهوم "العملية الغاوسية"، وهي مجموعة من المتغيرات العشوائية التي لها توزيع غاوسي مشترك.

يمكنك اعتبار العملية الغاوسية توزيعًا للدوال. حيث يضع انحدار العملية الغاوسية (GPR) توزيعًا مسبقًا على الدوال ثم يستخدم البيانات المرصودة لإنشاء توزيع خلفي. واستخدام انحدار العملية الغاوسية (GPR) لحساب عدم اليقين لا يتطلب تدريبًا إضافيًا أو تشغيل النموذج لأن الإخراج يعبر بطبيعته عن مدى يقين النموذج أو عدم اليقين بشأن التقدير من خلال التوزيع. توفر مكتبات مثل Scikit-learn تطبيقات انحدار العملية الغاوسية (GPR) لتحليل عدم اليقين.

يعتمد اختيار طريقة أخذ العينات على السمات (الخصائص) الأكثر أهمية للنموذج والسيناريو الخاص بك. وتجمع معظم التطبيقات في العالم الحقيقي بين عدة مناهج.

طرق بايزي

الإحصاء البايزي هو منهج للاستدلال الإحصائي يستخدم نظرية بايز لدمج المعتقدات المُسبقة مع البيانات المرصودة وتحديث احتمال فرضية ما. حيث يتعامل الإحصاء البايزي صراحةً مع عدم اليقين عن طريق إسناد (أو تعيين) توزيع احتمالي بدلًا من قيمة ثابتة مفردة. فبدلًا من إعطاء تقدير "أفضل" واحد لمعلمة النموذج، توفر طرق الإحصاء البايزي توزيعًا لاحتمالية التقديرات المحتملة.

يقوم الاستدلال البايزي بتحديث التنبؤات مع توفر بيانات جديدة، والتي تتضمن بشكل طبيعي عدم اليقين طوال عملية تقدير المتغيرات المشتركة. تساعد أساليب مونت كارلو لسلاسل ماركوف (MCMC) في تطبيق المناهج البايزية عندما تكون الحلول الرياضية معقدة. حيث يقوم نهج MCMC بأخذ عينات من توزيعات احتمالية معقدة وعالية الأبعاد لا يمكن أخذ عينات منها مباشرة، لا سيما التوزيعات الخلفية في الاستدلال البايزي.

تتميز الشبكات العصبية البايزية (BNN) بأنها تختلف عن الشبكات العصبية التقليدية، حيث إنها تتعامل مع أوزان الشبكة كتوزيعات احتمالية بدلًا من تقديرات النقطة الثابتة. وهذا النهج الاحتمالي يتيح القياس الكمّي لعدم اليقين على أساس مبدئي وصارم. فبدلًا من تقديرات النقطة الواحدة للأوزان، تحافظ هذه التقديرات على توزيعات الاحتمالات على جميع معلمات الشبكة. التوقعات تتضمن عادةًً

  • تقديرات المتوسط والتباين للتوزيع التنبؤي
  • عينات من التوزيع التنبؤي
  • فترات موثوق بها، مشتقة من التوزيع

توجد العديد من المكتبات مصدر مفتوح الشهيرة لتنفيذ شبكات BNN مثل مكتبة PyMC ومكتبة Tensorflow-Probability.

طرق التجميع

والفكرة الأساسية وراء تحديد مقدار عدم اليقين القائم على المجموعة هي أنه إذا اختلفت عدة نماذج مدرَّبة بشكل مستقل على التنبؤ، فإن هذا الاختلاف يشير إلى حالة من عدم اليقين بشأن الإجابة الصحيحة.4 وعلى العكس، عندما تتفق جميع النماذج في المجموعة، فإن هذا يشير إلى ثقة أعلى في التنبؤ. وهذا الحدس يُترجم إلى مقاييس ملموسة لعدم اليقين من خلال تباين تنبؤات المجموعة أو انتشارها.

إذا كانت f₁, f₂, ..., fₙ تمثل مقدرات أعضاء المجموعة N للإدخال x، يمكن إجراء التقدير الكمي لعدم اليقين على النحو التالي

 Var[f(x)]=1Ni=1N(fi(x)-f¯(x))2

حيث f̄(x) هو متوسط المجموعة. تدريب نماذج متنوعة متعددة (بنى مختلفة أو مجموعات فرعية لبيانات التدريب أو التهيئة) والجمع بين تنبؤاتها. والعيب الرئيسي لهذا النهج هو التكلفة الحسابية؛ حيث يتطلب تدريبًا وتشغيل نماذج متعددة.

التنبؤ المطابق

 

التنبؤ المطابق هو أسلوب لتحديد كمية عدم اليقين. حيث إنه يوفر إطار عمل خاليًا من التوزيع ولا يعتمد على النماذج لإنشاء فترات تنبؤ (لسيناريوهات الانحدار) أو مجموعات تنبؤ (لتطبيقات التصنيف).3 وهذا يوفر ضمانات تغطية صالحة مع أدنى حد من الافتراضات حول النموذج أو البيانات. وبالتالي فإن هذا يجعل التنبؤ المطابق مفيدًا بشكل خاص عند العمل مع نماذج الصندوق الأسود المدرَّبة مسبقًا.

يتميز التنبؤ المطابق بالعديد من السمات (الخصائص) التي تجعله قابلًا للتطبيق على نطاق واسع. على سبيل المثال، فهو لا يتطلب إلا أن تكون نقاط البيانات قابلة للتبادل، بدلًا من اشتراط أن تكون مستقلة وموزَّعة بشكل متطابق. كما أنه يمكن أيضًا تطبيق التنبؤ المطابق على أي نموذج تنبؤي مما يسمح لك بتعيين عدم اليقين التنبؤي المسموح به للنموذج.

على سبيل المثال، في مهمة الانحدار، قد ترغب في تحقيق تغطية 95%، مما يعني أن النموذج يجب أن يُخرج نطاقًا يقع فيه الرقم الحقيقي في فترة إخراج بنسبة 95% من الوقت. فهذا النهج مستقل عن النموذج لا يتوقف عليه، ويعمل بشكل جيد مع التصنيف، والانحدار، والشبكات العصبية، ومجموعة كبيرة من نماذج السلاسل الزمنية.

لاستخدام التنبؤ المطابق، يمكنك تقسيم بياناتك إلى ثلاث مجموعات: مجموعة تدريب ومجموعة اختبار أساسية ومجموعة معايرة. حيث تُستخدم مجموعة المعايرة لحساب درجات عدم المطابقة، وغالبًا ما يشار إليها باسم si. وهذه الدرجة تقيس مدى غرابة التنبؤ. وبالنظر إلى إدخال جديد، يمكنك تشكيل فاصل زمني للتنبؤ بناءً على هذه الدرجات لضمان التغطية.

في مهمة التصنيف، يكون التنبؤ المطابق لدرجة عدم المطابقة مقياسًا لمدى انحراف مثيل جديد عن المثيلات الموجودة في مجموعة التدريب. وهذا يحدد ما إذا كان المثيل الجديد ينتمي إلى فئة معينة أم لا. بالنسبة للتصنيف متعدد الفئات، يكون هذا عادةً هو (1 - احتمال الفئة المتوقعة للتصنيف المحدد).

 si=1-f(xi)[yi]

إذن إذا كان الاحتمال المتوقع لمثيل جديد ينتمي إلى فئة معينة مرتفعًا، فإن درجة عدم المطابقة ستكون منخفضة، والعكس صحيح. ويتمثل النهج الشائع في حساب درجات si لكل مثيل في مجموعة المعايرة وفرز الدرجات من منخفضة (مؤكدة) إلى عالية (غير مؤكدة).

للوصول إلى 95% التغطية المطابقة، احسب العتبة q حيث تكون 95% من درجات si أقل. وبالنسبة لأمثلة الاختبار الجديدة، يمكنك تضمين التسمية في مجموعة التنبؤات إذا كانت si الخاصة بها أقل من العتبة q.

إذا كنت بحاجة إلى ضمان أن نموذجك يحتوي على تغطية مطابقة بنسبة 95%، فستحصل على متوسط درجات si لجميع الفئات. ثم بعد ذلك، ستجد عتبة درجات si تحتوي على 95% من البيانات. ثم يمكنك التأكد من أن المصنِّف الخاص بك يحدد بشكل صحيح 95% من المثيلات الجديدة عبر جميع الفئات.

هذا يختلف قليلًا عن دقة المصنِّف لأن التنبؤ المطابق قد يحدد فئات متعددة. ففي المصنِّف متعدد الفئات، يظهر التنبؤ المطابق أيضًا التغطية لجميع الفئات. يمكنك تعيين معدل تغطية للفئات الفردية بدلًا من مجموعة التدريب بأكملها.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

تطبيقات التقدير الكمي لعدم اليقين

يُعد التقدير الكمي لعدم اليقين أمرًا مهمًا في العديد من المجالات في التعلم الآلي وتطوير الذكاء الاصطناعي وعلوم الكمبيوتر. وفيما يلي بعض تطبيقاته الأكثر شيوعًا.

عدم اليقين في التنبؤ بالسلاسل الزمنية

تُعد إدارة عدم اليقين وقياسه في التنبؤ بالسلاسل الزمنية أمرًا بالغ الأهمية في عمليات اتخاذ القرار في مجالات التمويل والاقتصاد والتنبؤ بالطقس وإدارة سلسلة التوريد. حيث يُفضل هنا استخدام النماذج الاحتمالية لقدرتها على إخراج التوزيعات بدلًا من التقديرات النقطية الفردية. ويمكن مقارنة هذه النماذج بالنماذج الحتمية، التي تنتج قيمة واحدة فقط بدلًا من توزيع القيم المحتملة. توجد العديد من النماذج الاحتمالية للتنبؤ بالسلاسل الزمنية، مثل: نماذج ARIMA أو الشبكات العصبية البايزية.

يبدأ تركيب نموذج ARIMA بالتقاط عناصر الانحدار الذاتي (AR) والمتوسط المتحرك (MA) وضمان الثبات من خلال التفريق. ثم بعد توليد التنبؤات النقطية، يقوم النموذج بتقييم المتبقّيات التي تمثل الاختلافات بين القيم المرصودة والمتوقعة. ويستخدم نموذج ARIMA الانحراف المعياري للمتبقيات الموزَّعة توزيعًا طبيعيًا لإنشاء فواصل تنبؤ حول التنبؤات النقطية.

بشكل أساسي، كلما اتسعت فترة التنبؤ، زاد عدم اليقين المرتبط بالتنبؤ. ولا تقتصر هذه المنهجية التقنية على تحسين دقة التنبؤات النقطية فحسب، بل توفر أيضًا مقياسًا سليمًا من الناحية الإحصائية للنطاق الذي من المحتمل أن تقع ضمنه الملاحظات المستقبلية.

التعلم العميق وعدم اليقين

يمثل التعلم العميق تحديات متعددة لقياس كمية عدم اليقين لأن نماذج التعلم العميق غالبًا ما تكون لها أبعاد عالية وعلاقات غير خطية عبر طبقات الشبكة. وغالبًا ما تكون هناك أيضًا قيود حسابية كبيرة عند تدريب وتنفيذ هذه النماذج، مما يجعل من الصعب تحديد مقدار عدم اليقين الموجود في أي استدلال.

لقد تم تطوير العديد من التقنيات المستخدمة بشكل شائع خصيصًا للشبكات العصبية العميقة. ومن الأمثلة على الأساليب القائمة على أخذ العينات: المجموعات العميقة، حيث تحتوي العديد من الشبكات المدرَّبة بشكل مستقل على تهيئة أو مجموعات فرعية مختلفة للبيانات. ويمكن أن يشير التباين عبر تنبؤات المجموعة إلى عدم اليقين في التنبؤ بالبنية نفسها. وهذه طريقة بسيطة لكنها باهظة الثمن من الناحية الحسابية؛ لأنها تتطلب تدريب نماذج كاملة متعددة.

وهناك طريقة أخرى شائعة الاستخدام وهي طريقة "إسقاط مونت كارلو"، والتي تُبقي طبقات الإسقاط نشطة أثناء الاستدلال.6 حيث يتم في هذه الطريقة إجراء تمريرات أمامية متعددة للاستدلال البايزي التقريبي. ينشئ كل قناع إسقاط شبكة فرعية مختلفة، ويقدر تباين التنبؤ عدم اليقين. من السهل تنفيذ ذلك مع النماذج الحالية؛ لأنه لا توجد تغييرات مطلوبة في بنية النموذج. بدلًا من إيقاف تشغيل الإسقاط أثناء الاستدلال، ستبقيه ممكَّنًا بالإضافة إلى تشغيل تمريرات أمامية متعددة. نهج مماثل هو عدم اليقين في تطبيع الدفعات الذي يقوم بأخذ عينات عشوائية من إحصائيات الدفعات المكتسبة في وقت الاستدلال لإنشاء توزيعات التنبؤ.

التعلم النشط

التعلّم النشط هو نموذج للتعلّم الآلي قابل للتوسع حيث يمكن للخوارزمية أن تختار بشكل انتقائي نقاط البيانات التي تتعلم منها، بدلًا من أن يتم تدريبها على مجموعة البيانات ثابتة. يمكن لخوارزمية التعلّم أن تحقق أداءً أفضل مع عدد أقل من الأمثلة المصنفة (الموسومة) إذا سُمح لها باختيار البيانات التي تتعلم منها. يفترض التعلم التقليدي الخاضع للإشراف أن مجموعة بيانات مصنفة (موسومة) كبيرة متاحة منذ بداية عملية تطوير النموذج. وفي العديد من سيناريوهات العالم الواقعي، تكون البيانات غير المصنفة (غير الموسومة) وفيرة في حين أن البيانات الموسومة مكلفة أو تستغرق وقتًا طويلًا أو تتطلب خبيرًا للحصول عليها. وبعد تدريب نموذج باستخدام المجموعة الأصغر المصنفة (الموسومة)، يمكنك استخدام النموذج لتقييم مجموعة كبيرة من الأمثلة غير المسماة. وقد حدد التعلم النشط الأمثلة الأكثر "إفادة" غير المصنفة غير الموسومة) وفقًا لاستراتيجية اكتساب معينة.

يمكن أن تستخدم استراتيجيات التعلّم النشط تقديرات عدم اليقين لتحديد الأمثلة غير المصنفة (غير الموسومة) الأكثر قيمة لتسميتها بعد ذلك. الفرضية الأساسية هي أن النموذج يجب أن يطلب تسميات لنقاط البيانات حيث يكون غير مؤكد، حيث من المرجح أن توفر هذه الأمثلة أكبر قدر من المعلومات.

مقاييس التقدير الكمي لعدم اليقين

غالبًا ما تُستخدم مقاييس التقدير الكمي لعدم اليقين لمقارنة النماذج المختلفة التي تستخدم نفس البنية وليس لمقارنة البنى المختلفة أو كقيمة مطلقة. حيث تسمح لك بعض أنواع المقاييس، مثل خطأ المعايرة المتوقع، بقياس معايرة نموذج معين.

لكن إذا كنت لا تقيس معايرة النموذج لبيانات الاختبار، فيمكنك استخدام مقاييس تكميلية متعددة بدلًا من الاعتماد على مقياس واحد، حيث إن المقاييس المختلفة تلتقط جوانب مختلفة من عدم اليقين.

بشكل عام، تنقسم مقاييس عدم اليقين إلى فئتين عريضتين، قواعد التسجيل المناسبة الصحيحة ومقاييس المعايرة.

قواعد التسجيل المناسبة

تعمل قواعد التسجيل المناسبة بشكل أفضل مع النماذج الاحتمالية ذات تقديرات عدم اليقين الطبيعي؛ لأنها تقدر الانحراف عن توزيع الاحتمالات الحقيقي. وتشير القيمة العالية إلى أن الاحتمال المتوقع بعيد كل البعد عن الاحتمال الحقيقي. وهذا يوفر مقياسًا لتقييم التنبؤ أو التنبؤ الاحتمالي، والذي غالبًا ما يكون نطاقًا من المخرجات المحتملة بدلًا من قيمة واحدة.

عادةًً تقوم دوال الخسارة النموذجية مثل متوسط الخطأ التربيعي بتعيين درجة لجودة المطابقة لقيمة متوقعة وقيمة ملحوظة. ومع ذلك، تقوم قواعد تسجيل النقاط بتعيين درجة لتوزيع احتمالي متوقع وقيمة ملحوظة.

تعد طريقة سالب لوغاريتم الاحتمالية (NLL) طريقة شائعة الاستخدام لتحسين الشبكات العصبية لمهام التصنيف. ومع ذلك، يمكن أيضًا استخدام دالة الخسارة هذه كمقياس لعدم اليقين. نظرًا لأن طريقة سالب لوغاريتم الاحتمالية (NLL) تقيس بشكل مباشر مدى توافق توزيعات الاحتمالات المتوقعة للنموذج مع النتائج المرصودة، فإنها تلتقط بطبيعتها كلًّا من الدقة وجودة الثقة للتنبؤات الاحتمالية.

في حالة نموذج التصنيف الذي يتنبأ بـ [0.9، 0.1] لمشكلة ثنائية حيث يكون توزيع الفئة الحقيقي 60-40، فإن هذا النموذج لديه سالب لوغاريتم احتمالية (NLL) أعلى في المتوسط. وذلك لأن طريقة سالب لوغاريتم الاحتمالية (NLL) تجازي وتعاقب بشدة النموذج الثاني المفرط في الثقة عندما تكون تنبؤاته الواثقة خاطئة.

تعد درجة براير (Brier Score) قاعدة تسجيل مناسبة أخرى تُستخدَم عادةًً لمهام التصنيف. ويتم تفضيل هذه الطريقة أحيانًا على طريقة سالب لوغاريتم الاحتمالية (NLL)؛ لأنها محددة بشكل صارم في نطاق 0-1 وبالتالي فهي أكثر استقرارًا من الناحية العددية. وهي مقياس شامل لعدم اليقين؛ لأنها تقيّم كلًا من مدى تطابق الاحتمالات المتوقعة مع الترددات المرصودة ومدى الثقة في التنبؤات.

يعد مقياس احتمالية الترتيب المستمر (CRPS) واحدًا من المقاييس المستخدمة على نطاق واسع في مجال الأرصاد الجوية والهيدرولوجيا وعلوم المناخ. حيث يقيس مقياس احتمالية الترتيب المستمر (CRPS) التضارب بين دالة التوزيع التراكمي المتوقعة (CDF) للتنبؤ ودالة الخطوة التي تمثل النتيجة الحقيقية. كما أن مقياس احتمالية الترتيب المستمر (CRPS) يحدد مدى انتشار توزيع التوقعات حول القيمة المرصودة.

مقاييس المعايرة

تعمل المقاييس بشكل أفضل مع النماذج المدرَّبة مسبقًا مثل نماذج الأساس أو النماذج اللغوية الكبيرة (LLM) أو مع مهام التصنيف التي تستخدم مخرجات دالة Softmax. فهي تساعد في قياس الفرق بين "الثقة الحقيقية" و"الثقة المتوقعة". فعندما تقوم قاعدة التسجيل المناسبة بمقارنة التوزيعات، تقوم المعايرة بمقارنة اليقين نفسه. فإذا ما تم حساب مقياس المعايرة على أنه 0.6، فهذا يعني أن الشبكة العصبية متأكدة من أن الشبكة العصبية هي 60% في تنبؤ معين.7

يُعتبر النموذج مُعايرًا عندما تعكس درجات الثقة المتوقعة احتمالية الصواب الحقيقية بدقة. وبصيغة أكثر رسمية، تعني المعايرة أنه من بين جميع التنبؤات التي يعبر فيها النموذج عن الثقة p، يجب أن يكون الكسر p تقريبًا صحيحًا. يتم حساب مقاييس المعايرة على مجموعة البيانات بأكملها من أجل تجميع الاحتمالات المختلفة. وعلى العكس من ذلك، تقارن قواعد التسجيل المناسبة بين الاحتمالات الفردية.8

يعد خطأ المعايرة المتوقع (ECE) أحد المقاييس الأكثر شيوعًا في الاستخدام. حيث إنه يقسم التنبؤات إلى خانات بناءً على مستويات الثقة ويقيس متوسط الفرق بين الثقة والدقة داخل كل خانة. حيث يستخدم النهج النموذجي 10-15 خانة متباعدة بشكل متساوٍ، والتي تُستخدَم لحساب متوسط الاحتمالات المتوقعة في تلك الخانة وجزء التنبؤات التي كانت صحيحة بالفعل ضمن تلك الخانة.

يجب أن يظل النموذج الذي تمت معايرته بشكل مثالي صحيحًا بنسبة 90% من الحالات عندما يعبر عن ثقة قدرها 90%. يقيس خطأ المعايرة المتوقع (ECE) ذلك من خلال إرجاع قيمة تتراوح بين 0 (معايرة مثالية) و1 (أسوأ معايرة ممكنة). فالمقاييس تتعامل مع الثقة المفرطة ونقص الثقة بالتساوي بسبب القيمة المطلقة للمقاييس. وهذا مفيد جدًا لمقارنة النماذج بعضها ببعض بدلًا من تطبيق المقياس على نموذج معين بمعزل عن غيره.

يقيس الحد الأقصى لخطأ المعايرة (MCE) أسوأ خطأ للمعايرة عن طريق أخذ أقصى فرق بين الثقة والدقة عبر كل الخانات، بدلًا من المتوسط. وهذا يوفر نظرة ثاقبة على المناطق التي تمت معايرتها بشكل سيئ.

يعالج خطأ المعايرة التكيفي (ACE) قيود التجميع الثابت باستخدام استراتيجية التجميع التكيفي، والتي تضمن احتواء كل خانة على نفس العدد تقريبًا من العينات، مما يوفر تقديرات أكثر قوة، وخاصةً مع البيانات المحدودة.

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1. Box, G. E. P. (1976). Science and statistics. Journal of the American Statistical Association, 71(356), 791–799. https://doi.org/10.1080/01621459.1976.10480949

2. Gal, Y., Ghahramani, Z., & University of Cambridge. (2016). Dropout as a Bayesian approximation: representing model uncertainty in deep learning. In Proceedings of the 33rd International Conference on Machine Learning.

3. Angelopoulos, A. N., & Bates, S. (2021, July 15). A gentle introduction to conformal prediction and Distribution-Free uncertainty quantification. arXiv.org. https://arxiv.org/abs/2107.07511

4. Lakshminarayanan, B., Pritzel, A., & Blundell, C. (2016, December 5). Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. arxiv.org. https://arxiv.org/abs/1612.01474

5. Williams, C. K. I., Neural Computing Research Group, Rasmussen, C. E., Department of Computer Science, & University of Toronto. (1996). Gaussian processes for regression. https://proceedings.neurips.cc/paper_files/paper/1995/file/7cce53cf90577442771720a370c3c723-Paper.pdf

6. Wang, C. (2023, August 2). Calibration in Deep Learning: A Survey of the State-of-the-Art. arXiv.org. https://arxiv.org/abs/2308.01222

7. Guo, C., Pleiss, G., Sun, Y., & Weinberger, K. Q. (2017). On calibration of modern neural networks. International Conference on Machine Learning, 1321–1330. https://proceedings.mlr.press/v70/guo17a/guo17a.pdf

8. Nixon, J., Dusenberry, M. W., Zhang, L., Jerfel, G., & Tran, D. (2019). Measuring calibration in deep learning. Computer Vision and Pattern Recognition, 38–41. https://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty and Robustness in Deep Visual Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf