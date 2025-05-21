ما الموازنة بين التحيز والتباين؟

مقدمة حول الموازنة بين التحيز والتباين

في التعلم الآلي و الذكاء الاصطناعي، تُعدُّ الموازنة بين التحيز والتباين مفهومًا يحكم أداء نموذج التعلم الآلي التنبئي بل وركيزة أساسية كذلك في علم البيانات.

فعندما يستقر بنا الرأي على بناء نموذج تعلم آلي ليعالج مشكلة معينة من مشكلات الأعمال، سنرغب في اختيار بنية نموذج تقلل من الأخطاء لأدنى حد ممكن وتلتقط الإشارات الأساسية (البيانات المُفيدة). ولا شك أن التحيز والتباين سيمثلان مصدرين من مصادر خطأ التنبؤ. حيث يقيس لنا التحيز مدى ابتعاد التنبؤات عن القيم الحقيقية نتيجة الافتراضات المفرطة في التبسيط؛ بينما التباين سيوضح لنا مدى تقلب التنبؤات حسب مجموعات بيانات التدريب المختلفة.

فهذه الموازنة لا بد منها ولا شك في أن فهمها وإدارتها أمرٌ بالغ الأهمية لبناء نماذج قادرة على التعميم الجيد على البيانات المستجدة التي يراها النموذج لأول مرة ولم يتدرب عليها. فالنماذج ذات التحيز العالي عرضة للقصور في التجهيز، وتفتقد أنماطًا مهمة، بينما النماذج ذات التباين العالي عرضة للإفراط في التجهيز، وتلتقط الضجيج (البيانات العشوائية) كما لو كانت إشارة مفيدة. والتوازن الصحيح يكمن في صميم التصميم الفعال للتعلم الآلي ويساعد على تفسير سبب فشل النماذج التي تؤدي أداءً جيدًا على بيانات التدريب في العالم الحقيقي.

في هذه المقالة التوضيحية، سنتعمق في الموازنة بين التحيز والتباين وخطأ التنبؤ ونشرح ذلك بالتفاصيل الفنية، وسنرسم صورة كاملة لكيفية بناء النموذج الصحيح المناسب لمجموعة البيانات. 

توضيح الموازنة

في النماذج التنبؤية، مثل الانحدار الخطي أو الجار الأقرب (KNN)، يكون التحيز والتباين مترابطين:

  • يقيس التحيز مدى ابتعاد تنبؤات النموذج، في المتوسط، عن قيم الحقيقة الأساسية. حيث تميل النماذج عالية التحيز إلى وضع افتراضات قوية حول شكل البيانات وبالتالي تسبب القصور في التجهيز. وكذلك يميل النموذج المفرط في التبسيط إلى التحيز العالي والتباين المنخفض، وهو نموذج يحتوي غالبًا على أخطاء تدريب عالية وأخطاء تنبؤ عالية.  
  • يقيس التباين مدى تغير تنبؤات النموذج عند تدريبه على مجموعات مختلفة من البيانات. فالنماذج عالية التباين حساسة للضجيج في بيانات التدريب وتسبب الإفراط في التجهيز. بينما النموذج ذو البنية المعقدة وذو المعلمات الكثيرة يميل إلى أن يكون له تباين مرتفع وتحيز منخفض.
مخطط تباين التحيز

في هذا الشرح، نستخدم الانحدار الخطي كمثال لتوضيح كيفية تأثير تعقيد النموذج على التحيز والتباين في النتائج المتوقعة. وينبغي ألَّا تنسى أنه في الانحدار الخطي تم تعريف مقياس التقييم من خلال خطأ المتوسط التربيعي (MSE): وهو متوسط الخطأ التربيعي من الحقيقة الأساسية والقيمة المتوقعة. يشير متوسط MSE الكبير إلى نموذج تم تخصيصه بشكل غير جيد في بيانات التدريب، بينما يشير متوسط MSE المنخفض إلى نموذج تم تخصيصه بشكل جيد على بيانات التدريب.

يُعرّف متوسط MSE على شكل المعادلة التالية:

 MSE=(ypred-yactual)2  

أو يتم التعبير عنه كمجموع مربعات البواقي (RSS):

 RSS=i=1n(yi-yi^)2

لنفترض أن لدينا مجموعة من قيم الإدخال X وقيم الإخراج المقابلة لها Y. فعندما تكون العلاقة الحقيقية بين X وY غير خطية - ولك أن تتخيلها كأنها منحنى سلس على شكل حرف U أو موجة جيبية. لكننا نجهل تلك العلاقة الكامنة ولا نعرف هذه الدالة الأساسية. بل بدلًا من ذلك، نرصد نقاط بيانات ضجيجية تُقدرها تقريبًا.

رسم البيانات الضجيجية

نريد الآن بناء نموذج للتنبؤ بـ Y باستخدام X.

لتوضيح كيف يؤثر تعقيد النموذج على أدائه، يمكننا محاولة تجهيز ثلاثة نماذج ذات تعقيد مُتزايد: نموذج خطي، ونموذج حدودي (متعدد الحدود) مُعتدل التعقيد، ونموذج حدودي بالغ التعقيد.

سنجد أن عنصر الضجيج هذا يتسبب في عشوائية البيانات محاكيًا بذلك بيانات العالم الواقعي. وتعبير "كثيرة الحدود" هو تعبير رياضي يتضمن مجموع أسس X مضروبة في المعاملات.

على سبيل المثال، معادلة كثيرة الحدود من الدرجة 1 هي:

 y^=β0+β1x

يتم تمثيل النموذج كخط مستقيم:

معادلة كثيرة الحدود من الدرجة 1

هذا النموذج بسيط جدًا ويفترض افتراضًا قويًا بأن العلاقة بين X وY علاقة خطية. لكن من الواضح أن البيانات لها نمط منحنٍ. ونتيجة لذلك:

  • التحيز مرتفع: لا يمكن للنموذج التقاط النمط غير الخطي في البيانات.
  • التباين منخفض: مستقر ولا يتغير كثيرًا عند تدريبه مع مجموعات البيانات المختلفة.
  • MSE (متوسط الخطأ التربيعي): 0.2929. هذا مرتفع نسبيًا.

هذا مثال على القصور في التجهيز؛ فالنموذج بسيط جدًا بحيث لا يمكنه تعلّم البنية الحقيقية.

كثيرة الحدود من الدرجة 4 هي

 y^=β0+β1x+β2x2+β3x3+β4x4

معادلة كثيرة الحدود من الدرجة 4

الآن نستخدم كثيرة حدود تتضمن أسس x إلى ما يصل إلى  x4 :

 y^=β0+β1x+β2x2+β3x3+β4x4

هذا النموذج معقد بما يكفي لالتقاط منحنى البيانات دون أن يكون حساسًا جدًا للضجيج.

  • التحيز معتدل: يمكن أن يمثل النموذج الدالة الحقيقية بشكل جيد إلى حد ما.
  • التباين معتدل: لا يتفاعل بشكل مبالغ فيه مع التقلبات الصغيرة في البيانات.
  • متوسط MSE: حوالي 0.0714، أقل من الدرجة 1.

هذا هو النموذج الأفضل أداءً في مثالنا - فهو يُعمم جيدًا.

الدرجة 25 متعدد الحدود هي:

 y^=i=025βixi

معادلة كثيرة الحدود من الدرجة 25

بفضل 26 معلمة، يتمتع النموذج بمرونة عالية ويتناسب بشكل وثيق جدًا مع بيانات التدريب؛ حتى مع الضجيج العشوائي. يبدو المنحنى متعرجًا جدًا ويبالغ في البيانات.

  • التحيز منخفض: فهو مرن بما يكفي لمتابعة الإشارة.
  • التباين مرتفع: يتفاعل بقوة مع الضجيج وسيتغير بشكل كبير مع عينة جديدة من البيانات.
  •  متوسط MSE: حوالي 0.059 - أقل من الدرجة 4؛ لأنه أفرط في تذكر وحفظ نمط بيانات التدريب وأفرط في الاحتواء.

هذا مثال على الإفراط في التجهيز - يتعلم النموذج الضجيج جنبًا إلى جنب مع الإشارة ولا يعمم جيدًا على البيانات المستجدة التي لم يرها النموذج من قبل ولم يتدرب عليها.

كلما ارتفعت الدرجة، أصبح المنحنى أكثر "تقلبًا"، وزاد تكيفه مع بيانات التدريب، بما في ذلك كل من بيانات الإشارة المفيدة وبيانات الضجيج العشوائية.

في المثال أعلاه، واضح لنا أن تعقيد النموذج وعدد المعلمات يؤثران بشكل مباشر على الموازنة بين التحيز والتباين. فكلما أصبح النموذج أكثر تعقيدًا واحتوى على مزيد من المعلمات، زاد التباين في القيم المتوقعة في مجموعة الاختبار، مما يؤدي إلى تباين كبير. ومع ذلك، كلما تبسَّط النموذج وقل عدد المعلمات  bias2ازداد مُربع التحيز   في زيادات التنبؤات.

لذلك، عندما ننشئ نموذجًا للتعلم الآلي، سنهدف إلى تحقيق التحيز والتباين في آن واحد لتحقيق الأداء الأمثل للنموذج. ومثل هذا التحسين لن يخدم توليد نتائج جيدة من التدريب فحسب، بل يُعمم أيضًا جيدًا على بيانات الاختبار المستجدة. في القسم التالي، نغوص في التفاصيل الرياضية لكيفية اشتقاق حساب التحيز والتباين وسبب احتواء نموذج التعلم الآلي على أوجه عدم اليقين التي تتكون من التحيز والتباين والخطأ غير القابل للاختزال.

المفاضلة بين التحيز والتباين

التحيز والتباين في الممارسة العملية

لا شك أن فهم كيفية ظهور التحيز والتباين في نماذج التعلم الآلي في العالم الحقيقي يعد ضروريًا لتشخيص الأداء وتحسينه. في القسم التالي، سنغوص في التفاصيل أكثر لنرى كيف يؤدي التحيز العالي ونموذج التباين العالي إلى ضعف الأداء الممكن في نظام الذكاء الاصطناعي.

نماذج عالية التحيز

عادةً ما تكون النماذج عالية التحيز مبسطة جدًا بحيث لا يمكنها التقاط الأنماط الحقيقية في البيانات. حيث إنها لا تتناسب مع مجموعة التدريب، مما يؤدي إلى ضعف دقة التدريب والاختبار. وأشهر مثال تقليدي معروف على ذلك هو الانحدار الخطي المطبق على البيانات غير الخطية الموضحة سابقًا. فإذا كانت العلاقة الحقيقية بين السمات (الخصائص) والهدف تربيعية أو جيبية ونقوم بملاءمة خط مستقيم، فإن النموذج سيفتقر إلى القدرة على التقاط البنية الأساسية.

الأعراض: خطأ كبير في كل من مجموعات التدريب والاختبار. يصبح التحيز كبيرًا ويؤدي إلى ضعف الأداء في كل من مجموعة التدريب ومجموعة الاختبار.

نماذج عالية التباين

تتميز النماذج عالية التباين بالمرونة المفرطة وتناسب بيانات التدريب بشكل وثيق جدًا بشكل زائد عن الحد، بما في ذلك الضجيج. فهي تفرط في مجموعة التدريب وتفشل في التعميم على البيانات المستجدة التي لم يرها النموذج من قبل ولم يتدرب عليها، مما يؤدي إلى الإفراط في التجهيز وتؤدي إلى تنبؤات ذات تباين مرتفع بشكل غير طبيعي.

ومن الأمثلة الشائعة عليها ما يلي:

  • شجرة القرار بدون تقليم.
  • الانحدار المتعدد الحدود بدرجات عالية.
  • KNN مع k منخفض جدًا.

الأعراض: خطأ تدريب منخفض مع خطأ اختبار مرتفع. تختلف التوقعات بشكل كبير عبر مجموعات البيانات المختلفة. يهيمن مصطلح التباين على الخطأ، مما يشير إلى أن النموذج غير مستقر فيما يتعلق بتغييرات بيانات التدريب.

تشخيص التحيز والتباين

تتضمن بعض الأدوات العملية لتشخيص هذه الأخطاء ما يلي:

منحنيات التعلم (كما تم توضيحه من قبل في القسم الأول):

  • مخطط التدريب وخطأ التحقق من الصحة في مقابل حجم مجموعة التدريب.
  • إذا كان كلا الخطأين مرتفعين ومتقاربين، فهذا يشير إلى وجود تحيز كبير.

إذا كان خطأ التدريب منخفضًا وكان خطأ التحقق من الصحة مرتفعًا، مع وجود فجوة لا تنغلق، فهذا يشير إلى تباين كبير. ويمكن تطبيق التحقق التبادلي لتشخيص أداء النموذج وحساب متوسط الأخطاء من مجموعة التدريب المحددة.

  • وهذا يساعد في تقدير خطأ التعميم.
  • مفيدة لمقارنة النماذج أو المعلمات الفائقة بطريقة مدركة للتباين.

اعتبار العالم الحقيقي

في الممارسة العملية، لا يتعلق التحكم في الموازنة بين التحيز والتباين باختيار النموذج "المثالي" بقدر ما يتعلق بالاستراتيجية من خلال الاستراتيجية المختلفة. ويمكننا تطبيق العديد من التقنيات للتحكم في التباين في أخطاء التنبؤ من خلال تطبيق بعض الاستراتيجيات التالية:

التنظيم

يشير التنظيم إلى مجموعة الأساليب المستخدمة لتقييد أو معاقبة تعقيد النموذج لتحسين التعميم؛ أي الأداء على البيانات غير المرئية. ومن الناحية الرياضية، يقوم التنظيم بتعديل دالة الخسارة الأصلية عن طريق إضافة حد جزائي يقلل من التعقيد (عادةً ما يكون ذلك في شكل أوزان "ترجيحات" كبيرة أو نماذج مرنة جدًا).

الهدف هو منع الإفراط في التجهيز، خاصة عند التعامل مع البيانات عالية الأبعاد أو المحدودة. عند تدريب نموذج التعلم الآلي، عادةً ما نقلل من دالة الخسارة مثل متوسط الخطأ التربيعي (MSE)

 RSS=∑i=1n(yi-yi^)2

باستخدام التنظيم، نضيف حدًا جزائيًا إلى هذا الهدف. 

تسوية L2 (الانحدار ريدج)

LossRidge=∑i=1n(yi-yi^)2+λ*Penalty

هنا،

حيث إن  λ   هي معلمة فائقة تتحكم في الموازنة بين تخصيص بيانات التدريب والحفاظ على بساطة النموذج.

وتضيف حدًا جزائيًا يتناسب مع مربع مقدار المعاملات. هذا يثبط الأوزان (الترجيحات) الكبيرة بشكل مفرط، مما يقلل من التباين. يضمن الحد الجزائي أن تكون للسمات (الخصائص) ذات القدرة التنبؤية المنخفضة قيم منخفضة، مما يقلل بشكل فعال من معاملات المعلمات.

تنظيم L1 (لاسو)

يشجع على التخفيف (الندرة):

 Losslasso = ∑i = 1n (yi-ŷi) 2 + λ ∑ j = 1p | βj |

يمكنه إزالة السمات (الخصائص) غير ذات الصلة تمامًا، مما يؤدي إلى تبسيط النموذج وبالتالي تقليل التباين. يضمن الحد الجزائي USD{\sum_{j=1}^{p} |\beta_j}USD تقليص السمات (الخصائص) غير المهمة إلى الصفر، مما يؤدي إلى إزالة هذه السمات (الخصائص) تمامًا.

طرق التجميع

تجمع طرق المجموعة بين نماذج متعددة لتقليل الخطأ عن طريق حساب متوسط انحراف التنبؤ الفردي. تتضمن هذه العملية دمج أو تكديس نماذج متعددة ذات تباين عالٍ معًا، بهدف الوصول إلى أفضل دقة ممكنة في التنبؤات. تشمل بعض الأمثلة ما يلي:

- التعبئة (مثل الغابات العشوائية) تقلل من التباين عن طريق حساب متوسط العديد من مقدِّرات التباين العالي المدربة على مجموعات فرعية مختلفة من البيانات.

- التعزيز (على سبيل المثال، xgBoost  وAdaBoost) يبني نموذج تعلم قويًا من خلال تصحيح أخطاء النماذج السابقة بالتتابع، وغالبًا ما يوازن بين تقليل التحيز أو التباين والضبط الدقيق.

ضبط المعلمات الفائق واختيار النموذج

عادةًً ما يُحدَّد تعقيد النموذج وقوة التنظيم من خلال المُعلمات الفائقة. ويمكن لأساليب مثل البحث الشبكي أو البحث العشوائي، بالاقتران مع التحقق المتبادل، أو التحسين البايزي أن تساعد في العثور على نموذج يحقق التوازن المطلوب بين التحيز والتباين في البيانات غير المرئية

تطبيقات الذكاء الاصطناعي الحديث

الموازنة بين التحيز والتباين ليست نظرية فقط. يمثل دورًا حساسًا في التعلم العميق وأنظمة الذكاء الاصطناعي واسعة النطاق. في العصر الحديث للذكاء الاصطناعي، يمثل اختيار بنية الشبكة العصبية دورًا حساسًا في إدارة الموازنة بين التحيز والتباين. إليك كيفية تنقل بنيتين أساسيتين - وهما شبكات CNN وشبكات RNN - في هذا التوازن عمليًا.

1. الشبكات العصبية (CNN): صُممت الشبكات العصبية خصيصًا للبيانات ذات البنية المكانية - الصور الأكثر شيوعًا. حيث تسمح لها سماتها البنيوية بتقليل التباين مع الحفاظ على التعبير الكافي للحفاظ على بقاء التحيز منخفضًا.

  • الحقول الاستقبالية المحلية (التلافيف): بدلًا من توصيل كل بكسل إدخال بكل خلية عصبية مخرجة (كما هو الحال في الشبكات المتصلة بالكامل)، تستخدم شبكات CNN مرشحات صغيرة (أنوية) تنزلق عبر الإدخالات. وهذا يفرض افتراض أن السمات المحلية مفيدة - تحيز نحو الموقع المكاني.
  • مشاركة الوزن: تتم إعادة استخدام كل مرشح (أو نواة) عبر الصورة بأكملها، مما يقلل بشكل كبير من عدد المعلمات القابلة للتدريب. وهذا يحد من الإفراط في التجهيز، ويقلل من التباين، لكنه يقدم بعض التحيز من خلال تقييد مرونة النموذج.
  • طبقات التجميع (على سبيل المثال، التجميع الأقصى): تلخص هذه الطبقات خرائط السمة وتقدم ثباتًا في الترجمة. وبينما يؤدي هذا إلى تقليل التباين عن طريق تجاهل التقلبات الطفيفة، إلا إنه قد يزيد من التحيز عن طريق تجاهل بعض التفاصيل التي يحتمل أن تكون مفيدة.
  • تعلّم السمات (الخصائص) الهرمية: تتعلم شبكات CNN من الحافات منخفضة المستوى إلى الأشكال عالية المستوى طبقة تلو طبقة. وهذا التحيز الاستقرائي متعدد الطبقات يسمح بالتعميم بأمثلة أقل؛ ويعد مفيدًا في المجالات شحيحة البيانات.

2. الشبكات العصبية المتكررة (RNN): صُممت هذه الشبكات العصبية المتكررة للبيانات المتسلسلة كالنصوص أو الكلام أو السلاسل الزمنية، حيث تعتمد المخرجات الحالية على العناصر السابقة. حيث إن تصميمها يسعى لتحقيق التوازن بين التبعيات طويلة المدى (التي تقلل من التحيز) واستقرار التدريب (الذي يتحكم في التباين).

  • مشاركة الوزن مع مرور الوقت: تستخدم شبكات RNN نفس المعلمات في كل خطوة زمنية، مما يؤدي إلى التحيز نحو الثبات في التسلسلات (بافتراض تكرار نفس النوع من الأنماط)، لكنه يقلل بشكل كبير من التباين عن طريق الحد من نمو المعلمات.
  • ذاكرة الإدخالات السابقة: تحتفظ شبكات RNN بالحالة المخفية h_t التي تلخص المعلومات السابقة. من الناحية النظرية، تسمح هذه الحالة للنموذج بتقليل التحيز من خلال نمذجة التبعيات طويلة المدى. ومع ذلك، من الناحية العملية، غالبًا ما تمنعهم التدرجات المتلاشية من تعلم العلاقات طويلة الأمد بشكل فعال، مما يزيد من التحيز.
  • المتغيرات مثل الذاكرة قصيرة المدى الطويلة (LSTM) والوحدة المتكررة ذات البوابات (GRU): تخفف هذه البنى من التدرجات المتلاشية باستخدام البوابات، مما يسمح بالاحتفاظ بالذاكرة بشكل أفضل مع مرور الوقت. ونتيجة لذلك، يمكنهم تقليل التحيز بشكل أكبر دون زيادة كبيرة في التباين.
  • ثبات التدريب والإفراط في التجهيز: شبكات RNN العميقة (العديد من الطبقات أو التسلسلات الطويلة) عرضة لضجيج التباين الزائد في تسلسلات التدريب. غالبًا ما تُستخدَم أساليب مثل الإسقاط وقطع التدرج والتسلسل للتحكم في ذلك.

الأساليب التي تتحكم في الموازنة

  • التسرب: تعمل هذه الطريقة على إيقاف تشغيل بعض الخلايا العصبية عشوائيًا خلال مرحلة التدريب، مما يضيف ضوضاء إلى الشبكة، وهذا يُلزم الشبكة بتعلم تمثيلات زائدة عن الحاجة، وهو ما يقلل من ظاهرة التجهيز المفرط، وبالتالي يقلل من التباين.
  • تطبيع الدُفعات: يساعد على استقرار التدريب وتسريعه، وغالبًا ما يقلل من التباين من خلال تحسين التجانس.
  • التوقف المبكر: يمنع الإفراط في التجهيز عن طريق إيقاف التدريب عندما تبدأ خسارة التحقق من الصحة في الزيادة.
  • نقل التعلّم: غالبًا ما تُعمَّم النماذج المدربة مسبقًا على مجموعات البيانات الكبيرة بشكل أفضل مع عدد أقل من المعلمات لتدريبها، مما يقلل من التباين في مجموعات البيانات الصغيرة.
  • قوانين القياس والملاحظات الحديثة: تظهر النتائج الحديثة في النماذج الكبيرة (مثل المحولات) أن زيادة البيانات والحوسبة وحجم النموذج تقلل من خطأ الاختبار - مما يشير إلى انخفاض التحيز بشكل أسرع من زيادة التباين في النماذج عالية السعة. ومع ذلك، يمكن أن يؤدي سوء التنظيم أو عدم كفاية البيانات إلى الإفراط في التكييف.

الأسس النظرية

دعنا نتعمق في الأسس الرياضية للمفاضلة بين التحيز والتباين. بالإشارة إلى المثال السابق، نهدف إلى تقليل الخطأ الكلي للقيم المتوقعة والقيم الفعلية. يتكون هذا الخطأ من ثلاثة عناصر: التحيز، والتباين، والخطأ غير القابل للاختزال. يمكننا تحليل خطأ التنبؤ التربيعي المتوقع للنموذج:

 f^(x)

مقارنة بالدالة الحقيقية: f(x)،

حيث يتم تعلم f ^ (x) من مجموعة بيانات التدريب D، وx هي الدالة الحقيقية (غير المعروفة).

دعنا:

 y=f(x)+ε,ε∼N(0,σ2)

هذا يعني أنه بالنسبة للدالة y=f(x)+ε، يتم توزيع الخطأ (المشار إليه ب ε) عادةً بمتوسط 0 وتباين σ2، وσ يشير إلى الانحراف المعياري للتوزيع

 f^(x) هي القيمة المتوقعة للنموذج عند الإدخال x

يتم أخذ التوقع (أو المتوسط) على مجموعات بيانات التدريب المختلفة  D  والضجيج  ε . يستخدم الرمز  E  للتعبير عن "التوقع" أو "القيمة المتوقعة"، وهي قيمة حقيقية لمتوسط التوزيع

نحن مهتمون بالخطأ المتوقع في التنبؤ عند نقطة واحدة  x :

 ED,ε[(y-f^(x))2]

بديل:

 y=f(x)+ε

لذا يصبح التعبير

 =ED,ε[(f(x)+ε-f^(x))2]

توسيع المربع:

 $=ED,ε[(f(x)-f^(x))2+2(f(x)-f^(x))ε+ε2]$

قسم التوقع باستخدام الخطية (الخطية هي مفهوم جبري بسيط، على سبيل المثال، E[A+B]=E[A]+E[B]):

 =ED[(f(x)-f^(x))2]+2ED,ε[(f(x)-f^(x))ε]+Eε[ε2]

الآن، ما دام:

 E[ε]=0⇒E[(f(x)-f^(x))ε]=0

 E[ε2]=σ2

فسنحصل على:

 ED[(f(x)-f^(x))2]+σ2

تحليل الحد الأول

الجمع والطرح 

ED[f^(x)] :

 ED[(f(x)-f^(x))2]=ED[(f(x)-ED[f^(x)]+ED[f^(x)]-f^(x))2]

دعنا:

 a=f(x)-ED[f^(x)]

 b=ED[f^(x)]-f^(x)

ثم:

 ED[(a+b)2]=a2+ED[b2]+2aED[b]

نظرًا لأن  ED[b]=0 ، فإن الحد المختلط (الحد المتقاطع) يختفي ونحصل على:

 =(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)])2]

تحلل التحيز والتباين النهائي:

ED,ε[(y-f^(x))2]=$$(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)])2]+σ2

هنا، الحد الأول هو  التحيز2 ، والحد الثاني هو  التباين ، والحد الثالث هو خطأ غير قابل للاختزال

وهذا يوضح أنه يمكن تحليل إجمالي خطأ التنبؤ المتوقع إلى:

- التحيز²: الخطأ الناجم عن الافتراضات الخاطئة في النموذج (على سبيل المثال، نموذج غير ملائم وبسيط جدًا)

- التباين: الخطأ الناتج عن الحساسية لبيانات التدريب (على سبيل المثال، نموذج مفرط التجهيز، معقد جدًا)

- الضجيج غير القابل للاختزال: العشوائية والخطأ الذي لا يمكن تجنبه في الملاحظات

الخاتمة والمزيد من القراءة

باختصار، يعد التحيز والتباين مصدرين أساسيين لخطأ التنبؤ في التعلم الآلي. وفهم هذه الموازنة مهم وليس مجرد تمرين نظري؛ فهو يؤدي بشكل مباشر إلى تشكيل كيفية تصميم نماذج التعلم الآلي والتدريب ونشرها عمليًا.

وسواء أكنت تختار بين نموذج خطي بسيط أم شبكة عصبية معقدة، فإن إدراك التوازن بين عدم التجهيز والإفراط في التجهيز أمر ضروري لبناء أنظمة ذكاء اصطناعي قوية. ورغم أننا ركزنا على متوسط الخطأ التربيعي (MSE) كدالة خسارة، فإن مفهوم هذه الموازنة ينطبق على نطاق كبير من التوزيعات ومقاييس الخطأ، مما يجعله مبدأً عالميًا في التعلم الخاضع للإشراف.

في السنوات الأخيرة، لاحظ الباحثون سلوكًا مثيرًا للاهتمام في النماذج الكبيرة والمفرطة في المعلمات مثل الشبكات العصبية. ورغم قدرتها العالية، إلا أن هذه النماذج غالبًا ما تُعمَّم بشكل جيد، حتى عندما تتناسب تمامًا مع بيانات التدريب، وهو ما يبدو تحديًا لإطار العمل التقليدي.

وقد تم استكشاف هذه الظاهرة المُحَيِّرة في الأدبيات العلمية؛ حيث قدمت ورقة بيلكين وآخرين لعام 2019، التي تحمل عنوان "التوفيق بين التعلم الآلي والموازنة بين التحيز والتباين"، مفهوم النزول المزدوج. وتم دعم هذا التفسير الهندسي لعملية التعميم لاحقًا في عمل بوبيك وآخرين بعنوان "قانون عالمي للمتانة عبر القياس المتساوي".

ومع استمرارنا في بناء أنظمة ذكاء اصطناعي أكثر قوة، يصبح من الضروري تعميق فهمنا لهذه الديناميكيات؛ ليس فقط بهدف تحسين الأداء، بل أيضًا لضمان قابلية تفسير سلوك النموذج، وضمان النزاهة، وتعزيز ممارسات الذكاء الاصطناعي المسؤولة.

