تحقيق التوازن بين الإفراط في التخصيص والقصور في التخصيص

11 ديسمبر 2024

وقت القراءة

المؤلفين

Tim Mucci

Writer

Gather

مقارنة بين الإفراط في التخصيص والقصور في التخصيص

عند قيام علماء البيانات والمهندسين بتدريب نماذج التعلم الآلي (ML)، فإنهم يخاطرون باستخدام خوارزمية بسيطة للغاية بحيث لا تتمكن من اكتشاف الأنماط الأساسية في البيانات، مما يؤدي إلى القصور في التخصيص، أو استخدام خوارزمية معقدة جدًا، مما يؤدي إلى الإفراط في التخصيص. يُعد التعامل مع الإفراط في التخصيص والقصور في التخصيص تحديًا أساسيًا في مهام سير عمل علوم البيانات وتطوير أنظمة الذكاء الاصطناعي الموثوقة.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

التحيز والتباين في التعلم الآلي

التحيز والتباين يفسران التوازن الذي يجب أن يحققه المهندسون لضمان تخصيصًا جيدًا لنماذج التعلم الآلي. لهذا السبب، تُعتبر المفاضلة بين التحيز والتباين أمرًا أساسيًا لمعالجة القصور في التخصيص والإفراط في التخصيص.

يُظهر النموذج المتحيّز افتراضات قوية حول بيانات التدريب لتبسيط عملية التعلم، مما يجعله يتجاهل التفاصيل الدقيقة أو التعقيدات التي لا يستطيع معالجتها. أما التباين، فيشير إلى حساسية النموذج تجاه التقلبات في بيانات التدريب.

تتضمن أمثلة النماذج عالية التحيز خوارزميات الانحدار الخطي أو أشجار القرار السطحية، والتي تفترض وجود علاقات خطية أو ثنائية بسيطة حتى عندما تكون أنماط البيانات أكثر تعقيدًا.

استخدام نموذج الانحدار الخطي مع بيانات تحتوي على علاقة تربيعية سيؤدي إلى القصور في التخصيص، لأن النموذج الخطي لا يمكنه اكتشاف الانحناء المتأصل في البيانات. ونتيجة لذلك، سيكون أداء النموذج ضعيفًا على مجموعة التدريب والبيانات غير المرئية في الاختبار، لأنه لا يمكنه التعميم بشكل جيد على البيانات الجديدة.

التعميم هو قدرة النموذج على فهم الأنماط المكتسبة وتطبيقها على بيانات غير مرئية. تميل النماذج ذات التباين المنخفض إلى القصور في التخصيص لأنها تكون بسيطة جدًا بحيث لا تستطيع اكتشاف الأنماط المعقدة. ومع ذلك، قد تعاني النماذج ذات التحيز المنخفض من الإفراط في التخصيص إذا كانت مرنة للغاية.

يشير التباين العالي إلى أن النموذج قد يجمع الضوضاء والتفاصيل العشوائية والفروق الدقيقة غير الجوهرية في بيانات التدريب. تتميز النماذج عالية التباين بالمرونة المفرطة، مما يؤدي إلى انخفاض خطأ التدريب، ولكن عند اختبارها على بيانات جديدة، تفشل الأنماط المكتسبة في التعميم، مما يؤدي إلى زيادة خطأ الاختبار

.

تخيل أنك تحفظ إجابات اختبار معين بدلاً من فهم المفاهيم التي تمكنك من التوصل إلى الإجابات بنفسك. إذا كان الاختبار مختلفًا عما درسته، فستواجه صعوبة في الإجابة على الأسئلة. تحقيق التوازن بين التباين والتحيز هو العامل الرئيسي لتحقيق أداء مثالي في نماذج التعلم الآلي.

كيفية التعرف على الإفراط في التخصيص والقصور في التخصيص

القواعد 

  • الإفراط في التخصيص: يكون الخطأ التدريبي منخفضًا جدًا، لكن الخطأ في الاختبار أعلى بشكل ملحوظ.
  • القصور في التخصيص: تكون الأخطاء مرتفعة بشكل مستمر عبر بيانات التدريب والاختبار.

يؤدي النموذج الذي يعاني من الإفراط في التخصيص إلى تحقيق دقة عالية على بيانات التدريب، لكنه يفشل في تعميم المعرفة، مما يؤدي إلى انخفاض الدقة عند التعامل مع بيانات جديدة، نتيجة لحفظ الأنماط بدلاً من تعلّمها. يحدث الإفراط في التخصيص عندما يستخدم المهندسون نموذج تعلّم آلي يحتوي على عدد كبير جدًا من المعلمات أو الطبقات، مثل الشبكة العصبية الخاصة بالتعلم العميق، مما يجعله متكيفًا للغاية مع بيانات التدريب.

عند تدريب النموذج على مجموعة بيانات صغيرة أو مشوشة، فإنه يصبح معرضًا لخطر حفظ نقاط بيانات محددة والضوضاء بدلاً من تعلم الأنماط العامة. وإذا احتوت البيانات على أخطاء أو تناقضات، فقد يتعلمها النموذج بشكل غير صحيح على أنها أنماط ذات مغزى.

يبحث المهندسون عن فجوة في الأداء بين التدريب والاختبار، ولكن يمكنهم أيضًا اكتشاف الإفراط في التخصيص من خلال منحنيات التعلم، حيث ينخفض فقدان التدريب تدريجيًا نحو الصفر بينما يزداد فقدان التحقق، مما يشير إلى ضعف التعميم.

من العلامات الأخرى على الإفراط في التخصيص هي حدود القرار، وهي القواعد التي يتعلمها النموذج لتصنيف نقاط البيانات. تصبح حدود القرار معقدة للغاية وغير منتظمة في النماذج التي تعاني من الإفراط في التخصيص، حيث تتكيف مع الضوضاء في مجموعة البيانات التدريبية بدلاً من اكتشاف الأنماط الأساسية الحقيقية، مما يشير بشكل أكبر إلى الإفراط في التخصيص.

بالإضافة إلى ذلك، يمكن أن تؤدي مجموعات البيانات عالية الأبعاد إلى الإفراط في التخصيص بسبب ما يُعرف باسم "لعنة الأبعاد" (Curse of Dimensionality). فمع زيادة عدد الميزات، تصبح نقاط البيانات منخفضة الكثافة، مما يجعل من الصعب على النماذج اكتشاف أنماط ذات مغزى، ويؤدي ذلك إلى زيادة التباين وارتفاع خطر الإفراط في التخصيص.

النموذج الذي يعاني من القصور في التخصيص يُظهر أداءً ضعيفًا على كل من بيانات التدريب وبيانات الاختبار لأنه يفشل في اكتشاف الأنماط السائدة في مجموعة البيانات. يمكن للمهندسين عادةً تحديد القصور في التخصيص من خلال الأداء الضعيف المستمر عبر مجموعتي البيانات.

تميل النماذج التي تعاني من القصور في التخصيص أيضًا إلى إظهار أخطاء مرتفعة في منحنيات التعلم، وتحقق مقاييس تقييم غير مثالية، كما تُظهر أنماط متبقية منهجية، وكل ذلك يشير إلى عدم قدرة النموذج على تعلّم العلاقات الأساسية في البيانات بشكل فعال.

يحدث القصور في التخصيص في التعلم الآلي غالبًا بسبب نماذج بسيطة للغاية، أو هندسة ميزات ضعيفة، أو تنظيم مفرط يقيّد مرونة النموذج بشكل كبير. وبالمثل، يمكن أن تؤدي اختيارات الميزات غير المناسبة—مثل إغفال مصطلحات التفاعل أو الميزات متعددة الحدود—إلى منع النموذج من فهم العلاقات المخفية في البيانات. كما يمكن أن يساهم الإعداد المسبق غير الكافي للبيانات، أو وقت التدريب غير الكافي، أو نقص البيانات اللازمة لتدريب النموذج في حدوث القصور في التخصيص.

أمثلة على الإفراط في التخصيص والقصور في التخصيص

الإفراط في التخصيص

نموذج التشخيص الطبي حيث يتم تدريب نموذج التعلم الآلي على تصنيف الصور الطبية على أنها "صحيح" أو "مريض" باستخدام مجموعة بيانات صغيرة. يحفظ النموذج صور التدريب، محققًا دقة شبه مثالية، لكنه يؤدي أداءً ضعيفًا على الصور الجديدة لأنه تعلم الضوضاء أو الأنماط العشوائية في بيانات التدريب بدلاً من ميزات الأمراض العامة.

توقع سعر السهم يستخدم النموذج المالي شبكة عصبية معقدة ذات معلمات عديدة للتنبؤ بأسعار الأسهم. فبدلاً من تعلم الاتجاهات أو الأنماط، يجمع النموذج التقلبات العشوائية في البيانات التاريخية، مما يؤدي إلى تنبؤات تدريبية عالية الدقة ولكن أداءه ضعيف عند اختباره على أسعار الأسهم المستقبلية.

التنبؤ بمغادرة العملاء يتضمن نموذج الاحتفاظ بالعملاء عدد كبير جدًا من الميزات المحددة، مثل البيانات الديموغرافية التفصيلية، ما يتسبب في الإفراط في تخصيص بيانات التدريب. يواجه النموذج صعوبة في التعميم وتحديد الأنماط عبر الفئات الديموغرافية المختلفة عند تطبيقه على قاعدة عملاء أوسع.

القصور في التخصيص

التنبؤ بأسعار المساكن يتنبأ نموذج الانحدار الخطي بأسعار المنازل بناءً على المساحة بالقدم المربع فقط. فشل النموذج في حساب الميزات المهمة الأخرى، مثل الموقع، أو عدد غرف النوم، أو عمر المنزل، مما يؤدي إلى ضعف الأداء في التدريب واختبار البيانات.

التنبؤ بالطقس يستخدم النموذج مجموعة صغيرة من الميزات البسيطة، مثل متوسط درجة الحرارة والرطوبة للتنبؤ بهطول الأمطار. فشل النموذج في جمع العلاقات الأكثر تعقيدًا، مثل الأنماط الموسمية أو التفاعلات بين العوامل الجوية المختلفة، مما يؤدي إلى انخفاض الدقة باستمرار.

التعرّف على الصور يتم استخدام شجرة قرار سطحية لتصنيف صور القطط والكلاب. نظرًا لبساطتها، فإنها تفشل في التمييز بين النوعين، مما يؤدي إلى ضعف الأداء في التدريب على الصور والصور الجديدة غير المرئية.

كيف تتجنب الإفراط في التخصيص والقصور في التخصيص

تقوم خوارزميات التعلم الآلي بتدريب النماذج على التعرف على الأنماط في البيانات، مما يمكّن المهندسين من استخدامها في التنبؤ بالنتائج المستقبلية استنادًا إلى مدخلات غير مرئية. يؤدي ضبط المعلمات الفائقة دورًا رئيسيًا في تحقيق التوازن بين الإفراط في التخصيص والقصور في التخصيص، مما يضمن أن النموذج التنبئي يمكنه التعميم بفعالية على بيانات جديدة.

باستخدام المعلمات الفائقة، يمكن للمهندسين ضبط معدل التعلم، وقوة التنظيم، وعدد الطبقات في الشبكة العصبية، أو العمق الأقصى لشجرة القرار. يساعد الضبط الصحيح لهذه المعلمات في منع النموذج من أن يكون صارمًا جدًا أو مفرط التكيف مع البيانات.

الإفراط في التخصيص

التنظيم

تُستخدم تقنيات التنظيم في نماذج الانحدار أو إسقاط الوحدات في الشبكات العصبية كإحدى أساليب التعلم الآلي، حيث تمنع النموذج من الاعتماد المفرط على أي ميزة فردية أو التكيف مع الضوضاء في بيانات التدريب.

تشمل الأنواع الشائعة من التنظيم L1 الذي يشجع على التباعد عن طريق تقليص بعض المعاملات إلى الصفر و L2 الذي يقلل من حجم جميع المعاملات لجعل النموذج أبسط وأكثر قابلية للتعميم. يساعد التنظيم النموذج على التركيز على الأنماط الأساسية بدلاً من حفظ البيانات.

زيادة البيانات

يُعد تعزيز البيانات استراتيجية فعالة، خاصة في مهام رؤية الكمبيوتر، حيث يساعد التوسيع الاصطناعي لمجموعة البيانات التدريبية—من خلال قلب الصور أو تدويرها أو اقتصاصها—على تحسين قدرة النموذج على التعميم. كما أن تبسيط النموذج عبر تقليل عدد المعلمات أو الطبقات في الشبكة العصبية يحد من قدرته على حفظ تفاصيل بيانات التدريب، مما يقلل من خطر الإفراط في التخصيص.

التحقق المتقاطع K-fold

يمكن للمهندسين استخدام تقنيات مثل التحقق المتقاطع باستخدام K-Fold لتقييم قدرة النموذج على التعميم. تقوم هذه التقنية بتقسيم البيانات إلى مجموعات فرعية، حيث يتم تدريب النموذج على بعضها واختباره على البقية.

وبالمثل، يمكن للمهندسين استخدام مجموعة التحقق، وهي جزء من بيانات التدريب التي سيتم الاحتفاظ بها كبيانات غير مرئية لتوفير وسيلة إضافية لتقييم أداء التعميم. ثم يتم حساب متوسط نتائج التقييم للحصول على درجة أداء إجمالية.

أُطُر التقييم

بالإضافة إلى هذه التقنيات، تُعد أطر تقييم النماذج القوية ضرورية لضمان قدرة نموذج التعلم الآلي على التعميم بشكل جيد. تُعتبر التحقق المتقاطع المتداخل من أساليب التقييم المتقدمة، وهو مفيد بشكل خاص في ضبط المعلمات الفائقة. في التحقق المتقاطع المتداخل، يقوم التكرار الخارجي بتقسيم البيانات إلى مجموعات تدريب واختبار لتقييم قدرة النموذج على التعميم.

في الوقت نفسه، تقوم الحلقة الداخلية بضبط المعلمات الفائقة باستخدام بيانات التدريب، مما يساعد في ضمان أن عملية الضبط لا تؤدي إلى الإفراط في التخصيص لمجموعة التحقق. يعمل هذا النهج على فصل عملية تحسين المعلمات الفائقة عن تقييم النموذج، مما يوفر تقديرًا أكثر دقة لأداء النموذج على البيانات غير المرئية.

هناك إطار عمل فعال آخر يجمع بين تقسيم البيانات إلى تدريب واختبار مع الإيقاف المبكر لمراقبة فقدان التحقق أثناء التدريب. من خلال تقييم أداء النموذج على مجموعة تحقق مخصصة، يمكن للمهندسين إيقاف التدريب عندما يستقر الأداء أو يبدأ في التدهور، مما يساعد على منع الإفراط في التخصيص.

يجب أن تتضمن أطر التقييم أخذ عينات طبقية عند التعامل مع مشكلات التصنيف التي تحتوي على مجموعات بيانات غير متوازنة، وذلك لضمان احتفاظ كل تقسيم للبيانات بنفس توزيع الفئات كما في مجموعة البيانات الأصلية. يساعد هذا النهج على منع الإفراط في التخصيص للفئات الأكثر تمثيلًا، كما يوفر تقييمًا منصفًا لأداء النموذج على الفئات الأقل تمثيلًا.

طرق التجميع

طرق التجميع، مثل التجميع (Bagging) والتعزيز (Boosting)، تعتمد على دمج نماذج متعددة لتقليل نقاط الضعف الفردية وتحسين قدرة النموذج على التعميم. على سبيل المثال، تُعد الغابات العشوائية إحدى تقنيات التجميع الشائعة، حيث تساعد في تقليل الإفراط في التخصيص من خلال تجميع التنبؤات من عدة أشجار قرار، مما يحقق توازنًا أكثر فعالية بين التحيز والتباين.

القصور في التخصيص

نماذج أكثر تعقيدا

لمعالجة القصور في التخصيص، يلجأ المهندسون غالبًا إلى زيادة تعقيد النموذج لالتقاط الأنماط الأساسية في البيانات بشكل أفضل. على سبيل المثال، يمكن أن يساعد التحول من الانحدار الخطي إلى الانحدار متعدد الحدود في الحالات التي تكون فيها العلاقة بين الميزات والمتغير المستهدف غير خطية. ومع ذلك، رغم أن النماذج الأكثر تعقيدًا قد تعالج نقص التخصيص، فإنها قد تتعرض للإفراط في التخصيص إذا لم يتم تنظيمها بشكل صحيح. 

التنظيم

يمكن أن يساعد تقليل عقوبات التنظيم في منح النموذج مرونة أكبر ليتكيف مع البيانات دون أن يكون مقيدًا بشكل مفرط. على سبيل المثال، تُستخدم معلمات L1 وL2 كأنواع من التنظيم للتحكم في تعقيد النموذج. حيث تضيف تقنية L1 (lasso) عقوبة لتشجيع النموذج على تحديد الميزات الأكثر أهمية فقط. في حين تساعد تقنية L2 (ridge) في توزيع الأهمية بشكل أكثر توازنًا عبر جميع الميزات.

هندسة الميزات

تؤدي هندسة الميزات واختيار الميزات دورًا مهمًا في إنشاء أو تحويل الميزات، مثل إضافة مصطلحات التفاعل، أو الميزات متعددة الحدود، أو ترميز المتغيرات الفئوية، وذلك لتزويد النموذج بمعلومات أكثر صلة.

وقت التدريب

إتاحة وقت تدريب أطول للنموذج عن طريق زيادة عدد الحلقات التدريبية يساعد على ضمان حصوله على فرصة كافية للتعلم من البيانات. تمثل الحلقة التدريبية مرورًا كاملاً واحدًا على مجموعة بيانات التدريب، ويسمح استخدام عدة حلقات للنموذج بتعلم الأنماط بشكل أكثر كفاءة.

يتم استخدام عدة حلقات تدريبية لتمكين النموذج من تعلم الأنماط في البيانات بشكل أكثر كفاءة. بالإضافة إلى ذلك، فإن زيادة حجم مجموعة بيانات التدريب تساعد النموذج على التعرف على أنماط أكثر تنوعًا، مما يقلل من خطر التبسيط المفرط ويحسن قدرته على التعميم.

جودة البيانات

من الناحية الشمولية، يجب على المهندسين تقييم بيانات التدريب للتأكد من دقتها واكتمالها واتساقها، ومقارنتها بمصادر موثوقة لمعالجة أي تناقضات. تساعد تقنيات مثل التطبيع—الذي يقوم بتحجيم القيم بين 0 و1—والتوحيد القياسي—الذي يقوم بتحجيم القيم إلى متوسط 0 وانحراف معياري 1—في ضمان عدم تفضيل النموذج لمتغيرات معينة على حساب أخرى بسبب اختلاف المقاييس.

مع مرور الوقت، قد تتغير توزيعات البيانات المدخلة - وهي الظاهرة المعروفة باسم انحراف البيانات - والتي قد تتسبب في القصور في تخصيص النماذج أو الإفراط في تخصيصها عند التعامل مع البيانات الجديدة. ولمواجهة هذا، فإن المراقبة المنتظمة وإعادة التدريب الدورية باستخدام مجموعات البيانات المحدثة أمر ضروري. كما يمكن أن تساعد إزالة القيمة الخارجية في منع النتائج المتحيزة وتعزيز قوة النموذج.

يمكن لأدوات مثل التعلم الآلي المؤتمت AutoML تبسيط العمليات بشكل أكبر من خلال أتمتة ضبط المعلمات الفائقة، واختيار الميزات، وإنشاء أُطُر تقييم النماذج، مما يتيح للمهندسين التركيز على الرؤى واتخاذ القرارات على مستوى أعلى.

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

تحقيق التخصيص الأمثل للنموذج

يتحقق التخصيص الأمثل للنموذج عندما يكون هناك توازن مثالي بين القصور في التخصيص والإفراط في التخصيص. يشير ذلك إلى نموذج قادر على جمع الأنماط الأساسية في البيانات بدقة دون أن يكون شديد الحساسية للضوضاء أو التقلبات العشوائية.

  • تتمحور المفاضلة بين تعقيد النموذج وقدره على التعميم حول إيجاد التوازن الصحيح بين أن يكون النموذج بسيطًا للغاية أو معقدًا للغاية.
  • يجب أن يوازن المهندسون بين التحيز والتباين لضمان تحقيق الأداء الأمثل للنموذج. ومن بين الطرق لتحقيق ذلك تتبع منحنيات التعلم، والتي تعرض أخطاء التدريب والتحقق بمرور الوقت.
  • يساعد تحليل مقاييس التحقق مثل الدقة، والإتقان، والاسترجاع، أو متوسط الخطأ التربيعي في تقييم مدى قدرة النموذج على التعميم على البيانات غير المرئية.
  • يحقق النموذج المخصص جيدًا توازنًا دقيقًا بين تعقيد النموذج، وكمية بيانات التدريب، وتقنيات التنظيم، مما يمكّنه من التعميم بشكل جيد على البيانات الجديدة وتقديم تنبؤات دقيقة.

الاعتبارات الخاصة بالمجال في التركيب غير المناسب والتجهيز الزائد

تؤدي المعرفة بالمجال دورًا مهمًا في معالجة القصور في الخصيص والإفراط في التخصيص، حيث تساعد المهندسين على تخصيص النموذج وفقًا للخصائص المحددة للمشكلة المطروحة. غالبًا ما تحتوي مجموعات البيانات في العالم الحقيقي على ضوضاء أو اختلالات أو تناقضات.

وتساعد إدارة البيانات الفعالة، مثل التقسيم المناسب للبيانات والمعالجة المسبقة، في التخفيف من مشكلات التخصيص. ويساعد فهم سياق البيانات المهندسين على اتخاذ قرارات مدروسة بشأن المعالجة المسبقة، واختيار الميزات، وتصميم النموذج للحصول على نموذج مدرّب بشكل جيد. على سبيل المثال:

  • المعالجة المسبقة للبيانات: تساعد الخبرة بالمجال المهندسين على تحديد خطوات تنظيف البيانات الضرورية، مثل إزالة الميزات غير ذات الصلة، أو معالجة القيم المفقودة، أو تطبيع البيانات. على سبيل المثال، في مجال الرعاية الصحية، يساهم ضمان تمثيل دقيق للبيانات الديموغرافية للمرضى وسجلاتهم الطبية في تحسين كفاءة النموذج.
  • اختيار الميزات: تساعد المعرفة بالمجال في تحديد الميزات الأكثر صلة بالمهمة، مما يقلل من الضوضاء ويحسن أداء النموذج. على سبيل المثال، في القطاع المالي، قد تكون المؤشرات الرئيسية مثل أسعار الفائدة أو اتجاهات السوق أكثر تنبؤية من سجلات المعاملات الأولية.
  • تصميم النموذج: يمكن أن تساهم الرؤى المتخصصة بالمجال في اختيار الخوارزميات أو البُنى المعمارية المناسبة. على سبيل المثال، في مهام التعرف على الصور، تُعتبر الشبكات العصبية التلافيفية (CNNs) الخيار الأمثل، بينما في تحليل السلاسل الزمنية، قد تكون الشبكات العصبية المتكررة (RNNs) أو نماذج المحولات أكثر كفاءة.

تحقيق التوازن بين الإفراط في التخصيص والقصور في التخصيص يمكن المهندسين من تحديد النطاق الأمثل حيث ينتقل نموذج التعلم الآلي من البساطة المفرطة إلى التعميم الفعّال دون أن يصبح معقدًا بشكل مفرط. يتيح النموذج المتوازن جيدًا التنبؤ بمغادرة العملاء عبر شرائح ديموغرافية متنوعة، وتصنيف الصور الطبية بدقة رغم اختلاف جودة البيانات، والتنبؤ بأسعار الأسهم من خلال جمع اتجاهات السوق دون الإفراط في التقلبات العشوائية.

تؤدي الإدارة الفعالة للمفاضلة بين التحيز والتباين إلى تطوير نماذج قادرة على تعلّم الأنماط في البيانات بدقة، مع الحفاظ على المرونة اللازمة للتكيف مع البيانات غير المعروفة. من خلال تحقيق هذا التوازن، يمكن لعلماء البيانات إنشاء حلول قوية من الناحية التقنية وذات تأثير فعلي في التطبيقات الواقعية.