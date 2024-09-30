يحدث تسرب البيانات عندما تُستخدم بيانات من خارج مجموعة التدريب في إنشاء النموذج، بينما لن تكون هذه البيانات المستقبلية متاحة عند استخدام النموذج للتنبؤ. سيعمل النموذج بشكل جيد في الاختبار والتحقق من الصحة، ولكن عند استخدامه في الإنتاج، يصبح غير دقيق تمامًا.

هناك نوعان من التسرّب: تسرّب الهدف وتلوث بيانات التدريب والاختبار.

تسرّب الهدف: تتضمن النماذج بيانات لن تكون متاحة عند استخدام النموذج لتقديم تنبؤات.

استخدام معلومات لن تكون متاحة أثناء التنبؤات في العالم الحقيقي يؤدي إلى الإفراط في التخصيص، حيث يعمل النموذج بشكل ممتاز على بيانات التدريب والتحقق، لكنه يقدِّم أداءً ضعيفًا في بيئة الإنتاج.

تلوث بيانات التدريب والاختبار: يحدث عندما تُستخدَم بيانات التدريب والتحقق معًا في إنشاء النموذج، وغالبًا ما يكون ذلك نتيجة تقسيم أو معالجة مسبقة غير صحيحة.