ما المقصود بتسرّب البيانات في التعلم الآلي؟

مؤلف

IBM Writer

Gather

ما المقصود بتسرّب البيانات في التعلم الآلي؟؟

يحدث تسرُّب البيانات في التعلم الآلي عندما يستخدم النموذج معلومات أثناء التدريب لن تكون متاحةً في وقت التنبؤ. يؤدي التسرّب إلى ظهور النموذج التنبؤي وكأنه دقيق إلى أن يتم نشره في بيئة الاستخدام الفعلية؛ حينها يُنتج نتائج غير دقيقة تؤدي إلى قرارات خطأ ورؤى مضللة.

الهدف من النمذجة التنبؤية هو إنشاء نموذج تعلُّم آلي قادر على تقديم تنبؤات دقيقة باستخدام بيانات مستقبلية من الواقع الفعلي، وهي بيانات لا تكون متاحة أثناء تدريب النموذج. لتجنب النتائج غير الدقيقة، يجب عدم تقييم النماذج بناءً على البيانات نفسها التي تم تدريبها عليها. لذا، عادةً ما يعمل عالم البيانات على تقسيم البيانات المتاحة إلى مجموعتين: واحدة لتدريب النموذج والأخرى للتحقق من مدى جودة أداء النموذج على البيانات غير المرئية.

الرسالة الإخبارية الخاصة بالمجال

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

أمثلة تسرّب البيانات وأنواعه

يحدث تسرب البيانات عندما تُستخدم بيانات من خارج مجموعة التدريب في إنشاء النموذج، بينما لن تكون هذه البيانات المستقبلية متاحة عند استخدام النموذج للتنبؤ. سيعمل النموذج بشكل جيد في الاختبار والتحقق من الصحة، ولكن عند استخدامه في الإنتاج، يصبح غير دقيق تمامًا.

هناك نوعان من التسرّب: تسرّب الهدف وتلوث بيانات التدريب والاختبار.

تسرّب الهدف: تتضمن النماذج بيانات لن تكون متاحة عند استخدام النموذج لتقديم تنبؤات.

استخدام معلومات لن تكون متاحة أثناء التنبؤات في العالم الحقيقي يؤدي إلى الإفراط في التخصيص، حيث يعمل النموذج بشكل ممتاز على بيانات التدريب والتحقق، لكنه يقدِّم أداءً ضعيفًا في بيئة الإنتاج.

تلوث بيانات التدريب والاختبار: يحدث عندما تُستخدَم بيانات التدريب والتحقق معًا في إنشاء النموذج، وغالبًا ما يكون ذلك نتيجة تقسيم أو معالجة مسبقة غير صحيحة.

مثال على تسرّب الهدف

على سبيل المثال، تخيَّل نموذجًا تم إنشاؤه للتنبؤ بعمليات الاحتيال في بطاقات الائتمان. تمثل هذه المشكلة مصدر قلق في تطبيقات التنبؤ، حيث يجب على النماذج تقديم تنبؤات مستقبلية موثوق بها استنادًا إلى بيانات غير مكتملة. ستحتوي مجموعة البيانات غير المنسقة على معلومات عن العميل ومبلغ المعاملة والموقع وما إذا تم اكتشاف عملية احتيال وما إذا تم استرداد المبلغ.

أثناء تدريب النموذج، ستحتوي أعمدة كشف الاحتيال واسترداد المبلغ على قيم صواب أو خطأ. في الواقع، يبدأ استرداد المبلغ عادةً بعد اكتشاف الاحتيال، لذا فإن هذه المعلومة لن تكون متاحة في وقت الكشف.

تدريب النموذج باستخدام هذه المعلومة يجعله يتعلم أن المعاملات التي تتضمن استردادًا للمبلغ تكون غالبًا احتيالية. أثناء التحقق، سيُظهر النموذج دقة عالية لأن العلاقة بين الاحتيال واسترجاع المبالغ كانت قوية خلال التدريب. ومع ذلك، فإن معلومات استرجاع المبلغ لن تكون متاحة عند نشر النموذج، ما سيؤدي إلى ضعف أدائه في الواقع.

مثال على تلوث بيانات التدريب والاختبار

تخيّل عالِم بيانات يعمل على بناء نموذج للتنبؤ بأسعار المنازل استنادًا إلى ميزات مثل مساحة المنزل وعدد غرف النوم والمنطقة السكنية. تُعَد عملية توحيد مقاييس الميزات العددية (مثل مساحة المنزل والعمر) خطوة شائعة في المعالجة المسبقة، وهي مفيدة للعديد من خوارزميات التعلم الآلي.

ولكن لنفترض أن عالِم البيانات طبَّق عملية التوحيد القياسي على مجموعة البيانات بالكامل قبل تقسيمها إلى مجموعتَي التدريب والاختبار. في هذه الحالة، "سيرى" النموذج بشكل غير مباشر المعلومات من مجموعة الاختبار أثناء التدريب. نتيجةً لذلك، قد يبدو أداء النموذج على بيانات الاختبار مبالغًا فيه بشكل مصطنع بسبب استخدام معلومات مجموعة الاختبار في خطوة المعالجة المسبقة. هذا يجعل من السهل على النموذج أن يعمل بشكل جيد في مجموعة الاختبار ولكنه من المحتمل أن يقلل من قدرته على التعميم على البيانات الجديدة غير المرئية.

يجب تنفيذ خطوات المعالجة المسبقة مثل التحجيم أو الإكمال أو اختيار الميزات على بيانات التدريب فقط، ثم تطبيقها على مجموعة التحقق، بدلًا من تدريبها على مجموعة البيانات بالكامل قبل التقسيم. يمكن أن يؤدي الاستخدام الخطأ للمحولات مثل التحجيم أو التطبيع إلى تلوث بيانات التدريب والاختبار، خاصةً في نماذج الشبكات العصبية. عندما يتم تنفيذ خطوات المعالجة المسبقة بشكل غير صحيح على مجموعة البيانات بالكامل، فإن ذلك يؤدي إلى تنبؤات منحازة وإلى انطباع غير واقعي عن أداء النموذج.

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

شاهد جميع حلقات برنامج Mixture of Experts

أسباب تسرّب البيانات

يمكن أن يكون تسرّب البيانات خطأً يستغرق وقتًا طويلًا ويكلف ملايين الدولارات ويحدث التسرّب في التعلم الآلي بسبب مجموعة متنوعة من العوامل. وفيما يلي بعض الأسباب الشائعة:

إدراج المعلومات المستقبلية: يحدث عندما تُستخدم بيانات لن تكون متاحة في وقت التنبؤ في السيناريوهات الواقعية.

اختيار غير مناسب للميزات: يحدث عند اختيار ميزات ترتبط إحصائيًا بالهدف ولكنها ليست مرتبطة به سببيًا. يتعلم النموذج الاستفادة من معلومات لن تتوفر له أثناء التنبؤات الواقعية.

تلوث البيانات الخارجية: يمكن أن يؤدي دمج مجموعات بيانات خارجية مع بيانات التدريب إلى تنبؤات منحازة أو غير دقيقة، إذ قد تحتوي البيانات الخارجية على معلومات مباشرة أو غير مباشرة عن المتغيّر المستهدف.

أخطاء المعالجة المسبقة للبيانات: يحدث التقسيم غير الصحيح للبيانات عند تحجيم البيانات قبل تقسيمها إلى مجموعتَي التدريب والتحقق من الصحة أو عند ملء القيم المفقودة بمعلومات من مجموعة البيانات بأكملها. قد يكون هذا الأمر مشكلة أكثر وضوحًا في نماذج التعلم العميق، حيث غالبًا ما تتطلب معالجة مسبقة واسعة، ما يجعل من الضروري تجنُّب الخلط بين بيانات التدريب والاختبار.

التحقق المتقاطع غير الصحيح: عند إجراء التحقق المتقاطع على مجموعة بيانات تعتمد على الزمن، إذا تم تضمين نقاط بيانات من المستقبل، يحصل النموذج على معلومات ينبغي ألا يمتلكها، ما يؤدي إلى تقييمات مبالغ فيها.

التطبيع: تؤدي تحويلات البيانات، مثل ميزات التحجيم أو التطبيع، عند تطبيقها بشكل غير صحيح على كل من بيانات التدريب والاختبار معًا، بدلًا من تطبيقها بشكل منفصل، إلى تسرّب البيانات.

التسرّب بسبب التحقق وتغييرات العمليات: يمكن أن يؤدي تغيير طريقة إجراء التحقق إلى حدوث تسرّب، من خلال إدخال معلومات جديدة إلى مجموعة التدريب. قد يؤدي تعديل العملية أثناء التنفيذ، مثل إعادة إجراء التحقق المتقاطع أو إعادة تقسيم البيانات بعد تعديل النماذج، إلى تسرّب المعلومات إلى عملية التدريب بشكل غير مقصود.

تأثير تسرّب البيانات في نماذج التعلم الآلي

يُعَد تسرّب البيانات من المشكلات الشائعة عند تدريب خوارزميات التعلم الآلي لأغراض النمذجة التنبؤية. وجدت دراسة أجرتها المكتبة الوطنية للطب¹ أن ما لا يقل عن 294 ورقة علمية تأثَّرت بتسرّب البيانات عبر 17 مجالًا علميًا مختلفًا تم تطبيق أساليب التعلم الآلي فيها، ما أدى إلى تقييم أداء متفائل بشكل مبالغ فيه.

وجدت دراسة أجرتها جامعة ييل² أن تسرّب البيانات قد يؤدي إلى تضخيم أو تقليل مؤشرات أداء النماذج القائمة على التصوير العصبي، اعتمادًا على إذا ما كانت المعلومات المسرّبة تُدخل ضوضاءً أو تُنشئ أنماطًا غير واقعية. تُستخدَم هذه النماذج لتشخيص الأمراض بهدف تحديد العلاجات، ومساعدة علماء الأعصاب على تكوين فهم أفضل للعلاقة بين الدماغ والجسم.

يمكن أن يترك تسرّب البيانات في نماذج التعلم الآلي تأثيرات مختلفة عبر مجالات وأنواع بيانات متعددة، وفيما يلي أبرزها:

ضعف التعميم على بيانات جديدة: عندما يتم تدريب النموذج على معلومات لا تمثِّل الواقع، سيواجه صعوبة في التعميم على البيانات غير المرئية. قد تكون التنبؤات المتعلقة بالبيانات الجديدة غير دقيقة وغير موثوق بها.

اتخاذ قرارات متحيزة: يمكن أن تؤدي الانحيازات في البيانات المسرّبة إلى تشويه سلوك النموذج، ما ينتج عنه قرارات غير عادلة وغير متوافقة مع الواقع.

رؤى ونتائج غير موثوق بها: يؤدي تسرّب البيانات إلى تقويض موثوقية الرؤى المستخلصة من النموذج، ما يدفع المستخدمين إلى عدم الثقة في النتائج.

تضخيم مقاييس الأداء: غالبًا ما يؤدي تسرّب البيانات في نماذج التعلم الآلي إلى ظهور النموذج بدقة وفاعلية عالية بشكل زائف.

إهدار الموارد: يستغرق العثور على تسرّب البيانات وإصلاحه بعد تدريب النموذج وقتًا طويلًا ومكلفًا. يتطلب إصلاح تسرّب البيانات إعادة تدريب النماذج من الصفر، وهو أمر مكلِّف حسابيًا، وإعادة تصميم مسار النموذج بأكمله، من المعالجة المسبقة للبيانات وحتى إعادة التدريب، ما قد يكون مستهلكًا للموارد من حيث الجهد البشري والتكاليف الحاسوبية.

فقدان الثقة: تؤدي النماذج غير الموثوق بها في نهاية المطاف إلى فقدان الثقة في فِرَق علم البيانات والعملية التحليلية بشكل عام.

المخاطر القانونية ومخاطر الامتثال: يمكن أن يؤدي تسرّب البيانات في التحليلات التنبؤية إلى مخاطر قانونية وتنظيمية. إذا تمت إساءة استخدام المعلومات الحساسة، فقد يؤدي ذلك إلى عقوبات وإلحاق الضرر بالسمعة.

اكتشاف تسرّب البيانات في التعلم الآلي

يتطلب اكتشاف تسرّب البيانات أن تكون المؤسسات على دراية بكيفية إعداد النماذج ومعالجتها، ويستلزم وضع استراتيجيات صارمة للتحقق من سلامة نماذج التعلم الآلي. فيما يلي بعض أفضل الممارسات التي يجب وضعها في الاعتبار فيما يتعلق بإنشاء النماذج واكتشاف تسرّب البيانات:

التحضير: يجب تقسيم البيانات بشكل صحيح ويجب تطبيق خطوات المعالجة المسبقة على مجموعة بيانات التدريب فقط. يجب مراجعة جميع الميزات للمساعدة على التأكد من أنها لا تمثِّل معلومات مستقبلية أو غير متوفرة أثناء التنبؤ.

البحث: بعد تدريب النموذج، يتم البحث في الأنماط المشبوهة التي قد تشير إلى وجود تسرّب. تتم مراجعة أهمية الميزات وسلوك النموذج للكشف عن أي علاقات غير واقعية.

الاختبار: يتم اختبار نموذج محدود باستخدام بيانات العالم الواقعي. ثم تتم مراقبة الأداء في سيناريوهات العالم الحقيقي؛ إذا انخفض الأداء بشكل كبير، فقد يشير ذلك إلى حدوث تسرّب أثناء التدريب.

فيما يلي بعض العلامات التحذيرية الشائعة للكشف عن تسرّب البيانات:

أداء مرتفع بشكل غير معتاد: إذا أظهر النموذج دقة أو فاعلية أو استرجاعًا أعلى بكثير من المتوقع، خاصةً على بيانات التحقق، فقد يكون ذلك مؤشرًا على تسرّب البيانات.

التناقضات بين أداء التدريب وأداء الاختبار: تُعَد الفجوة الكبيرة بين الأداء في مجموعة التدريب ومجموعة الاختبار علامة على أن النموذج قد يكون مفرطًا في التخصيص بسبب التسرّب.

نتائج التحقق المتقاطع غير المتسقة: إذا تفاوتت مؤشرات الأداء بشكل كبير بين طيات التحقق المتقاطع أو بدت مرتفعة بشكل غير معتاد، فقد يكون السبب هو تلوث بيانات التدريب والاختبار أو التقسيم غير الصحيح للبيانات.

سلوك غير متوقع للنموذج: إذا اعتمد النموذج بشكل كبير على ميزات لا تبدو منطقية، فقد يكون ذلك مؤشرًا على تسرّب البيانات.

تقنيات التقييم المناسبة

يمكن تقليل تسرّب البيانات بطرق مختلفة ويتم استخدام العديد من الأدوات لحماية سلامة النموذج. يساعد التحقق المتقاطع، خاصةً في السلاسل الزمنية أو k-fold المصنَّفة، على تقييم النماذج بشكل صحيح ويسلِّط الضوء على احتمالية تسرّب البيانات. في النماذج اللغوية الكبيرة (LLMs)، يُعَد التحقق المتقاطع وإدارة البيانات بشكل صارم أمرًا أساسيًا لتجنُّب تدريب النموذج على بيانات قد يواجهها لاحقًا أثناء الاستدلال، ما قد يقوِّض قدرته على التعامل مع مدخلات جديدة. استخدام مجموعة احتياطية (hold-out set) منفصلة لا يتم لمسها في أثناء التدريب يوفر حماية إضافية ضد تسرّب البيانات.

يمكن أن تكشف أهمية الميزات إذا كان النموذج يعتمد على بيانات لن تكون متاحة أثناء التنبؤات. يمكن أن يكشف تصوُّر البيانات وتنبؤات النموذج عن أنماط أو حالات شاذة تدل على تسرّب البيانات. كما يجب على خبراء المجال فحص النموذج لتحديد إذا ما كان يستخدم بيانات غير واقعية أو غير متاحة، ما يساعد على كشف الميزات الإشكالية.

منع تسرّب البيانات في التعلم الآلي

لمنع تسرّب البيانات، يجب على المؤسسات المشاركة في معالجة دقيقة للبيانات والتقييم المنهجي. وفيما يلي بعض الممارسات الأساسية:

المعالجة المسبقة للبيانات: لمنع تسرّب المعلومات بين المجموعات، يجب تطبيق خطوات المعالجة المسبقة مثل التحجيم أو إكمال القيم المفقودة بشكل منفصل لمجموعات التدريب والاختبار. يجب إجراء المعالجة المسبقة مثل التحجيم والترميز والإكمال بشكل منفصل لمجموعات التدريب والاختبار، وأتمتة المسارات عندما يكون ذلك ممكنًا.

تقسيم البيانات بشكل صحيح: تقسيم مجموعتي التدريب والاختبار بشكل سليم. يضمن تقسيم التدريب/الاختبار المخطط له بعناية حماية معلومات مجموعة الاختبار من التسرّب إلى مرحلة التدريب. بالنسبة للبيانات المعتمدة على الزمن، يتم تقسيمها حسب الترتيب الزمني لمنع دخول البيانات المستقبلية إلى مرحلة التدريب. للتحقق من تسرّب البيانات، يتم الاحتفاظ بمجموعة تحقق منفصلة وواضحة لم تُستخدم أثناء التدريب، وتمثِّل بيانات العالم الواقعي.

التحقق المتقاطع: يتم استخدم k-fold للتحقق من النموذج على عدة مجموعات فرعية من البيانات، ما يساعد على اكتشاف التسرّب المحتمل ويحسِّن قدرة النموذج على التعميم.

هندسة الميزات: تجنُّب إنشاء ميزات تؤدي إلى إدخال بيانات مستقبلية. مراجعة الميزات المشتقة للتأكد من أنها تعكس فقط ما سيكون متاحًا في وقت التنبؤ. تقييم مدى ملاءمة الميزات بانتظام للتأكد من ملاءمتها وعدم تقديم معلومات غير متوفرة في وقت التنبؤ.

التحقق القائم على الزمن: بالنسبة للبيانات الزمنية، يتم استخدام التحقق الزمني لمحاكاة أداء النموذج في العالم الواقعي. يساعد هذا على ضمان استخدام البيانات السابقة للتنبؤ بالنتائج المستقبلية وتجنُّب تسرّب البيانات في المستقبل. يجب التعامل مع بيانات السلاسل الزمنية بحذر، باستخدام أساليب مثل التحقق بالنافذة المتحركة (rolling window validation) أو التحقق التدريجي (walk-forward validation) لتجنُّب تسرب البيانات المستقبلية أثناء التدريب.

التقييم الدوري للنموذج: تجب مراقبة الأداء باستمرار أثناء التدريب والاختبار لاكتشاف أي تغييرات غير متوقعة قد تُشير إلى تسرّب البيانات.

تسرّب البيانات في منع فقدان البيانات

هناك تعريف آخر لتسرّب البيانات لا علاقة له بالتعلم الآلي، بل يشير إلى التعرض غير المقصود للبيانات من منظور أمن البيانات. يحدث تسرّب البيانات في منع فقدان البيانات (DLP) عندما تتعرض المعلومات الحساسة عن غير قصد لأطراف غير مصرّح لها. على سبيل المثال، قد يسمح خادم التخزين السحابي الذي تم تكوينه بشكل خاطئ بالوصول السهل إلى معلومات التعريف الشخصية (PII) والأسرار التجارية.

أكثر المصادر شيوعًا لتسرّب البيانات تنشأ عن الأخطاء البشرية، مثل فقدان الموظف لجهاز الكمبيوتر المحمول الخاص به أو مشاركة معلومات حساسة عبر البريد الإلكتروني ومنصات المراسلة. يمكن للمتسللين استخدام البيانات المكشوفة لارتكاب سرقة الهوية أو سرقة تفاصيل بطاقة الائتمان أو بيع البيانات على الشبكة الخفية.

أطلق العنان لقوة الذكاء الاصطناعي التوليدي والتعلم الآلي (ML)

تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك

الموارد

طوِّر مستوى خبرتك في التعلم الآلي

تعلّم المفاهيم الأساسية وطوّر مهاراتك من خلال المختبرات العملية والدورات التدريبية والمشاريع الموجهة والتجارب وغيرها.

أطلق العنان لقوة الذكاء الاصطناعي التوليدي والتعلم الآلي (ML)

تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك

التفعيل المثمر للذكاء الاصطناعي: جني الأرباح وعائد الاستثمار باستخدام الذكاء الاصطناعي التوليدي

هل ترغب في زيادة عائد استثماراتك في الذكاء الاصطناعي؟ تعرّف على كيفية تأثير توسيع نطاق الذكاء الاصطناعي التوليدي في المجالات الرئيسية، من خلال مساعدة أفضل العقول لديك على وضع حلول مبتكرة جديدة وطرحها.

كيفية اختيار نموذج الأساس المناسب

تعرّف على كيفية اختيار نموذج أساس الذكاء الاصطناعي الأكثر ملاءمة لحالة الاستخدام الخاصة بك.

استكشف IBM Granite

IBM Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية والدرابزين.

كيف تزدهر في عصر الذكاء الاصطناعي الجديد بثقة وثبات

تعمّق في العناصر الثلاثة الهامة لاستراتيجية الذكاء الاصطناعي القوية: إنشاء ميزة تنافسية، وتوسيع نطاق الذكاء الاصطناعي عبر الأعمال، وتطوير الذكاء الاصطناعي الجدير بالثقة.

تقرير AI in Action

لقد قمنا باستطلاع آراء 2000 مؤسسة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.

حلول ذات صلة

IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai

حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي

الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي

اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai

احجز عرضًا توضيحيًا مباشرًا

الحواشي

Leakage and the reproducibility crisis in machine-learning-based science, NIH.gov, 4 Aug 2023
Data ‘leaks’ can sink machine learning models, Yale.edu, 28 February 2024