تؤدي زيادة العينات إلى زيادة عدد عينات البيانات في مجموعة البيانات الواحدة. ويهدف القيام بذلك إلى تصحيح البيانات غير المتوازنة وبالتالي تحسين أداء النموذج.
تُعدّ عملية زيادة عدد العينات، والمعروفة أيضًا باسم زيادة حجم العينات، تقنية لمعالجة البيانات وتحسينها، تهدف إلى تصحيح اختلال التوازن بين الفئات في مجموعة البيانات من خلال إضافة بيانات جديدة. تتم هذه العملية باستخدام عينات أصلية من فئات الأقلية حتى يصبح حجم جميع الفئات متساويًا. يحتوي كل من Python scikit-learn وMatlab على دوال مدمجة لتنفيذ تقنيات زيادة العينات.
غالبًا ما يتم الخلط بين زيادة عدد العينات في علوم البيانات وزيادة عدد العينات في معالجة الإشارات الرقمية (DSP). ورغم التشابه بينهما من حيث المفهوم، إلا أنهما يختلفان في التطبيق. وعلى غرار زيادة عدد العينات في علوم البيانات، فإن زيادة عدد العينات في معالجة الإشارات الرقمية (DSP) تعمل على إنشاء المزيد من العينات في مجال التردد انطلاقًا من إشارة الإدخال (وتحديدًا إشارة زمنية منفصلة) من خلال استيفاء معدلات أخذ عينات أعلى. يتم توليد هذه العينات الجديدة عن طريق إدخال أصفار في الإشارة الأصلية واستخدام مرشح تمرير منخفض للاستيفاء، وهذا يختلف عن طريقة زيادة عدد العينات المستخدمة في موازنة البيانات.
تختلف زيادة عدد العينات لموازنة البيانات أيضًا عن زيادة عدد العينات في معالجة الصور. ففي الحالة الأخيرة، يتم أولًا تقليل دقة الصور عالية الوضوح (عن طريق إزالة وحدات البكسل) لتسريع العمليات الحسابية، ثم تُستخدم الالتفافات لاستعادة الصورة إلى أبعادها الأصلية (عن طريق إضافة وحدات البكسل مجددًا).
يعد زيادة عدد العينات وسيلة فعالة لمعالجة حالات اختلال التوازن داخل مجموعة البيانات. ويتم تعريف مجموعة البيانات غير المتوازنة على أنها مجموعة بيانات تكون فيها إحدى الفئات ممثلة تمثيلًا ناقصًا بشكل كبير مقارنةً بالمجموعة الأصلية، مما يؤدي إلى حدوث تحيز غير مقصود. على سبيل المثال، افترض أن هناك نموذجًا تم تدريبه على تصنيف الصور إلى فئتين: قطة أو كلب. وكانت مجموعة البيانات المستخدمة تحتوي على 90% قطط و10% كلاب. سنلاحظ في هذا السيناريو أن القطط ممثلة تمثيلاً زائدًا، فإذا كان لدينا نموذج تصنيف يتنبأ دائمًا بالقطط، فسوف يحقق دقة بنسبة 90% لتصنيف القطط، ولكنه سيحقق دقة بنسبة 0% لتصنيف الكلاب. وستؤدي مجموعة البيانات غير المتوازنة في هذه الحالة إلى تحيز النماذج نحو فئة الأغلبية على حساب فئة الأقلية. وقد تنشأ المشكلة ذاتها مع مجموعات البيانات التي تحتوي على أكثر من فئتين.1
تعمل زيادة عدد العينات على معالجة مشكلة اختلال التوازن في مجموعة البيانات، حيث يتم إضافة نقاط بيانات مُولدة استنادًا إلى خصائص فئة الأقلية في المجموعة الأصلية. يساهم ذلك في موازنة مجموعة البيانات من خلال زيادة عدد العينات بشكل فعال لفئة الأقلية غير الممثلة بشكل كافٍ، حتى تصل نسبة العينات إلى مستوى متساوٍ عبر جميع الفئات.
على الرغم من أنه يمكن ملاحظة اختلال التوازن ببساطة من خلال رسم عدد نقاط البيانات في كل فئة، فإن ذلك لا يوضح ما إذا كان سيؤثر بشكل كبير على النموذج. ولكن لحسن الحظ، يمكننا استخدام مقاييس الأداء لقياس مدى نجاح تقنية زيادة عدد العينات في تصحيح اختلال التوازن بين الفئات. وتكون أغلبية هذه المقاييس مخصصة للتصنيف الثنائي، حيث توجد فئتان فقط: فئة موجبة وفئة سالبة. وعادةً ما تكون الفئة الموجبة هي فئة الأقلية، بينما تكون الفئة السالبة هي فئة الأغلبية. وهناك مقياسان شائعان للتقييم هما منحنى خاصية تشغيل المستقبِل (ROC) ومنحنى الاسترجاع الدقيق.1
أخذ العينات العشوائية الزائدة هو عملية تكرار عشوائي لنقاط البيانات في فئة الأقلية حتى يتساوى حجمها مع فئة الأغلبية.
على الرغم من تشابههما في طبيعتهما، إلا أن الزيادة العشوائية لعدد العينات تختلف عن التشغيل التمهيدي. التشغيل التمهيدي هو تقنية تعلم جماعية تعيد أخذ العينات من جميع الفئات. على النقيض من ذلك، تقوم الزيادة العشوائية لعدد العينات بإعادة أخذ العينات من فئة الأقلية فقط. وبالتالي، يمكن اعتبار الزيادة العشوائية لعدد العينات شكلاً أكثر تخصصًا من التشغيل التمهيدي.
على الرغم من بساطته، إلا أن الزيادة العشوائية لعدد العينات تنطوي على بعض القيود. نظرًا لأنها تعتمد فقط على إضافة نقاط بيانات مكررة، فقد يؤدي ذلك إلى الإفراط في التخصيص3. ومع ذلك، فإنها لا تزال تتمتع بالعديد من المزايا مقارنة بالطرق الأخرى، مثل سهولة التنفيذ، وعدم الحاجة إلى افتراضات معقدة بشأن البيانات، وانخفاض التعقيد الزمني بفضل خوارزميتها البسيطة2.
تمثل تقنية زيادة عدد عينات الأقلية الاصطناعية (SMOTE) إحدى تقنيات زيادة عدد العينات، وقد طُرحت لأول مرة عام 2002، حيث تقوم بتوليد نقاط بيانات جديدة استنادًا إلى النقاط الموجودة في فئة الأقلية4. تتألف هذه التقنية من العملية التالية:2
تعالج تقنية SMOTE مشكلة الإفراط في التخصيص الناتجة عن الزيادة العشوائية لعدد العينات من خلال إضافة بيانات جديدة غير مرئية مسبقًا إلى مجموعة البيانات بدلاً من مجرد تكرار البيانات الموجودة. لهذا السبب، يعتبر بعض الباحثين أن SMOTE هي تقنية أكثر كفاءة لزيادة عدد العينات مقارنةً بتقنية الزيادة العشوائية لعدد العينات.
من ناحية أخرى، يؤدي توليد نقاط البيانات الاصطناعية في تقنية SMOTE إلى إضافة تشويش إضافي إلى مجموعة البيانات، مما قد يجعل المصنف أقل استقرارًا1. كما أن النقاط الاصطناعية والتشويش الناتج عن تقنية SMOTE قد تؤدي بشكل غير مقصود إلى تداخل بين فئتي الأقلية والأغلبية لا يعكس الواقع، مما يؤدي إلى ما يُعرف بـ التعميم المفرط5.
يستخدم أحد المكونات الإضافية الشائعة، Borderline SMOTE، لمعالجة مشكلة الضوضاء في البيانات الاصطناعية وإنشاء نقاط بيانات أكثر صعوبة. تشير نقاط البيانات الأكثر صعوبة إلى النقاط القريبة من حد القرار، مما يجعل تصنيفها أكثر تعقيدًا. وتعد هذه النقاط الصعبة أكثر فائدة للنموذج أثناء عملية التعلم2.
تعمل تقنية Borderline SMOTE على تحديد نقاط فئة الأقلية القريبة من عدد كبير من نقاط فئة الأغلبية وتضعها في مجموعة DANGER. تمثل نقاط مجموعة DANGER بيانات يصعب تعلمها، وذلك لأنها أكثر تعقيدًا في التصنيف مقارنة بالنقاط المحاطة فقط بنقاط فئة الأقلية. تستبعد هذه العملية النقاط التي يكون جميع جيرانها الأقرب من فئة الأغلبية، حيث تُعتبر تشويشًا. بعد ذلك، تواصل خوارزمية SMOTE عملها كالمعتاد باستخدام مجموعة DANGER3.
تتشابه طريقة أخذ العينات الاصطناعية التكيفية (ADASYN) مع Borderline SMOTE من حيث أنها تولد بيانات أكثر تعقيدًا يصعب على النموذج تعلمها، لكنها تسعى أيضًا إلى الحفاظ على توزيع بيانات فئة الأقلية6. يتم ذلك عن طريق إنشاء توزيع مُرجح لجميع نقاط الأقلية استنادًا إلى عدد أمثلة فئة الأغلبية في نطاقها. بعد ذلك، تعتمد التقنية بشكل أكبر على نقاط فئة الأقلية الأقرب إلى فئة الأغلبية عند توليد بيانات جديدة.
تسير العملية على النحو التالي:2
تعمل زيادة البيانات على توليد بيانات جديدة من خلال توليد تنوعات من البيانات الأصلية. تُستخدم زيادة البيانات في مجموعة متنوعة من مجالات التعلم الآلي.
يتمثل الشكل الأساسي الأكثر بساطة لزيادة البيانات في تحويل المدخلات الأولية لمجموعة البيانات. على سبيل المثال، في رؤية الكمبيوتر، يمكن استخدام زيادات الصور مثل القص، والتمويه، والانعكاس وغيرها لإنشاء المزيد من الصور التي يمكن للنموذج تصنيفها. وبالمثل، يمكن استخدام زيادة البيانات أيضًا في مهام معالجة اللغة الطبيعية، مثل استبدال الكلمات بمرادفاتها أو إنشاء جمل مكافئة دلاليًا.
وجد الباحثون أن زيادة البيانات تعزز دقة النموذج بشكل فعال في مهام رؤية الكمبيوتر ومعالجة اللغة الطبيعية، لأنها تضيف بيانات مماثلة بتكلفة منخفضة. ومع ذلك، من المهم مراعاة بعض التحذيرات قبل تنفيذ هذه التقنيات. في الزيادات الهندسية التقليدية، يجب التأكد من "سلامة" التحويلات قبل تطبيقها. على سبيل المثال، دوران صورة الرقم "9" قد يجعلها تبدو مثل الرقم "6"، مما يؤدي إلى تغيير معناها الدلالي7.
تمحورت التطورات الحديثة في تقنيات زيادة عدد العينات حول امتدادات SMOTE والتعلم العميق. تهدف هذه الأساليب إلى تحسين أداء النماذج ومعالجة بعض أوجه القصور المرتبطة بزيادة عدد العينات، مثل التحيز المُدخل في توزيع فئة الأقلية.
تشمل بعض التطورات في تقنية SMOTE ما يُعرف باسم تقنية SMOTE المعتمدة على احتمالية التنبؤ بفئة الأقلية (MPP-SMOTE)، والتي تزيد عدد العينات استنادًا إلى الاحتمالات المقدرة لظهور كل عينة من فئة الأقلية8. كما تم اقتراح تقنية زيادة عدد العينات الحدّية متعددة التصنيفات (MLBOTE) لتوسيع نطاق تقنية SMOTE ليشمل تصنيف الفئات المتعددة9. وقد تفوقت كلتا التقنيتين على جميع إصدارات تقنية SMOTE الأخرى، مع الحفاظ على الأنماط الأصلية في البيانات.
تم استخدام الشبكات العصبية أيضًا في تطوير تقنيات زيادة عدد العينات. وقد أثارت الشبكات التوليدية التنافسية (GANs) اهتمامًا ملحوظًا، حيث حققت نتائج واعدة، إلا أن زمن التدريب الأطول يجعل هذه التقنية أبطأ مقارنةً بطرق زيادة عدد العينات التقليدية10.
لقد استطلعنا آراء 2000 مجموعة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.
IBM Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية والدرابزين.
اطّلع على كتالوجنا الشامل الذي يضم أكثر من 100 دورة تدريبية عبر الإنترنت من خلال شراء اشتراك فردي أو متعدد المستخدمين اليوم، سيتيح لك هذا توسيع نطاق مهاراتك عبر مجموعة من منتجاتنا، وكل ذلك بسعر واحد مُغرٍ.
وقد صُمم المنهج، الذي يقوده كبار قادة الفكر لدى IBM، لمساعدة قادة الأعمال على اكتساب المعرفة اللازمة لتحديد أولويات استثمارات الذكاء الاصطناعي التي يمكن أن تدفع عجلة النمو.
هل ترغب في زيادة عائد استثماراتك في الذكاء الاصطناعي؟ تعرّف على كيفية تأثير توسيع نطاق الذكاء الاصطناعي التوليدي في المجالات الرئيسية، من خلال مساعدة أفضل العقول لديك على وضع حلول مبتكرة جديدة وطرحها.
تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك
تعمّق في العناصر الثلاثة ذات الأهمية البالغة لإستراتيجية الذكاء الاصطناعي القوية: إنشاء ميزة تنافسية، وتوسيع نطاق الذكاء الاصطناعي عبر الأعمال، وتطوير الذكاء الاصطناعي الجدير بالثقة.
1 Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (محتوى الرابط موجود خارج موقع ibm.com). (1,2,10)
2 Kumar Abishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023, https://www.packtpub.com/product/machine-learning-for-imbalanced-data/9781801070836 (محتوى الرابط موجود خارج موقع ibm.com). (3,4,6,8,9,12,14-17)
3 Kumar Abishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023, https://www.packtpub.com/product/machine-learning-for-imbalanced-data/9781801070836 (محتوى الرابط موجود خارج موقع ibm.com). Alberto Fernandez, et al., Learning from Imbalanced Data Sets, 2018.
4 Nitesh Chawla, et al., SMOTE: Synthetic Minority Over-sampling Technique, JAIR, 01 June 2002, https://www.jair.org/index.php/jair/article/view/10302 (محتوى الرابط موجود خارج موقع ibm.com).
5 Kumar Abishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023. Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (محتوى الرابط موجود خارج موقع ibm.com).
6 Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.
7 Connor Shorten and Taghi Khoshgoftaar, A survey on Image Data Augmentation for Deep Learning, Springer, 06 July 2019**,** https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0 (محتوى الرابط موجود خارج موقع ibm.com).
8 Zhen Wei, Li Zhang, and Lei Zhao, Minority prediction probability based oversampling technique for imbalanced learning, Science Direct, 06 December 2022, https://www.sciencedirect.com/science/article/abs/pii/S0020025522014578?casa_token=TVVIEM3xTDEAAAAA:LbzQSgIvuYDWbDTBKWb4ON-CUiTUg0EUeoQf9q12IjLgXFk0NQagfh0bU3DMUSyHL_mjd_V890o (محتوى الرابط موجود خارج موقع ibm.com).
9 Zeyu Teng, et al., Multi-label borderline oversampling technique, ScienceDirect, 14 September 2023, https://www.sciencedirect.com/science/article/abs/pii/S0031320323006519?casa_token=NO8dLh60_vAAAAAA:AWPCvCP8PQG43DvkQFChZF2-3uzB1GJBBtgPURevWe_-aR0-WTbLqOSAsiwxulNAuh_4mIDZx-Y (محتوى الرابط موجود خارج موقع ibm.com).
10 Justin Engelmann and Stefan Lessmann, Conditional Wasserstein GAN-based oversampling of tabular data for imbalanced learning, 15 July 2021, ScienceDirect, https://www.sciencedirect.com/science/article/abs/pii/S0957417421000233?casa_token=O0d1BtspA8YAAAAA:n2Uv3v2yHvjl9APVU9V_13rQ9K_KwT0P__nzd6hIngNcZJE-fmQufDgR6XT1uMmDBHx8bLXPVho (محتوى الرابط موجود خارج موقع ibm.com). Shuai Yang, et al., Fault diagnosis of wind turbines with generative adversarial network-based oversampling method, IOP Science, 12 January 2023, https://iopscience.iop.org/article/10.1088/1361-6501/acad20/meta (محتوى الرابط موجود خارج موقع ibm.com).