يؤدي تقليل عدد العينات إلى تقليل عدد العينات البيانات في مجموعة البيانات. ويهدف القيام بذلك إلى تصحيح اختلال توازن البيانات، مما يسهم في تحسين أداء النموذج.
تقليل العينات طريقة شائعة لمعالجة البيانات حيث إنها تعالج حالات عدم التوازن في مجموعة البيانات بإزالة البيانات من فئة الأغلبية بحيث تتطابق مع حجم فئة الأقلية. وهذا يتعارض مع طريقة زيادة العينات، التي تتضمن إعادة ترتيب نقاط فئة الأقلية. تحتوي كل من مكتبة scikit-Learn في Python و Matlab على دوال مدمجة لتنفيذ تقنيات تقليل العينات.
غالبًا ما يتم الخلط بين تقليل العينات في علم البيانات وتقليل العينات في معالجة الإشارات الرقمية (DSP). وإن كانا متشابهين في المضمون. تقليل العينات لمعالجة الإشارات الرقمية (المعروف أيضًا باسم تخفيف البيانات) هو عملية تنقيص النطاق الترددي ومعدل التردد النموذجي في وحدة ضبط التردد، وبالتالي إزالة بعض البيانات الأصلية من الإشارة الأصلية. وغالبًا ما يتم إجراء عملية تقليل تردد أخذ العينات عن طريق تقليل معدل التردد النموذجي بعامل صحيح معين، مع الاحتفاظ بواحد فقط من كل nth عينة. يتم ذلك عن طريق استخدام مرشح التردد المنخفض، المعروف أيضًا باسم مرشح منع التعرج، لتقليل مكونات التردد/التشوش العالية لإشارة زمنية منفصلة بواسطة عامل العدد الصحيح المذكور مسبقًا.
يمكن أيضًا الخلط بين تقليل عدد العينات لموازنة البيانات وتقليل عدد العينات لمعالجة الصور. عندما تحتوي البيانات على الكثير من الميزات، كما هو الحال في صور التصوير بالرنين المغناطيسي عالية الدقة، يمكن أن تصبح العمليات الحسابية باهظة الثمن. يعمل تقليل عدد العينات في معالجة الصور على خفض الأبعاد لكل نقطة بيانات من خلال التلافيف. وهذا يختلف عن موازنة مجموعة البيانات: فهو أسلوب تحسين يستلزم لاحقًا استخدام الاستيفاء لاستعادة البيانات الأصلية.
يعد تقليل عدد العينات وسيلة فعالة لمعالجة حالات اختلال التوازن داخل مجموعة البيانات. ويتم تعريف مجموعة البيانات غير المتوازنة على أنها مجموعة بيانات تكون فيها إحدى الفئات ممثلة تمثيلًا ناقصًا بشكل كبير مقارنةً بالمجموعة الأصلية، مما يؤدي إلى حدوث تحيز غير مقصود. على سبيل المثال، افترض أن هناك نموذجًا تم تدريبه على تصنيف الصور إلى فئتين: قطة أو كلب. وكانت مجموعة البيانات المستخدمة تحتوي على 90% قطط و10% كلاب. سنلاحظ في هذا السيناريو أن القطط ممثلة تمثيلاً زائدًا، فإذا كان لدينا نموذج تصنيف يتنبأ دائمًا بالقطط، فسوف يحقق دقة بنسبة 90% لتصنيف القطط، ولكنه سيحقق دقة بنسبة 0% لتصنيف الكلاب. وستؤدي مجموعة البيانات غير المتوازنة في هذه الحالة إلى تحيز النماذج نحو فئة الأغلبية على حساب فئة الأقلية. وقد تنشأ المشكلة ذاتها مع مجموعات البيانات التي تحتوي على أكثر من فئتين.1
تساعد عملية تقليل عدد العينات في معالجة مشكلة اختلال التوازن في مجموعة البيانات. حيث إنها تحدد نقاط فئة الأغلبية المراد إزالتها استنادًا إلى معايير محددة. ويمكن أن تتغير هذه المعايير وفقًا لأسلوب تقليل عدد العينات المختار. ويؤدي ذلك إلى موازنة مجموعة البيانات عن طريق خفض عدد العينات في فئة الأغلبية الممثلة تمثيلًا زائدًا، حتى تحتوي مجموعة البيانات على توزيع متساوٍ للنقاط عبر جميع الفئات.
على الرغم من أنه يمكن ملاحظة اختلال التوازن ببساطة من خلال رسم عدد نقاط البيانات في كل فئة، فإن ذلك لا يوضح ما إذا كان سيؤثر بشكل كبير على النموذج. ولكن لحسن الحظ، يمكننا استخدام مقاييس الأداء لقياس مدى نجاح تقنية تقليل عدد العينات في تصحيح اختلال التوازن بين الفئات. وتكون أغلبية هذه المقاييس مخصصة للتصنيف الثنائي، حيث توجد فئتان فقط: فئة موجبة وفئة سالبة. وعادةً ما تكون الفئة الموجبة هي فئة الأقلية، بينما تكون الفئة السالبة هي فئة الأغلبية. وهناك مقياسان شائعان للتقييم هما منحنى خاصية تشغيل المستقبِل (ROC) ومنحنى الاسترجاع الدقيق.1
التقليل العشوائي لعدد العينات هو أسلوب حذف يتم فيه اختيار نقاط عشوائية من فئة الأغلبية دون استبدال، ثم حذفها من مجموعة البيانات حتى يتساوى حجم فئة الأغلبية مع حجم فئة الأقلية. وهذه طريقة سهلة لحذف مجموعة فرعية من البيانات عشوائيًا لتحقيق التوازن. لكن قد تتسبب هذه الطريقة في فقدان أنماط أو توزيعات مهمة في فئة الأغلبية، مما يؤثر سلبًا على أداء المصنِّف.2
يعد تقليل عدد العينات بخوارزمية Near Miss أسلوبًا يهدف إلى تحقيق التوازن في توزيع الفئات عن طريق الإزالة العشوائية لبعض عينات من فئة الأغلبية.
من الناحية النظرية، تعمل خوارزمية Near Miss بمبدأ ضرورة الاحتفاظ بالبيانات في الأماكن التي تكون فيها فئتا الأغلبية والأقلية متقاربتين جدًا، حيث توفر لنا هذه الأماكن معلومات أساسية للتمييز بين الفئتين.3 تُعرف هذه النقاط عمومًا بأنها نقاط بيانات يصعب على النموذج تعلّمها. يعمل تقليل عدد العينات باستخدام خوارزمية Near Miss بوجه عام على خطوتين:
توجد ثلاثة إصدارات مختلفة من خوارزمية Near Miss، التي توفر طريقة أكثر دقة لاختيار مثيلات فئة الأغلبية التي يجب إزالتها.
يسعى أقرب الجيران المكثفين (اختصارًا CNN، ولا ينبغي الخلط بينه وبين الشبكات العصبية التلافيفية) إلى العثور على مجموعة فرعية من مجموعة بيانات يمكن استخدامها للتدريب دون خسارة في أداء النموذج. يتم تحقيق ذلك من خلال تحديد مجموعة فرعية من البيانات التي يمكن استخدامها لتدريب نموذج قادر على التنبؤ الصحيح بمجموعة البيانات بأكملها.
يمكن تقسيم عملية تقليل عدد العينات بأسلوب الجار الأقرب المكثف إلى الخطوات التالية:5
على نحو مماثل لخوارزمية Near Miss، تزيل هذه العملية بشكل أساسي جميع مثيلات فئة الأغلبية البعيدة عن حدود القرار، والتي كما سبق ووضحنا تعد نقاطًا يسهل تصنيفها. كما أنها تضمن إمكانية التنبؤ بكل البيانات الموجودة في مجموعة بياناتنا الأصلية بشكل صحيح باستخدام البيانات الموجودة داخل S فقط. وبهذه الطريقة، يمكن تقليص حجم مجموعة البيانات بدرجة كبيرة مع الحفاظ على حدود القرار بشكل معقول.
تعرض هذه الصورة مثالاً لتطبيق أقرب جيران مكثفين باستخدام عدد 1 من أقرب جيران وعدد 21 من أقرب جيران على مجموعتين من البيانات. والصورتان العلويتان تمثلان البيانات قبل تطبيق أقرب الجيران المكثفين، في حين أن الصورتين السفليتين توضحان النتيجة بعد التطبيق. وكما هو واضح، فإن حدود القرار لا تزال محفوظة بشكل جيد إلى حد معقول.
الافتراض الأساسي الذي يتبعه أسلوب تقليل عدد العينات بطريقة Tomek Link هو تقليل التشويش في البيانات عن طريق إزالة النقاط القريبة من حدود القرار وزيادة الفصل بين الفئات. وتتمثل كيفية عمل هذه الطريقة في أنها تحدد "روابط توميك" (Tomek Links)؛ وهي عبارة عن زوج من النقاط ينتمي كل منهما إلى فئة مختلفة، دون وجود نقطة ثالثة أقرب إلى أي منهما.2
وفي جميع روابط توميك (Tomek Links)، يتم حذف النقطة الموجودة ضمن فئة الأغلبية. وعن طريق إزالة نقطة فئة الأغلبية القريبة من نقطة فئة الأقلية، يزداد الفصل بين الفئات. من بين عيوب هذه الطريقة التعقيد الحسابي المرتبط بحساب جميع المسافات الزوجية بين نقاط فئتي الأغلبية والأقلية.2 وتظهر فاعلية تقليل عدد العينات بطريقة Tomek Link بشكل أكبر عند دمجها مع طرق أخرى.
تقليل عدد العينات بطريقة أقرب الجيران المحرَّرة (ENN) يشبه تقليل عدد العينات بطريقة Tomek Link، حيث يكون الهدف هو إزالة الأمثلة القريبة من حدود القرار لزيادة الفصل بين الفئات. وبوجه عام، تعمل هذه الطريقة على إزالة نقاط البيانات التي تختلف في فئتها عن غالبية النقاط المجاورة لها.2 وهذا يعني أن العملية تزيل نقاط بيانات فئة الأغلبية التي تنتمي أغلبية أقرب جيرانها إلى فئة الأقلية، والعكس صحيح. في هذا السياق، يمكن تحديد مفهوم الأغلبية بحرية: فقد يشير إلى وجود جار واحد على الأقل ينتمي إلى فئة مختلفة، أو إلى تجاوز نسبة الجيران في فئة مختلفة حدًا معينًا.
وعادةً ما يتم إجراء تقليل عدد العينات بطريقة أقرب الجيران المحرَّرة (ENN) مع أقرب 3 جيران، كما هو موضح أدناه.
تُعد هذه الطريقة استراتيجية أكثر شمولًا لأنها تنظر إلى المنطقة المجاورة العامة للنقاط بدلاً من التركيز على جار واحد فقط، لكنها تظل طريقة فعالة للتخلص من التشويش داخل البيانات. ويكون تقليل عدد العينات بطريقة أقرب الجيران المحرَّرة (ENN) أكثر فاعلية عند دمجه مع طرق أخرى.
تدور التطورات الحالية في تقليل عدد العينات حول تكامل التعلم العميق. وقد تم تطبيق هذا النهج في مجالات مثل معالجة الصور والبيانات الطبية، حيث تُستخدم الشبكات العصبية لتقليل عدد العينات في البيانات.6 أحد الأمثلة على ذلك هو SOM-US، الذي يستخدم شبكة عصبية مكونة من طبقتين.7 وفي السنوات الأخيرة، تم تطبيق التعلم النشط على تقليل عدد العينات في محاولة للتخفيف من آثار عدم توازن البيانات.8 وقد أظهرت التجارب أن هذه النماذج تحقق أداءً أفضل بكثير من التقنيات التقليدية.
تدور الأبحاث الحالية في تقليل عدد العينات أيضًا حول دمجها مع تقنيات أخرى لإنشاء أساليب هجينة. إحدى هذه التقنيات هو دمج تقليل عينات البيانات مع زيادة عدد العينات للحصول على فوائدهما معًا. تشمل بعض الأمثلة على ذلك: SMOTE + Tomek Link والتجميع الهرمي التكتلي ("AHC") و SPIDER.9 يمكن أن تتضمن التقنيات القائمة على مستوى الخوارزمية أيضًا أفكارًا من تقنيات تقليل عدد العينات التقليدية، مثل تقنية Hard Example Mining حيث يركز التدريب فقط على نقاط البيانات "الأصعب".2 وقد أظهرت جميع هذه التقنيات أداءً أفضل مقارنة باستخدام كل تقنية بمفردها.
لقد استطلعنا آراء 2000 مجموعة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.
IBM Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية والدرابزين.
اطّلع على كتالوجنا الشامل الذي يضم أكثر من 100 دورة تدريبية عبر الإنترنت من خلال شراء اشتراك فردي أو متعدد المستخدمين اليوم، سيتيح لك هذا توسيع نطاق مهاراتك عبر مجموعة من منتجاتنا، وكل ذلك بسعر واحد مُغرٍ.
وقد صُمم المنهج، الذي يقوده كبار قادة الفكر لدى IBM، لمساعدة قادة الأعمال على اكتساب المعرفة اللازمة لتحديد أولويات استثمارات الذكاء الاصطناعي التي يمكن أن تدفع عجلة النمو.
1 Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (محتوى الرابط موجود خارج موقع ibm.com).
2 Kumar Abhishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023
3 Ajinkya More, Survey of resampling techniques for improving classification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 (محتوى الرابط موجود خارج موقع ibm.com).
4 Jianping Zhang and Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, 2003, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf (محتوى الرابط موجود خارج موقع ibm.com).
5 More, Survey of resampling techniques for improving calssification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 (محتوى الرابط موجود خارج موقع ibm.com). Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.
6 Md Adnan Arefeen, Sumaiya Tabassum Nimi, and M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 02 September 2020, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg (محتوى الرابط موجود خارج موقع ibm.com).
7 Ajay Kumar, SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem, hrcak, 30 January 2024, https://hrcak.srce.hr/clanak/454006 (محتوى الرابط موجود خارج موقع ibm.com).
8 Wonjae Lee and Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 26 April 2022, https://www.sciencedirect.com/science/article/pii/S2214579622000089 (محتوى الرابط موجود خارج موقع ibm.com).
9 Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com