ما هو اختيار السمات؟

18 مارس 2025

المؤلفين

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

يشير اختيار السمات إلى عملية اختيار أكثر السمات صلةً من مجموعة بيانات لاستخدامها أثناء بناء وتدريب نموذج تعلم آلي (ML). من خلال تقليص مساحة السمات إلى مجموعة مختارة، يحسن اختيار السمات من أداء نموذج الذكاء الاصطناعي مع تقليل متطلباته الحسابية.

تشير "السمة" إلى خاصية أو مَعلَمة قابلة للقياس مرتبطة بنقطة بيانات معينة: سمة محددة للبيانات تساعد في وصف الظاهرة الجاري ملاحظتها. على سبيل المثال، قد تتضمن مجموعة بيانات حول الإسكان سمات مثل "عدد غرف النوم" و"سنة البناء".

يُعد اختيار السمات جزءًا من عملية هندسة السمات، حيث يقوم علماء البيانات بتحضير البيانات وتجميع مجموعة السمات لخوارزميات التعلم الآلي. ويُركز اختيار السمات تحديدًا على عملية اختيار السمات التي ستُستخدم داخل النموذج.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

فوائد اختيار السمات

تعمل عملية اختيار السمات على تبسيط النموذج عبر تحديد السمات الأهم والأكثر تأثيرًا وغير المتكررة ضمن مجموعة البيانات. ويؤدي تقليل عدد السمات إلى تحسين كفاءة النموذج وزيادة أدائه.

ومن فوائد اختيار السمات ما يلي: 

  • أداء أفضل للنموذج: تُضعف السمات غير ذات الصلة أداء النموذج. وبالعكس، فإن اختيار المجموعة الصحيحة من السمات يجعل النموذج أكثر دقة، وأكثر تحديدًا، ويمنحه قدرة استرجاع أفضل. تؤثر سمات البيانات على كيفية ضبط النماذج للأوزان أثناء التدريب، مما يؤدي بدوره إلى تحسين الأداء. ويختلف ذلك عن ضبط المعلمات الفائقة، الذي يتم قبل بدء التدريب.  

  • تقليل الإفراط في التخصيص (Overfitting): يحدث الإفراط في التخصيص عندما يفشل النموذج في التعميم خارج بيانات التدريب الخاصة به. يساعد إزالة السمات الزائدة في تقليل الإفراط في التخصيص، مما يجعل النموذج أكثر قدرة على التعميم عند التعامل مع بيانات جديدة.

  • تقليل زمن التدريب: من خلال التركيز على مجموعة أصغر من السمات، تستغرق الخوارزميات وقتًا أقل للتدريب. ويمكن لمطوّري النماذج اختبارها والتحقق من صحتها ونشرها بشكل أسرع عند استخدام مجموعة محددة أصغر من السمات. 

  • خفض تكاليف الحوسبة: تُنتج مجموعة بيانات أصغر، تتكون من أفضل السمات، نماذج تنبؤية أبسط تشغل مساحة تخزين أقل. كما أن متطلباتها الحسابية أقل مقارنة بالنماذج الأكثر تعقيدًا.

  • سهولة التنفيذ: يكون من الأسهل على المطورين التعامل مع النماذج الأبسط والأصغر أثناء بناء تطبيقات الذكاء الاصطناعي، مثل تلك المستخدمة في العرض المصور للبيانات.

  • تقليل الأبعاد: مع تزايد عدد المتغيرات المُدخلة، تتباعد نقاط البيانات داخل فضاء النموذج. وتحتوي البيانات عالية الأبعاد على المزيد من الفراغات، مما يجعل من الصعب على خوارزمية التعلم الآلي تحديد الأنماط وإجراء تنبؤات جيدة. 

    يمكن أن يساعد جمع المزيد من البيانات على تخفيف أثر ظاهرة "لعنة الأبعاد"، ولكن اختيار السمات الأكثر أهمية يُعد أكثر جدوى وفعالية من حيث التكلفة.

ما هي السمات؟

السمة هي خاصية يمكن تعريفها للعناصر الموجودة في مجموعة البيانات. تُعرف السمات أيضًا باسم المتغيرات لأن قيمها يمكن أن تتغير من نقطة بيانات إلى أخرى، والسمات لأنها تميز نقاط البيانات في مجموعة البيانات. تميّز السمات المختلفة نقاط البيانات بطرق مختلفة. 

يمكن أن تكون السمات متغيرات مستقلة، أو متغيرات تابعة تستمد قيمتها من متغيرات مستقلة أو سمات مركّبة يتم تجميعها من عدة سمات أخرى.
يتمثل الهدف من اختيار السمات في تحديد أهم متغيرات الإدخال التي يمكن للنموذج استخدامها للتنبؤ بالمتغيرات التابعة. المتغير المستهدف هو المتغير التابع الذي تم تكليف النموذج بالتنبؤ به. 

على سبيل المثال، في قاعدة بيانات للموظفين، قد تتضمن السمات المدخلة العمر، والموقع، والراتب، والمسمى الوظيفي، ومقاييس الأداء، ومدة التوظيف.يمكن لصاحب العمل استخدام هذه المتغيرات لإنشاء سمة هدف مجمعة تمثل احتمالية مغادرة الموظف للحصول على عرض أفضل.ومن ثم يمكن لصاحب العمل تحديد كيفية تشجيع هؤلاء الموظفين على البقاء.

يمكن تصنيف السمات عمومًا إلى متغيرات عددية أو متغيرات فئوية.

  • المتغيرات العددية قابلة للقياس الكمي، مثل الطول والحجم والعمر والمدة. 

  • المتغيرات الفئوية هي أي بيانات غير عددية، مثل الاسم والمسمى الوظيفي والموقع. 

قبل تنفيذ اختيار السمات، تقوم عملية استخراج السمات بتحويل البيانات غير المُنسَّقة إلى سمات عددية يمكن لنماذج التعلم الآلي استخدامها. تُبسِّط عملية استخراج السمات البيانات وتقلل متطلبات الحوسبة اللازمة لمعالجتها.

Mixture of Experts | 25 أبريل، الحلقة 52

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم في أثناء سعيهم للتغلب على الفوضى والضوضاء المحيطة بالذكاء الاصطناعي لتزويدك بأحدث أخباره والرؤى المتعلقة به.

طرق اختيار السمات الخاضعة للإشراف

يستخدم اختيار السمات في التعلّم الخاضع للإشراف المتغير الهدف لتحديد أهم السمات. نظرًا إلى أن السمات محددة مسبقًا، فإن المهمة تتمثل في تحديد أي المتغيرات المدخلة تؤثر بشكل مباشر على المتغير الهدف. ويُعد الارتباط هو المعيار الرئيسي عند تقييم السمات الأكثر أهمية. 

تشمل طرق اختيار السمات الخاضعة للإشراف ما يلي:

  • طرق التصفية (Filter Methods)

  • طرق الالتفاف 

  • الطرق المضمّنة (Embedded Methods)

من الممكن أيضًا استخدام طرق هجينة تجمع بين طريقتين أو أكثر من طرق اختيار السمات الخاضعة للإشراف.

طرق التصفية (Filter Methods)

طرق التصفية هي مجموعة من تقنيات اختيار السمات التي تركز فقط على البيانات نفسها ولا تأخذ بعين الاعتبار تحسين الأداء بشكل مباشر. تُقيَّم كل سمة بشكل مستقل مقابل المتغير المستهدف لتحديد السمة التي تحتوي على أعلى درجة ارتباط. تُعرف الطرق التي تختبر كل سمة على حدة باسم طرق اختيار السمات الأحادية المتغير. 

تُستخدم طرق التصفية كأداة معالجة مسبقة فعالة، وهي سريعة وتتفوق في تقليل التكرار وحذف السمات غير ذات الصلة من مجموعة البيانات. وتستخدم اختبارات إحصائية متعددة لتسجيل كل سمة بناءً على درجة ارتباطها، رغم أن هناك طرقًا أخرى تكون أكثر دقة في التنبؤ بأداء النموذج. 

بعض طرق التصفية الشائعة متوفرة في مكتبات تعلم الآلة مثل Scikit-Learn (Sklearn)، ومنها:

  • كسب المعلومات:  يقيس مدى أهمية وجود سمة معينة أو غيابها في تحديد المتغير الهدف، عبر قياس درجة تقليل الإنتروبيا. 

  • المعلومات المتبادلة:  تقيّم الاعتماد بين المتغيرات عن طريق قياس المعلومات المكتسبة عن متغير من خلال متغير آخر. 

  • اختبار كاي-تربيع (Chi-square test):  يقيّم العلاقة بين متغيرين فئويين من خلال مقارنة القيم المرصودة بالقيم المتوقعة. 

  • درجة Fisher:  يستخدم المشتقات لحساب الأهمية النسبية لكل سمة في تصنيف البيانات.  وتشير الدرجة الأعلى إلى تأثير أكبر. 

  • معامل ارتباط Pearson:  يقيس العلاقة بين متغيرين مستمرين، ويعطي نتيجة تتراوح بين -1 و1. 

  • عتبة التباين (Variance threshold): تزيل جميع السمات التي تقع تحت حد أدنى من التباين، لأن السمات التي تنطوي على تباين أكبر تكون أكثر احتمالًا لاحتواء معلومات مفيدة. هناك طريقة ذات صلة هي متوسط الفرق المطلق (MAD). 

  • نسبة القيم المفقودة (Missing value ratio): تحسب النسبة المئوية للحالات في مجموعة البيانات التي تفتقد سمة معينة أو تكون فيها القيمة فارغة (null). إذا كانت هناك نسبة كبيرة من الحالات تفتقد لسمة معينة، فمن غير المرجح أن تكون تلك السمة مفيدة. 

  • نسبة التشتت (Dispersion ratio):هي نسبة التباين إلى القيمة المتوسطة لسمة ما. تشير نسبة التشتت الأعلى إلى وجود معلومات أكثر. 

  • تحليل التباين (ANOVA): يحدد ما إذا كانت القيم المختلفة للسمات تؤثر على قيمة المتغير الهدف.

طرق الالتفاف (Wrapper Methods)

تقوم طرق الالتفاف بتدريب خوارزمية التعلّم الآلي باستخدام مجموعات فرعية مختلفة من السمات، مع إضافة سمات أو إزالتها واختبار النتائج في كل تكرار. تهدف جميع طرق الالتفاف إلى العثور على مجموعة السمات التي تحقق أفضل أداء للنموذج. 

تُعرف طرق الالتفاف التي تختبر جميع التركيبات الممكنة من السمات باسم الخوارزميات الجشعة. يتطلّب البحث عن أفضل مجموعة سمات بشكل عام عملية حسابية مكثّفة وتستغرق وقتًا طويلاً، لذا فهي الأفضل لمجموعات البيانات ذات عدد قليل من السمات. 

يمكن لعلماء البيانات ضبط الخوارزمية للتوقف عندما ينخفض الأداء أو عند تحقيق عدد معين من السمات. 

تتضمن طرق الالتفاف ما يلي: 

  • الاختيار التقدمي (Forward selection): يبدأ بمجموعة سمات فارغة ثم يضيف سمات جديدة تدريجيًا حتى يتم العثور على المجموعة المثلى. تحدث عملية اختيار النموذج عندما يتوقف أداء الخوارزمية عن التحسن بعد أي تكرار محدد. 

  • الاختيار العكسي (Backward selection): يبدأ بتدريب نموذج باستخدام جميع السمات الأصلية، ثم يزيل تدريجيًا السمة الأقل أهمية من مجموعة السمات. 

  • الاختيار الشامل للسمات (Exhaustive feature selection): يختبر جميع التركيبات الممكنة للسمات لاكتشاف الأفضل منها من خلال تحسين مقياس أداء محدد. فعلى سبيل المثال، يقوم نموذج الانحدار اللوجستي الذي يستخدم الاختيار الشامل باختبار كل تركيبة ممكنة لعدد ممكن من السمات.

  • استبعاد السمة التكراري (RFE): نوع من التحديد العكسي يبدأ بمساحة سمة أولية ويزيل أو يضيف سمات بعد كل تكرار بناء على أهميتها النسبية. 

  • الإزالة التكرارية للسمات مع التحقق المتقاطع: نسخة من الإزالة التكرارية للسمات تستخدم التحقق المتقاطع، حيث يتم اختبار النموذج على بيانات غير مرئية، لاختيار مجموعة السمات الأفضل أداءً. التحقق المتقاطع هو تقنية شائعة لتقييم النماذج اللغوية الكبيرة (LLMs).

الطرق المضمنة (Embedded Methods)

تدمج الطرق المضمّنة عملية اختيار السمات ضمن عملية تدريب النموذج. أثناء التدريب، يستخدم النموذج آليات مختلفة لاكتشاف السمات ذات الأداء الضعيف والتخلص منها.

تركز العديد من الطرق المدمجة على التنظيم، حيث يتم فرض عقوبات على السمات بناءً على معايير ثابتة. تُقلل النماذج الناتجة من ظاهرة الإفراط في التخصيص، مما يجعل النماذج أكثر قدرة على التعميم حتى لو كان هناك انخفاض بسيط في الدقة أثناء التدريب. 

تشمل الطرق المضمنة ما يلي: 

  • انحدار LASSO (الانحدار L1): يضيف عقوبة إلى دالة الفقد للمعاملات المرتبطة بقيم مرتفعة، مما يدفعها نحو الصفر. المعاملات التي تصبح قيمتها صفرًا يتم إزالتها. وكلما زادت العقوبة، زاد عدد السمات المُزالة من فضاء السمات. يعتمد الاستخدام الفعّال لانحدار LASSO على تحقيق توازن دقيق بين إزالة السمات غير المهمة والحفاظ على السمات الأساسية.

  • أهمية الغابة العشوائية: تبني مئات من أشجار القرار، كل منها يستخدم اختيارًا عشوائيًا لنقاط البيانات والسمات. يتم تقييم كل شجرة بناءً على مدى قدرتها على تقسيم البيانات. كلما كانت النتائج أفضل، اعتُبرت السمة أو السمات المستخدمة أكثر أهمية. تقيس المُصنِّفات "مدى النقاء" في المجموعات باستخدام معيار Gini أو مكسب المعلومات، في حين تعتمد نماذج الانحدار على قياس التباين.

  • التعزيز التدريجي: يضيف متنبئين إلى مجموعة بالتسلسل، حيث يصحح كل تكرار الأخطاء الناتجة عن التكرار السابق. وبهذه الطريقة، يمكن للنموذج تحديد السمات التي تقود بشكل مباشر إلى تحقيق أفضل النتائج.

طرق اختيار السمات غير الخاضعة للإشراف

مع التعلم غير الخاضع للإشراف، تكتشف النماذج سمات البيانات والأنماط والعلاقات بنفسها. ولا يمكن تخصيص المتغيرات المدخلة بناءً على متغير هدف معروف. لذلك تستخدم طرق اختيار السمات غير الخاضعة للإشراف تقنيات أخرى لتبسيط وتحسين مساحة السمات.

تحليل العناصر الرئيسية (PCA) هو إحدى طرق اختيار السمات غير الخاضعة للإشراف. يقلل PCA من أبعاد مجموعة البيانات الكبيرة عن طريق تحويل المتغيرات المرتبطة إلى مجموعة أصغر من المتغيرات الجديدة تسمى العناصر الرئيسية. تحتفظ هذه العناصر الرئيسية بمعظم المعلومات الموجودة في مجموعة البيانات الأصلية. ويساعد PCA على التغلب على مشكلة لعنة الأبعاد، كما يساهم في تقليل الإفراط في التخصيص. 

تشمل الطرق الأخرى تحليل العناصر المستقلة (ICA)، الذي يفصل البيانات متعددة المتغيرات إلى عناصر فردية تكون مستقلة إحصائيًا، والمشفّرات التلقائية (Autoencoders).

يُستخدم المشفِّر التلقائي، المنتشر على نطاق واسع مع بنى المحولات، كنوع من الشبكات العصبية التي تتعلم ضغط البيانات ثم إعادة بنائها. من خلال ذلك، تكتشف المشفّرات التلقائية المتغيرات الكامنة — وهي متغيرات لا يمكن ملاحظتها بشكل مباشر، ولكنها تؤثر بشدة على توزيع البيانات.

اختيار طريقة اختيار السمات

يعتمد نوع اختيار السمات المستخدم على طبيعة المتغيرات المدخلة والمخرجة. كما تحدد هذه العوامل طبيعة تحدي التعلم الآلي — سواء كان مشكلة تصنيف أو مهمة انحدار.

  • المدخلات العددية، والمخرجات العددية: عندما تكون المدخلات والمخرجات عددية، فهذا يشير إلى مشكلة تنبؤية بالانحدار. تنتج النماذج الخطية تنبؤات عددية مستمرة — أي متغير هدف عددي يقع ضمن نطاق من القيم الممكنة. في هذه الحالات، تُعد معاملات الارتباط مثل معامل ارتباط Pearson طريقة مثالية لاختيار السمات. 

  • المدخلات العددية، والمخرجات الفئوية:تصنّف نماذج الانحدار اللوجستي المدخلات إلى مخرجات فئوية منفصلة. في هذا النوع من مشاكل التصنيف، يمكن استخدام طرق اختيار السمات المعتمدة على الارتباط والتي تدعم المتغيرات الهدف الفئوية. تشمل هذه الطرق تحليل التباين (ANOVA) للنماذج الخطية، ومعامل ارتباط Kendall للرتب (Kendall’s coefficient) للمهام غير الخطية.

  • المدخلات الفئوية، والمخرجات العددية: هذا النوع النادر من التحديات يمكن التعامل معه أيضًا باستخدام طرق ارتباط تدعم المتغيرات الفئوية. 

  • المدخلات الفئوية، والمخرجات الفئوية: مشكلات التصنيف التي تتضمن مدخلات ومتغيرات هدف فئوية تُناسبها طريقة اختبار كاي-تربيع أو تقنيات مكسب المعلومات. 

تشمل العوامل الأخرى التي يجب مراعاتها حجم مجموعة البيانات ومساحة السمات ومدى تعقيد السمات ونوع النموذج. يمكن لطرق التصفية التخلص بسرعة من جزء كبير من السمات غير ذات الصلة، ولكنها قد تواجه صعوبة في التعامل مع التفاعلات المعقدة بين السمات. في هذه الحالات، قد تكون طرق الالتفاف والطرق المُضمَّنة أكثر ملاءمة.

ما سبب أهمية السمات؟

يُعد تحديد السمات التي يجب التركيز عليها عنصرًا أساسيًا في اختيار السمات.فبعض السمات تكون مرغوبة للغاية للنمذجة، بينما قد يؤدي بعضها الآخر إلى نتائج دون المستوى المطلوب.وبالإضافة إلى تأثيرها على المتغيرات الهدف، يتم تحديد أهمية السمة بناءً على عوامل متعددة.

  • سهولة النمذجة:إذا كانت السمة سهلة النمذجة، تصبح عملية التعلم الآلي أبسط وأسرع، مع تقليل احتمالات الوقوع في الخطأ.

  • سهولة التنظيم:السمات التي تتجاوب جيدًا مع التنظيم تكون أكثر كفاءة في الاستخدام.

  • فصل السببية: فصل العوامل السببية عن سمة يمكن ملاحظتها يعني تحديد العوامل الأساسية التي تؤثر فيها.

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا