ما المقصود باستخراج الميزات؟

المؤلفون

Vanna Winland

AI Advocate & Technology Writer

ما المقصود باستخراج الميزات؟

استخراج الميزات: تقنية تعمل على تقليل الأبعاد أو تعقيد البيانات لتحسين أداء وكفاءة خوارزميات التعلم الآلي (ML). تسهِّل هذه العملية مهام التعلم الآلي وتحسِّن تحليل البيانات من خلال تبسيط مجموعة البيانات لتشمل فقط المتغيّرات أو الخصائص المهمة. 

يعتمد أداء نموذج الذكاء الاصطناعي (AI) على جودة بيانات التدريب الخاصة به. تمرّ نماذج التعلم الآلي بمرحلة معالجة مسبقة تساعد على ضمان أن تكون البيانات بصيغة مناسبة لتدريب النموذج بكفاءة وتحقيق أداء جيد. يُعَد استخراج الميزات جزءًا أساسيًا من سير عمل المعالجة المسبقة.

أثناء عملية الاستخراج، يتم تحويل البيانات غير المنظمة إلى تنسيق أكثر تنظيمًا وقابلية للاستخدام لتعزيز جودة البيانات وقابلية تفسير النموذج. استخراج الميزات هو جزء من هندسة الميزات، وهي العملية الأوسع نطاقًا لإنشاء وتعديل وتحديد الميزات داخل البيانات غير المنسقة لتحسين أداء النموذج.  

منذ البحث المبكر في التعرُّف على الأنماط، تمت دراسة طرق وتقنيات جديدة لاستخدام طريقة إرشادية لاستخراج الميزات الأكثر صلة بمجموعة البيانات باستخدام الذكاء الاصطناعي.1 مع تقدُّم البحث، تم استخدام أجهزة التشفير التلقائي تقليديًا لتقليل الأبعاد لتعلم الميزات.2

يصعب التعامل مع البيانات عندما يتجاوز عدد الميزات أو المتغيرات عدد نقاط البيانات المستقلة. يُعَد هذا النوع من البيانات بيانات عالية الأبعاد.3 يمكن اعتبار استخراج الميزات تقنية لتقليل الأبعاد.4

يُعَد ذلك أمرًا بالغ الأهمية عند التعامل مع مجموعات بيانات كبيرة أو مجموعات بيانات متعددة الأنماط. كلما زاد عدد الميزات المستخرجة التي يتعين على النموذج التعامل معها، انخفضت كفاءته وأداؤه.5 ومن المهام الشائعة التي تعتمد على استخراج الميزات بكفاءة: معالجة الصور ومعالجة اللغة الطبيعية (NLP) ومعالجة الإشارات. 

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

كيف تعمل عملية استخراج الميزات؟

تقليل الأبعاد هو تقنية علم البيانات المستخدمة في خطوة المعالجة المسبقة في التعلم الآلي.6 خلال هذه العملية، تتم إزالة البيانات غير ذات الصلة والزائدة عن الحاجة مع الاحتفاظ بالمعلومات ذات الصلة بمجموعة البيانات الأصلية.

يمكن اعتبار الميزات على أنها سمات كائن البيانات. على سبيل المثال، في مجموعة البيانات للحيوانات، قد تتوقع بعض الميزات العددية (العمر والطول والوزن) والميزات الفئوية (اللون والنوع والسلالة). يُعَد استخراج الميزات جزءًا من بنية الشبكة العصبية للنموذج، مثل الشبكة العصبية التلافيفية (CNN).

في البداية، يستقبل النموذج بيانات الإدخال، ثم يحوِّل مستخرج الميزات هذه البيانات إلى تمثيل رقمي يمكن استخدامه لحساب أساليب تقليل الأبعاد لاستخراج الميزات. يتم تخزين هذه التمثيلات في متجهات ميزات حتى يتمكن النموذج من تنفيذ خوارزميات لتقليل البيانات. 

بعد الاستخراج، من الضروري في بعض الأحيان توحيد معايير البيانات باستخدام تطبيع الميزات، خاصةً عند استخدام خوارزميات حساسة لحجم المتغيرات ومقياسها (مثل خوارزميات الانحدار المعتمدة على التدرج، والتجميع بالمتوسط K-means).

يمكن اتباع طرق مختلفة لتحقيق نتائج معينة اعتمادًا على المهام. تسعى جميع الطرق إلى تبسيط البيانات مع الحفاظ على المعلومات الأكثر قيمة.

تعمل معظم نماذج الذكاء الاصطناعي الحديثة على استخراج الميزات تلقائيًا، ولكن لا يزال من المفيد فهم الطرق المتنوعة للتعامل معها. فيما يلي بعض طرق استخراج الميزات الشائعة المستخدمة للأبعاد:

تحليل العناصر الأساسية (PCA): تعمل هذه التقنية على تقليل عدد الميزات في مجموعة البيانات الكبيرة إلى عناصر أساسية أو ميزات جديدة يستخدمها مصنِّف النموذج لمهامه المحددة.

تحظى PCA بشعبية بسبب قدرتها على إنشاء بيانات أصلية غير مرتبطة، ما يعني أن الأبعاد الجديدة التي تُنشئها PCA مستقلة عن بعضها.7 هذا يجعل PCA حلًا فعَّالًا للإفراط في التخصيص بسبب نقص تكرار البيانات لأن كل ميزة فريدة من نوعها.   
 
تحليل التمييز الخطي (LDA): تُستخدم هذه التقنية عادةً في التعلم الآلي الخاضع للإشراف لفصل الفئات والميزات المتعددة لحل مشكلات التصنيف.

وتُستخدم هذه التقنية بشكل شائع لتحسين نماذج التعلم الآلي. يتم تصنيف نقاط البيانات الجديدة باستخدام الإحصاء البايزي لنمذجة توزيع البيانات لكل فئة. 

التمثيل المضمَّن للعلاقات الجوارية العشوائية الموزعة (t-SNE): تُستخدَم هذه التقنية في التعلم الآلي عادةً في مهام مثل تصور الميزات في التعلم العميق.8 ويكون ذلك مفيدًا بشكل خاص عندما تكون المهمة هي إنشاء تصورات لبيانات عالية الأبعاد في بُعدين أو ثلاثة أبعاد.

ويُستخدَم هذا بشكل شائع لتحليل الأنماط والعلاقات في علم البيانات. نظرًا لطبيعته غير الخطية، يُعَد t-SNE مكلفًا حسابيًا، وغالبًا ما يُستخدم فقط في مهام التصور.

تكرار المصطلح وعكس تكرار الوثيقة (TF-IDF): تُقيّم هذه الطريقة الإحصائية أهمية الكلمات بناءً على مدى تكرار ظهورها. يتم قياس تكرار المصطلح في وثيقة معينة مقابل مدى تكراره عبر جميع الوثائق ضمن المجموعة أو المتن اللغوي.9 

وتُستخدم هذه التقنية عادةً في معالجة اللغة الطبيعية (NLP) لأغراض التصنيف والتجميع واسترجاع المعلومات. تُعَد طريقة حقيبة الكلمات (Bag of words) تقنية مشابهة، لكنها لا تأخذ في الاعتبار مدى أهمية المصطلح، بل تتعامل مع جميع الكلمات على نحو متساوٍ. 

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

حالات الاستخدام

معالجة الصور ورؤية الكمبيوتر: تعمل عملية استخراج الميزات على تحديد واستخلاص الخصائص الأساسية من الصور ومقاطع الفيديو. يتم تحويل بيانات الصورة الأوَّلية (وحدات البكسل) إلى ميزات يمكن للآلة تطبيق الخوارزميات عليها لاستخراج مجموعة جديدة من الميزات وتصنيفها. على سبيل المثال، تُعَد خوارزمية مخطط التدرّجات الموجَّهة (HOG) إحدى خوارزميات استخراج الميزات المستخدمة في اكتشاف الكائنات.

معالجة اللغة الطبيعية: تعمل عملية استخراج الميزات على تحويل بيانات النص غير المنسق إلى بنية منسقة يمكن لنموذج التعلم الآلي معالجتها. ويُعَد ذلك مفيدًا في مهام مثل التصنيف أو تحليل المشاعر أو التعرُّف على الكيانات المسماة (NER). يمكن تطبيق هذه التقنية في مختلف الصناعات، واستخدامها في واجهات الدردشة وحتى في مجال الصحة السلوكية. يشير هذا البحث إلى أن استخراج الميزات يساعد في التعرُّف على المشاعر متعددة الوسائط لمراقبة الصحة السلوكية للمريض.10

معالجة الإشارات: تُستخدم هذه التقنية لتحليل واستخراج المعلومات ذات الدلالة من بيانات الإشارات غير المنسقة (مثل الصوت أو الصور أو حتى بيانات السلاسل الزمنية) لتسهيل مهام مثل التصنيف أو الاكتشاف أو التنبؤ. على الرغم من أن معالجة الإشارات ترتبط تقليديًا بمجالات مثل التعرُّف على الكلام ومعالجة الصوت وتحليل الصور، فإنه يمكن تطبيقها أيضًا في العديد من المجالات الأخرى. على سبيل المثال، في السياق الطبي، تُستخدم إشارات فسيولوجية مثل قراءات تخطيط القلب (ECG) لاكتشاف التوجهات.11

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1 Minsky, Marvin. "Steps toward artificial intelligence." Proceedings of the IRE 49, no. 1 (1961): 8-30. https://rodsmith.nz/wp-content/uploads/Minsky-steps-towards-artificial-intelligence-1.pdf.

2 Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning (Cambridge, MA: MIT Press, 2016).  https://www.deeplearningbook.org/contents/autoencoders.html.

3 Narisetty, Naveen Naidu. "Bayesian model selection for high-dimensional data." In Handbook of statistics, vol. 43, pp. 207-248. Elsevier, 2020. https://www.sciencedirect.com/science/article/abs/pii/S0169716119300380.  

4 de-la-Bandera, Isabel, David Palacios, Jessica Mendoza, and Raquel Barco. "Feature extraction for dimensionality reduction in cellular networks performance analysis." Sensors 20, no. 23 (2020): 6944. https://pmc.ncbi.nlm.nih.gov/articles/PMC7730729.

5 https://www.sciencedirect.com/topics/computer-science/feature-extraction.

6 Khalid, Samina, Tehmina Khalil, and Shamila Nasreen. "A survey of feature selection and feature extraction techniques in machine learning." In 2014 science and information conference, pp. 372-378. IEEE, 2014. https://ieeexplore.ieee.org/abstract/document/6918213.  

7 Kuhn, Max, and Kjell Johnson. Applied predictive modeling. Vol. 26. New York: Springer, 2013.  

8 Zhou, Yuansheng, and Tatyana O. Sharpee. "Using global t-SNE to preserve intercluster data structure." Neural computation 34, no. 8 (2022): 1637-1651. https://pmc.ncbi.nlm.nih.gov/articles/PMC10010455/.  

9 Sammut, Claude, and Geoffrey I. Webb, eds. Encyclopedia of machine learning. Springer Science & Business Media, 2011.  

10 Minsky, Marvin. "Steps toward artificial intelligence." Proceedings of the IRE 49, no. 1 (1961): 8 30. https://www.sciencedirect.com/science/article/abs/pii/S1566253523005341.  

11 Geetha, A. V., T. Mala, D. Priyanka, and E. Uma. "Multimodal emotion recognition with deep learning: advancements, challenges, and future directions." Information Fusion 105 (2024): 102218. https://www.sciencedirect.com/science/article/abs/pii/S1566253523005341.