ما المقصود بتصنيف الصور؟

ما المقصود بتصنيف الصور؟

تصنيف الصور هو عملية فرز أو تصنيف الصور إلى فئات محددة مسبقًا. في التعلم الآلي، تتعلم النماذج التعرُّف على الصور وتصنيفها.

يصنِّف البشر الصور بدءًا من سنّ مبكرة. عندما يطلب المعلم من أطفال الروضة تصنيف صور النباتات والحيوانات إلى مجموعات، فإنهم يستخدمون الخصائص التي تعلموها عن كل فئة لإتمام المهمة. تحتوي كل فئة على ميزات مختلفة تميِّز النباتات عن الحيوانات. قد لا يتذكر البالغون كيف تعلّموا الخصائص المميّزة التي تفصل بين الفئتين، لأن جزءًا كبيرًا من قدرتنا على التصنيف يأتي بشكل طبيعي.

قد يكون تعليم نموذج الذكاء الاصطناعي أداء المهمة نفسها أكثر صعوبة بكثير. يكمن الاختلاف الرئيسي هنا في أن نماذج الذكاء الاصطناعي تحتاج إلى التدريب على كيفية "الرؤية"، في حين يولد البشر وهم يمتلكون هذه القدرة. وبالتالي، يمكن للبشر التمييز بين الحذاء والكائن الحي منذ البداية. يعتمد تصنيف الصور القائم على القواعد على التصنيفات أو التعليقات التوضيحية لإنشاء هذه الفروق. ويتولى التصنيف الإحصائي للصور المهمة نفسها من خلال تدريب النماذج على التعرُّف على الأنماط المضمَّنة في الصور، ما يُلغي الكثير من أعمال التصنيف اليدوية.

ما المقصود برؤية الكمبيوتر؟

تُشير رؤية الكمبيوتر إلى الفرع الأكثر عمومية من الذكاء الاصطناعي، والذي يقع ضمنه تصنيف الصور. وهي تستخدم التعلم الآلي والشبكات العصبية في كثير من الأحيان لتمكين أجهزة الكمبيوتر من تفسير البيانات المرئية مثل الصور ومقاطع الفيديو. رغم أن بعض التجارب في مجال رؤية الكمبيوتر ربما بدأت في خمسينيات القرن الماضي، فإن معظم الخبراء يتفقون على أن الاستخدام التجاري لهذه التقنية لم يبدأ إلا في عام 1970.

تُتيح رؤية الكمبيوتر لأجهزة الكمبيوتر استخراج البيانات المفيدة مما تراه. وتُتيح لها هذه العملية أيضًا الاستجابة من خلال تقديم توصيات أو حتى التصرف عند اكتشاف مشكلات أو تشوهات في البيانات المرئية. يوجد أيضًا في رؤية الكمبيوتر مجال التعرُّف على الصور. يتم استخدام هذا المصطلح الواسع لوصف قدرة الكمبيوتر على تفسير صورة أو صور. باختصار، تُعَد رؤية الكمبيوتر الفئة الأوسع وتتضمن مهام التعرُّف على الصور، وبشكل أكثر تحديدًا، تصنيف الصور، داخلها.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

أنواع تصنيف الصور

تصنيف الصور القائم على القواعد

تعتمد هذه الطريقة على عملية مطورة بدقة لجمع الصور وتصنيفها لمطابقة مهمة أو هدف التصنيف المحدد. يتم إكمال هذه العملية يدويًا بواسطة خبراء يختارون الميزات الرئيسية للصورة، والتي توفِّر أكبر قدر من المعلومات البصرية. يعمل تصنيف الصور القائم على القواعد على تجميع مجموعات البكسل المتشابهة في فئات من خلال تطبيق هذه القواعد، والتي يتم إنشاؤها من المعرفة المتخصصة. كما يسمح بالتصنيف القابل للتفسير والتخصيص دون الاعتماد على نماذج التعلم الآلي المعقدة.

تخيَّل صندوقًا من الصور الفوتوغرافية التي تم تكليفك بتنظيمها. تحتوي المجموعة على صور للبحيرات والكلاب والسيارات. نظرًا لعدم وجود أي أدوات عالية التقنية تحت تصرّفك بهذه الطريقة، فأنت بحاجة إلى إنشاء قائمة. 

يمكن أن تبدو القائمة مشابهة لما يلي:

  • بالنسبة إلى "السيارات"، ابحث عن الإطارات والأبواب والمرايا الجانبية.

  • بالنسبة إلى "الكلاب"، تحقَّق من وجود آذان متدلية وذيول تهتز وأنوف طويلة.

  • بالنسبة إلى "البحيرات"، ابحث عن صور بها الكثير من المياه والشواطئ.

يوضِّح هذا المثال أن التصنيف القائم على القواعد يعتمد على قواعد وأدوات محددة مسبقًا من قِبَل البشر. تتناقض هذه الطريقة مع ترك الكمبيوتر "يتعلم" قواعد جديدة بنفسه. يمكن أن يتضمن هذا النوع من تصنيف الصور تقنيات مثل مطابقة القوالب والتقسيم بناءً على العتبات.

تتضمن مطابقة القوالب تمرير صورة القالب فوق صورة الإدخال الأكبر وحساب مقاييس التشابه في كل موضع لتحديد المناطق التي تطابِق صورة القالب.

والتقسيم بناءً على العتبات يعمل على تقسيم الصور من خلال تحويل قيم البكسلات إلى ثنائية استنادًا إلى قيمة حدٍّ محددة مسبقًا. تميّز هذه الطريقة بين الميزات والخلفية استنادًا إلى شدة الكثافة.

عند دمجها مع التعلم المعزز القائم على القواعد، تسهم هذه التقنيات في بناء أنظمة تصنيف صور قوية وقابلة للتفسير. يمكن تنفيذ التصنيف القائم على القواعد من خلال تطبيق خوارزميات الجار الأقرب (K-Nearest Neighbor) أو الغابة العشوائية (Random Forest).

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

التصنيف الإحصائي للصور 

طريقة التصنيف هذه أكثر تعقيدًا قليلًا من طريقة تصنيف الصور القائمة على القواعد. تم تصميم التصنيف الإحصائي للصور لتعلُّم الأنماط في الصور والتعرُّف عليها تلقائيًا. لتصنيف الصور بكفاءة، تعتمد هذه الطريقة بشكل كبير على مجموعة البيانات الكبيرة المصنّفة والبنى القوية، والتي عادةً ما تكون الشبكات العصبية الالتفافية (CNNs). تستخدم شبكات CNN هذه ثلاثة أنواع من الطبقات، ويزداد تعقيد كلٌّ منها لتحديد أجزاء من الصورة. ومع حركة البيانات عبر طبقات CNN المختلفة، يزداد عدد العناصر التي يتم التعرُّف عليها حتى يمكن تصنيف الصورة.

رسم تخطيطي مفصَّل يوضِّح شبكة عصبية التفافية (CNN) تعالج صورة حمار وحشي.
رسم تخطيطي للشبكة العصبية الالتفافية (CNN)

الأساليب القائمة على التوزيع

تعتمد التقنيات التقليدية القائمة على التوزيع على افتراضات واضحة حول الخصائص الإحصائية لبيانات الصورة. وتعمل طرق مثل تقدير الاحتمالية القصوى (MLE) ومصنِّفات بايزي على تحليل التوزيعات الاحتمالية لشدة البكسل أو الميزات لتعيين الفئات. في تصنيف الصور، يعمل MLE على تعيين كل بكسل من الصورة للفئة التي يشرح نموذجها الإحصائي البيانات التي تم جمعها بشكل أفضل. يستخدم التصنيف البايزي نظرية بايز (Bayes) لحساب احتمال أن تنتمي الصورة إلى فئة معينة بناءً على المعرفة المسبقة والبيانات التي تم جمعها. تسمح النظرية للمرء "بعكس" الاحتمالات الشرطية. فهي تجمع بين الاحتمالات المسبقة للفئات مع احتمالية الميزات المرصودة للتنبؤ بالفئة الأكثر احتمالًا لمقطع صورة معيّن. تتطلب هذه الخوارزميات نمذجة إحصائية لكل فئة وإجراء التصنيف من خلال تقدير مدى احتمالية انتماء بكسل أو مقطع معين إلى كل فئة بناءً على هذه النماذج.

معادلة الاحتمال الشرطي
معادلة الاحتمال الشرطي

تقدير الاحتمالية القصوى (MLE) هو طريقة إحصائية يتم استخدامها لتقدير مَعلمات النموذج من خلال إيجاد القيم التي تجعل البيانات المرصودة أكثر احتمالًا. في تصنيف الصور، يعمل MLE على تعيين كل بكسل أو مقطع للفئة التي يزيد نموذجها الإحصائي من احتمالية إنشاء تلك البيانات المرصودة.

الطرق الخالية من التوزيع

تمثِّل الشبكات العصبية الالتفافية (CNNs) نهجًا أكثر حداثة وخاليًا من التوزيع يتعلم الميزات مباشرةً من البيانات دون الاعتماد على قواعد إحصائية واضحة. وتتكون شبكات CNN من طبقات متعددة تكشف تدريجيًا سِمات الصورة من أبسطها إلى أكثرها تعقيدًا. وتستخدم عمليات مثل الالتفافات والتجميع. التجميع هو العملية الرياضية التي تستخدمها شبكة الميزات لاستخراج الميزات من بيانات الإدخال والصور في هذه الحالة. تستخدم هذه العملية عامل تصفية أو نواة تنزلق عبر الإدخال. يطبِّق التجميع أيضًا عنصر تصفية على الإدخال بأكمله، ولكن على عكس الالتفاف، يفتقر عنصر التصفية هذا إلى المعَلمات المرجحة. يتطلب تدريب شبكات CNN مجموعات بيانات كبيرة ومصنّفة وموارد حاسوبية، ولكنها غالبًا ما تُنتج دقة محسَّنة بشكل كبير نظرًا لقدرتها على استخراج الميزات الهرمية تلقائيًا من بيانات الصور الأوَّلية.

رسم بياني مثلث مقسَّم إلى ثلاثة أقسام، يحتوي كل منها على أيقونات دراجات مصممة بأسلوب فني. الهرم مظلّل بدرجات مختلفة من اللون الأزرق، ليُظهر تأثيرًا متدرّجًا. يركِّز التصميم على البساطة والأشكال الهندسية، دون أي نصوص أو أرقام ظاهرة.
مخطط التسلسل الهرمي
تمثيل مرئي لتصفية المصفوفة المطبّقة على شبكة رقمية. تعرض صورة الإدخال شبكة 3 × 3 تحتوي على أرقام، في حين يُظهر الفلتر ومصفوفة الإخراج عملية التحويل.
رسم تخطيطي لمصفوفة الشبكة العصبية الالتفافية

كيفية عمل التصنيف الإحصائي للصور

جمع البيانات والمعالجة المسبقة: الخطوة الأولى هي جمع عدد كبير ومتنوع من الصور لكل مجموعة. يجب تصنيف البيانات ثم تطبيعها. يتضمن التطبيع وتقنيات تعزيز البيانات الأخرى تغيير حجم الصور إلى أبعاد ثابتة وتطبيع قيمة البكسل وغير ذلك.

اختيار النموذج: الخطوة التالية في سير العمل هي اختيار النموذج. من المرجح أن تكون البنية المختارة هي شبكة CNN. كما ذُكر سابقًا، تبدأ شبكة CNN باكتشاف ميزات أكثر تعقيدًا مع انتقال البيانات عبر طبقاتها.

تدريب النموذج والتحقق من الصحة: بعد الاختيار، يتم تقسيم الصور المصنّفة إلى مجموعات بيانات التدريب ومجموعات بيانات التحقق من الصحة ومجموعات بيانات الاختبار. تستخدم الشبكة هذه المجموعات لتحسين أوزانها وتعديلها بشكل متكرر، ما يقلل من الأخطاء بين التصنيفات المتوقعة والتصنيفات الفعلية. تساعد بيانات التحقق على منع فرط التخصيص، ويمكن أن تستمر عملية التدريب هذه حتى تحقِّق النتائج معيارًا محددًا مسبقًا.

خلال هذه المرحلة، قد يتم استخدام مجموعة بيانات صور موضَّحة بواسطة البشر مثل ImageNet. تُعَد ImageNet مجموعة ضخمة تضم أكثر من 14 مليون صورة. يتم تنظيم جميع هذه الصور وتصنيفها لتعليم أجهزة الكمبيوتر التعرُّف على الكائنات في الصور. يتم تمييز كل صورة في قاعدة البيانات بفئات محددة تُعرَف باسم "synsets"، ومعناها مجموعات المرادفات. تتضمن مجموعات المرادفات هذه أشياء مثل "كلب" أو "سيارة" أو "تفاحة"، وتستخدم إطار عمل يُعرَف باسم WordNet.

استخراج الميزات: في هذه الخطوة، على عكس تصنيف الصور القائم على القواعد، تتعلم نماذج التعلم العميق ميزاتها الخاصة من بيانات الصورة الأولية المستخرجة. يسمح هذا النهج للشبكة بإنشاء تصورات داخلية للتمييز بين المجموعات أو الفئات.

التقييم والنشر: بعد ذلك، يتم تقييم النموذج باستخدام بيانات الاختبار وإجراء التعديلات اللازمة إذا لزم الأمر. بعد ذلك، يتم نشر النموذج لإجراء التنبؤات على صور جديدة في بيئة حقيقية إذا تم تحقيق المقاييس المتوقعة.

نماذج وخوارزميات تصنيف الصور

تم تطوير نماذج وخوارزميات مختلفة لتصنيف الصور. تتنوع هذه النماذج بين أساليب مثل K-Nearest Neighbors (KNN) وRandom Forests وSupport Vector Machines (SVM)، وصولًا إلى بنى مثل AlexNet وGoogLeNet وResNet. كل طريقة توفِّر نقاط قوة مختلفة من حيث الدقة وقابلية التوسع والتعقيد. تُتيح هذه الخيارات للمستخدمين الاختيار بين مصنِّفات أكثر بساطة أو شبكات عصبية التفافية (CNNs) متقدمة للغاية قادرة على تعلُّم ميزات هرمية عميقة من الصور. وسنستعرض هذه الخوارزميات والنماذج بمزيد من العمق.

  • K-Nearest Neighbors (KNN): هذه الخوارزمية (الجار الأقرب) هي مصنِّف تعليمي خاضع للإشراف يُستخدَم على نطاق واسع لمهام تصنيف الصور. تعمل هذه الطريقة عن طريق استخدام المسافة الإقليدية لقياس مدى تشابه نقاط البيانات الجديدة مع جميع نقاط البيانات الأخرى في كل مجموعة بيانات. في تصنيف الصور، يتم تمثيل كل صورة أولًا كمتجه ميزة. يمكن أن يتضمن متجه الميزات قيم البكسلات الأولية، أو الرسوم البيانية للألوان، أو أي مؤشرات رقمية تعكس الخصائص البصرية المهمة للصورة. يتم تصنيف الصورة من خلال مقارنتها بالصور الأكثر تشابهًا في مجموعة التدريب المصنفة وتعيين التسمية الأكثر شيوعًا بين هؤلاء الجيران. ثم تستخدم بعد ذلك المسافة الإقليدية المذكورة سابقًا لقياس التشابه.

  • الغابة العشوائية (Random Forests): مصنِّف صور آخر خاضع للإشراف معروف بمرونته وسهولة استخدامه. تتكون خوارزمية التصنيف من أشجار قرار متعددة. يتم حساب متوسط كل ناتج من أشجار القرار هذه ثم دمجها للحصول على الناتج النهائي. تصنِّف الغابة العشوائية الصور من خلال بناء مجموعة من أشجار القرار المتعددة، كل منها مدرَّب على عيّنة عشوائية مختلفة من الصور ومجموعات فرعية من الميزات من البيانات. بالنسبة للصورة الجديدة، تتنبأ كل شجرة بتصنيف فئة ما، وتصبح الفئة التي حصلت على أكبر عدد من الأصوات بين جميع الأشجار هي التصنيف النهائي لتلك الصورة.

  • آلة متجهات الدعم (SVM): تُستخدَم خوارزمية التعلم الآلي هذه بشكل شائع لمشكلات التصنيف، وتعمل من خلال تحديد الحدود المثالية لزيادة الهامش بين أقرب نقاط بيانات للفئات المتعارضة.

  • AlexNet: باعتباره نموذجًا رائدًا في عالم الشبكات العصبية الالتفافية العميقة، اكتسَب هذا النموذج شهرةً بفضل تصميمه البسيط رغم تعدُّد طبقاته العميقة. يستخدم هذا النموذج ReLU كدالة تفعيل بدلًا من sigmoid.

  • GoogLeNet/Inception: تم ابتكار هذا النموذج بواسطة Google، ويعتمد على وحدات Inception. تحتوي كل وحدة Inception على 4 مسارات بأحجام تصفية مختلفة، بينما تحتوي GoogLeNet على 4 وحدات Inception تعمل بالتوازي مع بعضها. يتم بعد ذلك دمج نتائج كل وحدة Inception لإنتاج مخرج واحد. وجد الباحثون أن الضبط الدقيق على نموذج مدرَّب مسبقًا، مثل Inception، يعطي نتائج أكثر دقة.

  • ResNet: يقدِّم هذا النموذج اتصالات متبقية أو مسارات مختصرة تُتيح للبيانات سلوك مسار آخر وتخطي بعض طبقات الشبكة. أتاح ResNet إمكانية تدريب شبكات أعمق مع الحفاظ على أداء نموذجي ناجح حتى في الشبكات التي تصل إلى 152 طبقة.

  • نموذج TensorFlow المخصص: من الخيارات الأخرى إنشاء النماذج من الصفر باستخدام TensorFlow وKeras. يتضمن هذا النهج بناء طبقات مثل Conv2D وMaxPooling2D وDense. وكذلك إنشاء دوال التنشيط لبناء مسار للتعلم العميق قادر على تصنيف الصور بعد الانتهاء من التدريب على أمثلة مصنّفة.
التعلم الآلي التقليدي والتعلم الآلي العميق
التعلم الآلي التقليدي والتعلم الآلي العميق

حالات استخدام تصنيف الصور

السيارات غير الصناعية: أصبح كلٌّ من تصنيف الصور واكتشاف الكائنات أكثر انتشارًا في المركبات. يتم استخدام اكتشاف الكائنات لمنح السائقين معلومات في الوقت الفعلي عن محيطهم. يمكن أن تكون هذه القدرة مفيدة في المناطق غير المألوفة أو ذات الازدحام الشديد. يعتمد اكتشاف الكائنات الفعَّال بشكل كبير على فاعلية تصنيف الصور لشبكة CNN.

تصنيف صور أوراق النباتات المصابة بالأمراض: طوَّر الباحثون نموذجًا قادرًا على اكتشاف 13 مرضًا نباتيًا من صور الأوراق السليمة. النموذج قادر أيضًا على تمييز الورقة أو الأوراق من البيئة المحيطة. يمكن أن يكون نموذج كهذا ذا أهمية قصوى في تحديد إذا ما كانت البيئة قد أُصيبت بمرض مثل مرض أوراق الزان (BLD) على سبيل المثال.

الرعاية الصحية والتصوير الطبي: يمكن لتصنيف الصور بالتعلم العميق باستخدام الشبكات العصبية الالتفافية (CNNs) توفير صور أشعة سينية لرئتين مصابتين بالتهاب رئوي. وقد يتمكن الأطباء والفنيون الطبيون من تحديد حالات الالتهاب الرئوي بسرعة ودقة أكبر، مع القيام بذلك بطريقة فعَّالة من حيث التكلفة.

الخاتمة:

تصنيف الصور هو أحد العناصر الأساسية لرؤية الكمبيوتر. فهو يمكِّن الآلات من فهم العالم المرئي كما يفعل البشر. يستمر هذا المجال في التطور بسرعة، بدءًا من طرق تصنيف الصور القائمة على القواعد التي تعتمد على اختيار الميزة يدويًا إلى تصنيف الصور الإحصائي المتقدِّم باستخدام شبكات CNN القادرة على التعرُّف على الأنماط الدقيقة بدقة عالية. وقد أصبح تأثيره محسوسًا بالفعل في قطاعات الرعاية الصحية والسيارات والبيئة على حد سواء. تمكِّن هذه الأداة المستخدمين من اتخاذ قرارات أسرع، ما قد يؤدي إلى زيادة السلامة بشكل عام. ومع ازدياد تعقيد نماذج تصنيف الصور، لن تعمل فقط على تحسين التطبيقات الحالية، بل ستفتح أيضًا آفاقًا لفرص جديدة تمامًا.

حلول ذات صلة
IBM Maximo Visual Inspection

إطلاق العنان لقوة رؤية الكمبيوتر بدون رموز برمجية لأتمتة الفحص البصري.

استكشاف Maximo Visual Inspection
الاستشارات والخدمات في مجال الذكاء الاصطناعي

تساعد خدمات الذكاء الاصطناعي التي تقدمها IBM Consulting في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.

استكشف خدمات الذكاء الاصطناعي
حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي
اتخِذ الخطوة التالية

يضع IBM Maximo Visual Inspection قوة الذكاء الاصطناعي لرؤية الكمبيوتر بين أيدي فرق مراقبة الجودة والفحص لديك. أطلق العنان لقوة رؤية الكمبيوتر بدون برمجة لأتمتة الفحص البصري.

استكشاف Maximo Visual Inspection ألقِ نظرة على قدرات المنتج