تجزئة الصورة هو أحد تقنيات رؤية الكمبيوتر التي تقوم بتقسيم الصورة الرقمية إلى مجموعات منفصلة من وحدات البكسل—أجزاء الصورة —لتوجيه كشف الأجسام والمهام ذات الصلة. من خلال تحليل البيانات المرئية المعقدة للصورة إلى أجزاء ذات أشكال محددة، تعمل عملية تجزئة الصورة على تمكين معالجة الصور بشكل أسرع وأكثر تقدمًا.
تتراوح تقنيات تجزئة الصور من التحليل الاستدلالي البسيط والبديهي إلى التطبيق المتطور للتعلم العميق. تعالج خوارزميات تجزئة الصور التقليدية السمات المرئية عالية المستوى لكل بكسل، مثل اللون أو السطوع، لتحديد حدود الأجسام ومناطق الخلفية. يُستخدم التعلم الآلي، بالاستفادة من مجموعات البيانات المُعلَّمة، لتدريب النماذج على تصنيف أنواع محددة من الأجسام والمناطق التي تحتويها الصورة بدقة.
باعتبارها طريقة متعددة الاستخدامات وعملية للغاية في رؤية الكمبيوتر، فإن تجزئة الصور لديها مجموعة واسعة من حالات استخدام الذكاء الاصطناعي، بدءًا من المساعدة في التشخيص في التصوير الطبي، وصولًا إلى أتمتة الحركة للروبوتات والسيارات ذاتية القيادة، وتحديد الأجسام ذات الأهمية في صور الأقمار الصناعية.
تجزئة الصور تمثل تطورًا متقدمًا لكل من تصنيف الصور واكتشاف الأجسام، بالإضافة إلى مجموعة متميزة من قدرات رؤية الكمبيوتر.
تصنيف الصورة يطبق تصنيفًا فئويًا على الصورة بأكملها. على سبيل المثال، من الممكن تدريب نموذج تصنيف الصور البسيط لتصنيف صور المركبات على أنها "سيارة" أو "شاحنة". تعتبر أنظمة تصنيف الصور التقليدية محدودة التعقيد، حيث إنها لا تعالج سمات الصورة الفردية بشكل منفصل.
اكتشاف الأجسام يجمع بين تصنيف الصور وتحديد موقع الأشياء، مما يؤدي إلى إنشاء مناطق مستطيلة، تسمى "المربعات المحيطة"، حيث توجد الأشياء: بدلًا من مجرد تسمية صورة السيارة على أنها "سيارة" أو "شاحنة"، يمكن أن يشير نموذج كشف الأشياء إلى مكان العثور على السيارة (السيارات) أو الشاحنة (الشاحنات) في الصورة. في حين أن اكتشاف الأجسام يمكنه تصنيف عناصر متعددة داخل الصورة وتقريب عرض كل عنصر وارتفاعه، إلا أنه لا يمكنه تمييز الحدود أو الأشكال الدقيقة. هذا يحد من قدرة نماذج اكتشاف الأجسام التقليدية على تحديد الأجسام المتراصة بشكل وثيق ذات المربعات المحيطة المتداخلة.
يعالج تجزئة الصور البيانات المرئية على مستوى البكسل، وذلك باستخدام تقنيات مختلفة لتسمية وحدات البكسل الفردية على أنها تنتمي إلى فئة أو مثيل معين. تحدد تقنيات تجزئة الصور "الكلاسيكية" التعليقات التوضيحية من خلال تحليل الصفات المتأصلة لكل بكسل (تسمى "الاستدلالات") مثل اللون والشدة، بينما تستخدم نماذج التعلم العميق شبكات عصبية معقدة للتعرف على الأنماط المتطورة. مخرجات هذا التصنيف هي أقنعة تجزئة، تمثل الحدود والشكل المحدد لكل فئة، بكسلًا بكسلًا،—عادةً ما تتوافق مع أشياء أو سمات أو مناطق مختلفة—في الصورة.
بشكل عام ، يتم استخدام تجزئة الصور لثلاثة أنواع من المهام: التجزئة الدلالية، وتجزئة المثيل ، والتجزئة الشاملة.
يكمن الاختلاف بين كل نوع من مهام تجزئة الصور في كيفية التعامل مع الفئات الدلالية: الفئات المحددة التي قد يتم تحديد بكسل معين للانتماء إليها.
في لغة رؤية الكمبيوتر، هناك نوعان من الفئات الدلالية. كل منها يفسح المجال لتقنيات مختلفة لتجزئة دقيقة وفعالة.
الأشياء هي فئات من الأجسام ذات الأشكال المميزة، مثل "سيارة" أو "شجرة" أو "شخص". عادةً ما تحدد الأشياء بوضوح الحالات القابلة للعد. لديهم تباين قليل نسبيًا في الحجم من نموذج لآخر، وكذلك أجزاء مكونة متميزة عن الشيء نفسه: على سبيل المثال، جميع السيارات لديها عجلات، لكن العجلة ليست سيارة.
تشير المواد إلى فئات دلالية غير متبلورة الشكل ومتغيرة الحجم بشكل كبير، مثل "سماء" أو "ماء" أو "عشب". عادةً، لا يكون للمواد حالات فردية محددة بوضوح ويمكن عدها. بخلاف الأشياء، فإن المادة لا تمتلك أجزاءً مميزة: فشفرة العشب وحقل العشب كلاهما "عشب" على حد سواء.
يمكن أن تكون بعض الفئات، في ظل ظروف صورة معينة، أشياء أو مواد. على سبيل المثال، يمكن تفسير مجموعة كبيرة من الناس على أنها عدة "أشخاص" —كل منهم شيء ذو شكل مميز وقابل للعد—أو على أنها "حشد" مفرد ذو شكل غير محدد.
بينما تركز معظم جهود الكشف عن الأجسام في المقام الأول على فئات الأشياء، من المهم أن نأخذ في الاعتبار أن المادة—السماء، والجدران، والأرضيات، والأرضيات—تشكل غالبية السياق المرئي لدينا. المادة هي نقطة بيانات أساسية لتحديد الأشياء، والعكس صحيح: شيء معدني على الطريق عادة ما يكون سيارة؛ الخلفية الزرقاء خلف قارب هي على الأرجح ماء، بينما الخلفية الزرقاء خلف طائرة هي على الأرجح سماء. وهذا أمر ذو أهمية خاصة لنماذج التعلم العميق.
التجزئة الدلالية هو أبسط أنواع تجزئة الصور. يعين نموذج التجزئة الدلالية فئة دلالية لكل بكسل، ولكنه لا يُخرج أي سياق أو معلومات أخرى (مثل الأجسام).
تتعامل التجزئة الدلالية مع جميع وحدات البكسل كأشياء. لا تفرق بين المواد والأشياء.
على سبيل المثال، نموذج التجزئة الدلالية المدرب على تحديد فئات معينة في شارع مدينة سينتج أقنعة تجزئة تشير إلى الحدود والخطوط الخارجية لكل فئة ذات صلة من الأشياء (مثل المركبات أو أعمدة الإنارة) والمواد (مثل الطرق والأرصفة)، ولكنه لن يميز بين (أو يحسب عدد) الحالات المتعددة من نفس الفئة. على سبيل المثال، ، السيارات المركونة واحدة أمام الأخرى قد تُعامل ببساطة كقطعة "سيارة" طويلة واحدة.
يعكس تجزئة المثيل أولويات التجزئة الدلالية: في حين أن خوارزميات التجزئة الدلالية تتنبأ فقط بالتصنيف الدلالي لكل بكسل (دون اعتبار للمثيلات الفردية)، فإن تجزئة المثيل تحدد الشكل الدقيق لكل مثيل كائن منفصل.
تقوم تجزئة المثيلات بعزل الأشياء عن المواد—التي تتجاهلها—وبالتالي يمكن فهمها كشكل متطور من اكتشاف الكائنات، حيث تُخرج قناع تجزئة دقيق بدلاً من مربع محيط تقريبي.
إنها مهمة أصعب من التجزئة الدلالية: حتى عندما تلامس الأشياء من نفس الفئة بعضها البعض أو حتى تتداخل مع بعضها البعض، يجب أن تكون نماذج تجزئة المثيل قادرة على فصل وتحديد شكل كل منها، في حين أن نماذج التجزئة الدلالية يمكنها ببساطة جمعها معًا. انظر، على سبيل المثال، كيف يتعامل النموذجان المختلفان مع السيارات المتوقفة في هذه الصورة لشارع المدينة.
تتخذ خوارزميات تجزئة المثيل بشكل عام إما نهجًا من مرحلتين أو لقطة واحدة للمشكلة. تقوم النماذج المكونة من مرحلتين، مثل الشبكات العصبية التلافيفية القائمة على المنطقة (R-CNNs)، بإجراء الكشف التقليدي عن الأشياء لتوليد مربعات محيطة لكل مثيل مقترح، ثم إجراء تجزئة وتصنيف أكثر دقة داخل كل مربع محيط. تحقق نماذج اللقطة الواحدة، مثل YOLO (You Only Look Once)، تجزئة المثيل في الوقت الفعلي من خلال إجراء كشف الأشياء وتصنيفها وتجزئتها في وقت واحد.
توفر الأساليب ذات اللقطة الواحدة سرعة أكبر (مع مقايضة في الدقة)، بينما توفر الأساليب ذات المرحلتين دقة أكبر (مع مقايضة في السرعة).
تحدد نماذج التجزئة الشاملة كلاً من التصنيف الدلالي لجميع وحدات البكسل وتمييز كل مثيل كائن في الصورة، وتجمع بين فائدة كل من التصنيف الدلالي وتجزئة المثيل.
في مهمة التجزئة الشاملة، يجب أن يتم تعيين كل بكسل بتسمية دلالية و "معرف مثيل". تنتمي البكسلات التي تشترك في نفس التسمية والمعرف إلى نفس الكائن؛ بالنسبة للبكسلات التي تم تحديدها على أنها مواد، يتم تجاهل معرف المثيل.
وبالتالي تزود التجزئة الشاملة أنظمة رؤية الكمبيوتر بفهم شامل وكلي لصورة معينة. بينما جاذبيتها واضحة، فإن تحقيق تجزئة شاملة بطريقة متسقة وفعالة حسابيًا يمثل تحديًا هائلًا.
يكمن التحدي في توحيد منهجيتين متناقضتين: تتعامل نماذج التجزئة الدلالية مع جميع وحدات البكسل على أنها مواد، متجاهلة المثيلات الفردية للأشياء. تعمل نماذج تجزئة المثيل على عزل الأشياء الفردية، متجاهلة المواد. لا يمكن لأي من النموذجين استيعاب مسؤوليات الآخر بشكل كافٍ.
قامت المحاولات الأولية لنماذج التجزئة الشاملة ببساطة بدمج النموذجين، وأداء كل مهمة على حدة ثم دمج مخرجاتها في مرحلة ما بعد المعالجة. لهذا النهج عيبان رئيسيان: يتطلب قدرًًا كبيرًا من العبء الحسابي، ويعاني من التناقضات بين نقاط البيانات التي تنتجها شبكة التجزئة الدلالية ونقاط البيانات التي تنتجها شبكة تجزئة المثيل.
تهدف بنى التجزئة الشاملة الأحدث إلى تجنب هذه العيوب من خلال نهج أكثر توحيدًا للتعلم العميق. معظمها مبني على شبكة "عمود فقري"، مثل شبكة هرم السمات (FPN)، التي تستخلص السمات من الصورة المدخلة، وتُغذي هذه البيانات المستخلصة إلى فروع متوازية—مثل "فرع المقدمة" و"فرع الخلفية"، أو "رأس دلالي" و"رأس مثيل"—ثم تدمج مخرجات كل فرع باستخدام نظام مرجح. تشمل البنى الشاملة المقترحة EfficientPS و OANet و PanopticFPN و UPSNet و SOGNet و BGRNet و AUNet و FPSNet و SpatialFlow.
تستخدم تقنيات تجزئة الصور التقليدية معلومات من قيم ألوان البكسل (والخصائص ذات الصلة مثل السطوع أو التباين أو الشدة) لاستخراج السمات، ويمكن تدريبها بسرعة باستخدام خوارزميات التعلم الآلي البسيطة لمهام مثل التصنيف الدلالي.
في حين أن أساليب التجزئة القائمة على التعلم العميق قادرة على زيادة الدقة وتحليل الصور الأكثر تعقيدًا—خاصة المهام مثل التجزئة الشاملة التي تتطلب قدرًا كبيرًا من المعلومات السياقية—فإن الطرق التقليدية أقل تكلفة بكثير ومتطلبة حسابيًا، ويمكنها حل بعض المشكلات بشكل أكثر كفاءة.
تتضمن تقنيات تجزئة الصور التقليدية الشائعة (أو "الكلاسيكية") ما يلي:
تم تدريب الشبكات العصبية لنماذج تجزئة الصور بالتعلم العميق على مجموعة بيانات مشروحة من الصور، وتكتشف الأنماط الكامنة في البيانات المرئية وتميز السمات البارزة الأكثر صلة بالتصنيف والكشف والتقسيم.
على الرغم من المفاضلات في متطلبات الحوسبة ووقت التدريب، تتفوق نماذج التعلم العميق باستمرار على النماذج التقليدية وتشكل أساس معظم التطورات الجارية في مجال رؤية الكمبيوتر.
تتضمن نماذج التعلم العميق البارزة المستخدمة في تجزئة الصور ما يلي:
لا يقتصر عمل نماذج التعلم العميق على رسم حدود أجزاء الصورة فحسب، بل يتعداه إلى التنبؤ بنوع المادة أو الشيء الذي يمثله كل جزء. ولتحقيق ذلك، يتم تدريب هذه النماذج على مجموعات بيانات كبيرة ومعلّمة للتعرف على فئات دلالية محددة. من هذه الصور المُصنَّفة مسبقًا، تستنتج نماذج التعلم العميق الأنماط وقيم البكسل النموذجية لكل تصنيف.
تتطلب المهام المختلفة بيانات تدريب مختلفة: حيث يتم تدريب نظام رؤية الكمبيوتر للسيارات ذاتية القيادة على الصور المصنفة بفئات دلالية مثل "شخص" و "سيارة" و "ممر" و "علامة توقف"، بينما تتطلب نماذج التصوير الطبي تحسينًا للتعرف على الصور. فئات محددة من الأنسجة المادية، أو الأورام وأمراض أخرى.
يجب أن يتم تصنيف مجموعات البيانات بعناية من قبل الخبراء، وهو أمر قد يكون شاقًا للغاية. تستخدم معظم نماذج تجزئة الصور مجموعات بيانات كبيرة ومفتوحة المصدر. تُستخدم مجموعات البيانات العامة هذه أيضًا بمثابة "الحقيقة الأساسية" عند تقييم نجاح النماذج المُدرّبة: غالبًا ما يتم التعبير عن مقاييس الأداء كنسبة مئوية من النتائج التي تطابق بدقة التسميات في مجموعة بيانات التدريب.
تتضمن مجموعات البيانات التدريبية الشائعة لنماذج تجزئة الصور للتعلم العميق ما يلي:
أصبح تجزئة الصور أداة أساسية في مجموعة متنوعة من المجالات.