ما المقصود بالتجزئة الدلالية؟

ما المقصود بالتجزئة الدلالية؟

التجزئة الدلالية هي مهمة رؤية الكمبيوتر التي تقوم بتعيين تصنيف للفئات إلى وحدات البكسل باستخدام خوارزمية التعلم العميق (DL) . وهي إحدى ثلاث فئات فرعية في العملية الشاملة لتجزئة الصور التي تساعد أجهزة الكمبيوتر على فهم المعلومات المرئية.

التجزئة الدلالية تحدد مجموعات من البكسلات وتصنفها وفقًا لخصائص متنوعة. الفئتان الفرعيتان الأخريان لتجزئة الصور هما تجزئة المثيل والتجزئة الشاملة.

تجزئة الصورة

تجزئة الصور هي عملية تحليل صور شاملة، تقسم صورة رقمية إلى عدة مقاطع وتصنف المعلومات الموجودة في كل منطقة.

تقوم الأنواع الثلاثة من مهام تجزئة الصور—التجزئة الدلالية والمثيل والشاملة—بتعيين تسميات لوحدات البكسل الفردية في الصورة لتمييز الحدود والأشكال المحددة للأجسام والمناطق المختلفة في الصورة، وتصنيفها باستخدام معلومات مثل اللون والتباين والموضع داخل الصورة والسمات الأخرى.

بينما تقوم التجزئة الدلالية بتصنيف كل بكسل في الصورة حسب فئته الدلالية، تُستخدم تجزئة المثيل والتجزئة الشاملة لمهام تصنيف مختلفة.

تركز نماذج تجزئة المثيل فقط على الفئات الدلالية الموجودة في الصورة والتي يمكن عدها: الكيانات والأشياء مثل الأشخاص، الحيوانات، الأشجار، السيارات، أو صنابير إطفاء الحرائق. تكتشف أي كائن أو مثيل فردي، ثم تقوم بإخراج قناع تجزئة وتعريف محددة لكل منها.

تتضمن نماذج التجزئة الشاملة كلا النوعين من المعلومات: فهي تقوم بالتجزئة الدلالية وتكتشف وتجزئ مثيلات الكائنات الفردية، مما يقدم تحليلاً أكثر اكتمالاً للصورة عن طريق تعيين كل بكسل تسمية دلالية ومعرف مثيل فريد (عند الاقتضاء).

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

ما أهمية تجزئة الصور الدلالية؟

تساعد مهام التجزئة الدلالية الآلات على تمييز فئات الكائنات المختلفة والمناطق الخلفية في الصورة. مع ظهور الذكاء الاصطناعي والتعلم الآلي (ML)، تلعب عملية تجزئة الصور وإنشاء خرائط التجزئة دورًا مهمًا في تدريب أجهزة الكمبيوتر على التعرف على السياق المهم في الصور الرقمية مثل المناظر الطبيعية وصور الأشخاص والصور الطبية وغير ذلك الكثير.

تسمح نماذج تعلم تجزئة الصور للآلات بفهم المعلومات المرئية بطريقة مشابهة لطريقة فهم الدماغ البشري. رغم تشابه استخدامات نماذج تجزئة الصور مع نماذج اكتشاف الكائنات، إلا أنها تختلف في نقطة أساسية: فهي تحدد الكائنات في الصورة بدقة على مستوى كل بكسل، وليس فقط بتحديد مكانها في مربع محيط. بشكل أساسي، بينما يمكن لنموذج تصنيف الصور تحديد ماذا تحتوي الصورة (لكن دون إجراء أي تحديد للمواقع)، ويمكن لنموذج اكتشاف الأجسام تحديد أين يقع الجسم في الصورة، فإن تحديد الأشكال والحدود المحددة للكيانات في الصورة يتطلب نموذج تجزئة الصور.1

مع تزايد نجاح خوارزميات التعلم العميق في مساعدة الآلات على تفسير الصور كبيانات، أصبحت الآلات أفضل وأفضل في تحديد الأجسام. في حين أن تصنيف الصور يمكّن الآلة من فهم محتوى الصورة، فإن التجزئة الدلالية تسمح لها بتحديد المواقع الدقيقة للعناصر المرئية المختلفة، ومكان بداية ونهاية كل عنصر.

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

كيف تعمل التجزئة الدلالية؟ 

تقوم نماذج التجزئة الدلالية بإنشاء خريطة تجزئة لصورة الإدخال. خريطة التجزئة هي، أساسًا، إعادة بناء للصورة الأصلية حيث تم تلوين كل بكسل حسب فئته الدلالية لإنشاء أقنعة تجزئة. قناع التجزئة هو ببساطة جزء من الصورة تم تمييزه عن مناطق أخرى في الصورة. على سبيل المثال، خريطة تجزئة لشجرة في حقل فارغ من المحتمل أن تحتوي على ثلاثة أقنعة تجزئة: واحد للشجرة، وواحد للأرض، وواحد للسماء في الخلفية.

للقيام بذلك، تستخدم نماذج التجزئة الدلالية شبكات عصبية معقدة لتجميع وحدات البكسل ذات الصلة معًا بدقة في أقنعة التجزئة والتعرف بشكل صحيح على الفئة الدلالية في العالم الحقيقي لكل مجموعة من وحدات البكسل (أو المقطع). تتطلب طرق التعلم العميق (DL) هذه تدريب نموذج على مجموعات بيانات كبيرة مُصنفة مسبقًا وشرحها خبراء بشريون، وضبط أوزانها وتحيزاتها من خلال تقنيات التعلم الآلي مثل الانتشار العكسي والانحدار التدرجي.

لقد حلت طرق التعلم الآلي محل خوارزميات التعلم الآلي "التقليدية" الأخرى، مثل آلات المتجهات الداعمة (SVM) والغابات العشوائية. على الرغم من أن الشبكات العصبية العميقة تتطلب المزيد من الوقت والبيانات والموارد الحاسوبية للتدريب، إلا أنها تتفوق في الأداء على الطرق الأخرى وسرعان ما أصبحت النهج المختار بعد أن أثبتت الابتكارات المبكرة نجاحها.

مجموعات البيانات للتدريب

تتطلب مهمة تصنيف بيانات الصور بدقة مجموعات بيانات تتكون من قيم البكسل التي تمثل أقنعة لأجسام مختلفة أو تسميات فئات مختلفة موجودة في الصورة. عادةً ما تكون هذه الأنواع من مجموعات البيانات أكبر وأكثر تعقيدًا من مجموعات بيانات التعلّم الآلي الأخرى بسبب تعقيد بيانات التدريب المتضمنة في تجزئة الصور.

تتوفر العديد من مجموعات بيانات تجزئة الصور مفتوحة المصدر، والتي تغطي مجموعة واسعة من الفئات الدلالية مع آلاف الأمثلة وشروح مفصلة لكل منها. على سبيل المثال، تخيل مشكلة تجزئة حيث يتم تعليم رؤية الكمبيوتر في سيارة ذاتية القيادة للتعرف على جميع الأجسام المختلفة التي ستحتاج للتوقف من أجلها، مثل المشاة والدراجات الهوائية والسيارات الأخرى. يجب تدريب نظام رؤية الكمبيوتر للسيارة على التعرف على كل شيء باستمرار، وإلا قد يفشل في إصدار أمر الفرملة في بعض الأحيان. كما يجب أن يكون التدريب دقيقًا للغاية، وإلا فقد يفرمل باستمرار بسبب تصنيف صور غير ضارة على أنها تهديدات.

إليك بعض مجموعات البيانات مفتوحة المصدر الأكثر شيوعًا المستخدمة في التجزئة الدلالية وتجزئة الصور:

فئات الكائنات المرئية باسكال (Pascal VOC): تتكون مجموعة بيانات Pascal VOC من العديد من فئات الكائنات المختلفة، والمربعات المحيطة، وخرائط التجزئة القوية.

MS COCO: يحتوي MS COCO على حوالي 330000 صورة وشرح للعديد من المهام بما في ذلك الكشف والتجزئة والتعليق على الصور.

Cityscapes: تفسر مجموعة بيانات cityscapes الشهيرة بيانات من البيئات الحضرية وتتكون من 5000 صورة مع 20000 تعليق توضيحي و30 تصنيفاً للفئات.

نماذج التجزئة الدلالية

تتطلب النماذج المدربة بنية قوية لتعمل بشكل صحيح. فيما يلي بعض نماذج التجزئة الدلالية المستخدمة على نطاق واسع.

الشبكات التلافيفية الكاملة (FCNs)

الشبكة التلافيفية الكاملة (FCN) هي بنية شبكة عصبية متطورة تُستخدم في التجزئة الدلالية التي تعتمد على عدة طبقات تلافيفية متصلة. في حين أن بنية الشبكة العصبية التلافيفية (CNN) التقليدية تتكون من طبقات تلافيفية وطبقات مسطحة تخرج تصنيفات مفردة، فإن نماذج الشبكة التلافيفية الكاملة (FCN) تستبدل بعض تلك الطبقات المسطحة بكتل تلافيفية بنسبة 1:1 التي يمكنها استخلاص المزيد من المعلومات حول الصورة. تجنب استخدام الطبقات المسطحة والأكثر كثافة لصالح الطبقات التلافيفية والتجميع أو زيادة العينات يجعل شبكات FCN أسهل في التدريب.

  • زيادة وتقليل العينات: مع تجميع الشبكة المزيد من الطبقات التلافيفية، يتم تقليل حجم الصورة، مما يؤدي إلى معلومات مكانية أقل بالإضافة إلى معلومات على مستوى البكسل، وهي عملية ضرورية تُعرف باسم تقليل العينات. في المرحلة الأخيرة من هذه العملية، يُجري مهندسو البيانات تحسينًا للصور عبر توسيع أو زيادة عينات خريطة السمات المُنشأة، لإعادتها إلى حجم الصورة الأصلية.

  • التجميع الأقصى: التجميع الأقصى هو أداة حاسمة أخرى في عملية استخراج المعلومات من مناطق الصورة وتحليلها. يقوم التجميع الأقصى باختيار العنصر الأكبر في المنطقة التي يتم تحليلها، وبالتالي يمكن أن ينتج عنه خريطة سمات تحتوي على أبرز السمات من خريطة السمات السابقة.

U-Nets

تعد بنية U-Net تعديلًا لبنية FCN الأصلية التي تم تقديمها في عام 2015 وتحقق نتائج أفضل باستمرار. وتتكون من جزأين، المُشفِّر والمُفكِّك. بينما يقوم المُشفِّر بتكديس الطبقات التلافيفية التي تقوم باستمرار بتصغير عينات الصورة لاستخراج المعلومات منها، يقوم المُفكِّك بإعادة بناء سمات الصورة باستخدام عملية الالتفاف العكسي. تُستخدم بنية U-net بشكل أساسي في المجال الطبي لتحديد الأورام السرطانية وغير السرطانية في الرئتين والدماغ.

  • وصلات التخطي: ابتكار هام قدمته شبكة U-Net للشبكات العصبية التلافيفية الكاملة (FCNs)، وتُعرف بوصلات التخطي، وتُستخدم لربط مخرج طبقة تلافيفية بأخرى غير متجاورة. عملية وصلات التخطي هذه تقلل من فقدان البيانات أثناء تقليل حجم العينات، وتُمكّن من إنتاج مخرجات ذات دقة أعلى. يتم زيادة عينات كل طبقة التفافية بشكل مستقل ودمجها مع ميزات من طبقات أخرى حتى تمثل المخرجات النهائية الصورة التي يتم تحليلها بدقة.

DeepLab

تم تطوير نموذج تقسيم الدلالي DeepLab بواسطة Google في عام 2015 لزيادة تحسين بنية شبكة FCN الأصلية وتقديم نتائج أكثر دقة. بينما تقلل تكدسات الطبقات في نموذج الشبكة التلافيفية الكاملة (FCN) دقة الصورة بشكل كبير، تستخدم بنية DeepLab عملية تسمى الالتفاف التوسعي (atrous convolution) لإعادة تكبير البيانات. باستخدام عملية الالتفاف التوسعي، يمكن لنوى الالتفاف إزالة معلومات من الصورة وترك فجوات بين معاملات النواة.

يقوم نهج DeepLab للتلافيف المتوسعة بسحب البيانات من مجال الرؤية الأوسع مع الحفاظ على نفس الدقة. ثم يتم تمرير فضاء السمات عبر خوارزمية حقل عشوائي شرطي متصل بالكامل (CRF) لالتقاط المزيد من التفاصيل واستخدامها لدالة الخسارة على مستوى البكسل، مما يؤدي إلى قناع تجزئة أكثر وضوحًا ودقة.

شبكة تحليل المشهد الهرمية (PSPNet)

في عام 2017، تم تقديم خوارزمية تجزئة جديدة لتجزئة الصور. تستخدم شبكة تحليل المشهد الهرمية (PSPNet) وحدة تحليل هرمية تجمع مجموعات البيانات السياقية للصور بمعدل دقة أعلى من سابقاتها. مثل سابقاتها، تستخدم بنية PSPNet نهج المُشفِّر-المُفكِّك، ولكن في حين استخدم DeepLab تقنية زيادة الحجم لإجراء حساباته على مستوى البكسل، تضيف PSPNet طبقة تجميع هرمية جديدة لتحقيق نتائجه. يسمح تجميع المقاييس المتعددة في شبكة PSPNet بتحليل نطاق أوسع من معلومات الصورة مقارنة بالنماذج الأخرى.

حالات استخدام التجزئة الدلالية

المركبات ذاتية القيادة

تستخدم السيارات ذاتية القيادة التجزئة الدلالية لرؤية العالم من حولها والتفاعل معه في الوقت الفعلي. تقوم التجزئة الدلالية بفصل ما تراه السيارة إلى مناطق بصرية مصنفة مثل مسارات الطريق، والسيارات الأخرى، والتقاطعات. المعرفة التي يتم تزويد السيارة بها من خلال التجزئة الدلالية تمكنها من التنقل بأمان والوصول إلى وجهتها، وكذلك اتخاذ إجراءات مهمة استجابة للأحداث غير المتوقعة مثل عبور أحد المشاة للطريق أو فرملة سيارة أخرى بشكل مفاجئ.

التشخيص الطبي

تعتمد الكثير من الإجراءات الطبية الشائعة مثل الأشعة المقطعية والأشعة السينية على تحليل الصور. بينما كانت هذه المهمة عادةً ما تقع على عاتق متخصصين طبيين في الماضي، تحقق نماذج تجزئة الصور الطبية اليوم نتائج مماثلة. ومن خلال تحليل الصورة ورسم حدود دقيقة حول الكائنات المختلفة فيها، يمكن للذكاء الاصطناعي المزود بتقسيم دلالي أن يساعد في اكتشاف الحالات غير الطبيعية وحتى اقتراح تشخيصات محتملة.

الزراعة

يستخدم المزارعون الذكاء الاصطناعي والأتمتة والتجزئة الدلالية للمساعدة في الكشف عن الآفات في محاصيلهم وحتى أتمتة رش المبيدات. يمكن لرؤية الكمبيوتر أن تخبر المزارع بأجزاء الحقل التي يحتمل أن تكون مصابة أو معرضة للخطر، ويمكن للنظام الآلي اتخاذ إجراءات للقضاء على الآفة.

التصوير

يتم استخدام التجزئة الدلالية بشكل متكرر لتمكين الكاميرات من الانتقال بين الوضع الرأسي والأفقي أو إضافة مرشح أو إزالته أو إنشاء تأثير. تستخدم جميع الفلاتر والميزات الشائعة على تطبيقات مثل Instagram و TikTok التجزئة الدلالية لتحديد السيارات والمباني والحيوانات والأجسام الأخرى حتى يمكن تطبيق الفلاتر أو التأثيرات المختارة.

حلول ذات صلة
®IBM® watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. توصَّل إلى حلول ذكاء اصطناعي قوية باستخدام واجهات سهلة الاستخدام وتدفقات سير عمل سلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرمجيات وفق معايير الصناعة (SDKs).

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1"التعلم الآلي العملي لرؤية الكمبيوتر"، Lakshmanan، Valliappa، Gorner، Martin و Gillard، Ryan، O’Reilly Media، يوليو 2021