ما هو اكتشاف الأشياء؟

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

تقنية اكتشاف الأشياء هي تقنية تستخدم الشبكات العصبية لتحديد موقع الأجسام في الصور وتصنيفها، حيث تتسم هذه المهمة المتعلقة برؤية الكمبيوتر بنطاق واسع من التطبيقات، بدءًا من التصوير الطبي إلى السيارات ذاتية القيادة.

تُعَد تقنية اكتشاف الكائنات مهمة من مهام رؤية الكمبيوتر تهدف إلى تحديد مواقع الأشياء في الصور الرقمية. وبهذا المعنى، يُعَد اكتشاف الكائنات أحد تطبيقات الذكاء الاصطناعي، ويعمل على تدريب أجهزة الكمبيوتر على الرؤية كما يفعل البشر، من خلال التعرُّف على الكائنات وتصنيفها وفق الفئات الدلالية.1 أما تحديد مواقع الكائنات فهو تقنية لتعيين موقع الكائنات المحددة في الصورة عبر رسم إطار حدودي حولها. كما يُعَد تصنيف الكائنات تقنية أخرى تحدِّد الفئة التي ينتمي إليها الكائن المكتشف. تجمع مهمة اكتشاف الكائنات بين مهمتَي تحديد مواقع الكائنات وتصنيفها، لتقدير كلٍّ من موقع ونوع الكائنات في صورة واحدة أو أكثر في الوقت نفسه.2

مهام رؤية الكمبيوتر

تتداخل تقنية اكتشاف الأشياء مع تقنيات رؤية الكمبيوتر الأخرى، لكن المطورين يعاملونها كجهد منفصل،

حيث يهدف تصنيف الصور (أو التعرف على الصور) إلى تصنيف الصور وفقًا لفئات محددة. ومثال بسيط على ذلك هو اختبارات كابتشا (CAPTCHA) للصور، حيث يمكن تنظيم مجموعة من الصور كصور تحتوي على إشارات توقف وصور بدونها، حيث يُعيّن تصنيف الصور تسمية واحدة للصورة بالكامل.

وعلى النقيض، تُميز تقنية اكتشاف الأشياء الأشياء الفردية في الصورة وفقًا للفئات المحددة، وبينما تقوم تقنية تصنيف الصور بتقسيم الصور بين تلك التي تحتوي على إشارات توقف وتلك التي لا تحتوي عليها، تقوم تقنية اكتشاف الأشياء بتحديد مواقع جميع إشارات الطرق في الصورة، بالإضافة إلى أشياء أخرى مثل السيارات والأشخاص.

تُشبه تجزئة الصور (أو التجزئة الدلالية) اكتشاف الكائنات، ولكنها أكثر دقة. فمثل اكتشاف الكائنات، تعمل التجزئة على تحديد الكائنات في الصورة وفقًا للفئات الدلالية. ولكن بدلًا من تحديد الكائنات باستخدام كربعات، تعمل التجزئة على تمييز الكائنات على مستوى البكسل.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

كيف تعمل تقنية اكتشاف الأشياء

فهم الآليات الداخلية لتقنية اكتشاف الأشياء يتطلب أساسًا في رؤية الكمبيوتر ومعالجة الصور الرقمية بشكل عام. يُوفر هذا القسم لمحة عامة حول الأمر.

معالجة الصور

في رؤية الكمبيوتر، يتم التعبير الصور كدوال مستمرة على مستوى إحداثي ثنائي الأبعاد (2D) يمثِّل بـ f(x,y). فعند تحويل الصور إلى صور رقمية، تخضع الصور لعمليتين رئيسيتين هما أخذ العينات والتكميم، اللتين باختصار، تعملان معًا على تحويل الدالة المستمرة للصورة إلى بنية شبكية منفصلة من عناصر البكسل. وبعد ذلك، يُمكن للكمبيوتر تجزئة الصورة إلى مناطق منفصلة وفقًا للتشابه البصري والقرب بين وحدات البكسل.3

من خلال تصنيف الصور باستخدام واجهة التعليقات التوضيحية، يقوم المستخدمون بتعريف شيء معين كمنطقة تحتوي على ميزات محددة على مستوى البكسل (على سبيل المثال، المساحة والقيمة الرمادية وما إلى ذلك). فعند تقديم صورة مدخلة، يتعرَّف نموذج اكتشاف الكائنات على المناطق ذات الميزات المشابهة لتلك المعرَّفة في مجموعة البيانات التدريبية على أنها الكائن نفسه. وبهذه الطريقة، يُعَد اكتشاف الكائنات شكلًا من أشكال التعرُّف على الأنماط. نماذج اكتشاف الكائنات لا تتعرَّف على الكائنات بحد ذاتها، بل على مجموعات من الخصائص مثل الحجم والشكل واللون، وتصنِّف المناطق وفق الأنماط البصرية المستنتجة من بيانات التدريب المصنّفة يدويًا.4

على سبيل المثال، لا يتعرف نموذج اكتشاف الأشياء في السيارة الذاتية القيادة على المشاة بل على مجموعة من الميزات التي تشكل النمط العام الذي يميز الأشياء الممثلة للمشاة (كما هو محدد في بيانات التدريب).

بنية النموذج

بينما تستخدم مجموعات النماذج المختلفة بنى مختلفة، تتَّبِع نماذج التعلم العميق لاكتشاف الكائنات بنية عامة. حيث تتكون هذه النماذج من العمود الفقري والعنق والرأس.

يستخرج العمود الفقري الميزات من الصورة المدخلة. وغالبًا ما يكون العمود الفقري مشتقًا من جزء من نموذج تصنيف مدرب مسبقًا. ينتج استخراج الميزات مجموعة متنوعة من خرائط الميزات ذات الدقة المختلفة التي يمررها العمود الفقري إلى العنق. ويدمج هذا الجزء الأخير من الهيكل خرائط الميزات لكل صورة. وبعد ذلك، تُمرر البنية خرائط الميزات المتعددة الطبقات إلى الرأس، الذي يتنبأ بمربعات الاحتواء ودرجات التصنيف لكل مجموعة ميزات.

تقوم الكاشفات ذات المرحلتين بفصل تحديد موقع الشيء وتصنيفه في الرأس، بينما تدمج الكاشفات أحادية المرحلة هذه المهام. وبشكل عام، توفِّر الكاشفات ذات المرحلتين دقة أعلى في تحديد الموقع، بينما تعمل الكاشفات ذات المرحلة الواحدة بشكل أسرع.5

مقاييس التقييم

مقياس التقاطع على الاتحاد (IoU) هو مقياس تقييم شائع يستخدم في نماذج اكتشاف الكائنات. ومربع الاحتواء هو الناتج المحدد الذي يميز الشيء المكتشف كما تنبأ به النموذج. حيث يحسب مقياس التقاطع على الاتحاد (IoU) نسبة مساحة تقاطع مربعين (أي مساحة الأجزاء المتداخلة من المربعات) إلى مساحة اتحادهما (أي المساحة الكلية للمربعين معًا):6

يمكننا تصور هذه المعادلة كما يلي:

تستخدم النماذج مقياس التقاطع على الاتحاد (IoU) لقياس دقة التنبؤ عن طريق حساب التقاطع على الاتحاد (IoU) بين مربع مُتنبئ به ومربع الحقيقة الأرضية، كما تستخدم بنى النماذج مقياس التقاطع على الاتحاد (IoU) لتوليد التنبؤات النهائية لمربعات الاحتواء. ونظرًا لأن النماذج غالبًا ما تولد عدة مئات من تنبؤات مربعات الاحتواء لشيء واحد مكتشف، تستخدم النماذج مقياس التقاطع على الاتحاد (IoU) لتقييم تنبؤات مربعات الاحتواء وتوحيدها في مربع واحد لكل شيء مكتشف.

قد تُستخدم مقاييس أخرى لتقييمات مختلفة لنماذج اكتشاف الكائنات. حيث يُعَد التقاطع المعمم على الاتحاد (GIoU) نسخة معدلة من مقياس التقاطع على الاتحاد (IoU) والذي يأخذ في الاعتبار تحسينات في تحديد موقع الشيء حيث يمكن أن يعود مقياس التقاطع على الاتحاد (IoU) الأساسي بقيمة صفرية (فارغة).7 كما تستخدم أبحاث اكتشاف الكائنات مقاييس استرجاع المعلومات الشائعة، مثل متوسط الدقة والاستدعاء.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

خوارزميات وبنى اكتشاف الأشياء

هناك عدد من الأساليب في التعلم الآلي لمهام اكتشاف الكائنات. تشمل الأمثلة إطار عمل Viola-Jones 8 والرسم البياني للتدرّجات الموجَّهة.9 ومع ذلك، ركَّزت أبحاث وتطوير اكتشاف الكائنات الحديثة بشكل كبير على الشبكات العصبية الالتفافية (CNN). وبالتالي، يركِّز هذا القسم على نوعين من الشبكات العصبية الالتفافية (CNN) التي تُناقش بشكل أكبر في أبحاث اكتشاف الكائنات. لاحِظ أن هذه النماذج يتم اختبارها ومقارنتها باستخدام مجموعات بيانات معيارية، مثل مجموعة بيانات Microsoft COCO أو ImageNet.

تُعَد الشبكة العصبية الالتفافية القائمة على المنطقة (R-CNN) كاشفًا ذا مرحلتين يستخدم طريقة تُسمَّى اقتراحات المناطق لتوليد 2,000 تنبؤ بمنطقة لكل صورة. ثم تعمل الشبكة العصبية الالتفافية القائمة على المنطقة (R-CNN) على تحويل المناطق المستخرجة إلى حجم موحَّد وتشغيل هذه المناطق عبر شبكات منفصلة لاستخراج الميزات والتصنيف. فكل منطقة تُصنَّف وفقًا لثقة تصنيفها. ثم ترفض الشبكة العصبية الالتفافية القائمة على المنطقة (R-CNN) المناطق التي لها تداخل تقاطع على الاتحاد (IoU) معين مع منطقة أخرى مصنّفة بتقييم أعلى. وتكون المناطق المتبقية التي لا تتداخل والتي حصلت على أعلى التقييمات المصنّفة هي الناتج النهائي للنموذج.10 وكما هو متوقع، فإن هذه البنية مكلِّفة حسابيًا وبطيئة. تُعَد الشبكة العصبية الالتفافية السريعة القائمة على المنطقة (R-CNN) والشبكة العصبية الالتفافية الأسرع القائمة على المنطقة (R-CNN) تعديلات لاحقة تقلل من حجم بنية الشبكة العصبية الالتفافية القائمة على المنطقة (R-CNN)، وبالتالي تقلل من وقت المعالجة مع زيادة الدقة أيضًا.11

تُعَد خوارزمية YOLO (You Only Look Once) مجموعة من بنى اكتشاف الكائنات أحادية المرحلة، وهي قائمة على Darknet، إطار عمل الشبكة العصبية الالتفافية (CNN) مفتوحة المصدر. تم تطوير بنية YOLO لأول مرة في عام 2016، وهي تُعطي الأولوية للسرعة. وفي الواقع، يُفضَّل استخدام YOLO في اكتشاف الكائنات في الوقت الفعلي بفضل سرعتها، ما أكسبها وصفًا شائعًا بأنها "خوارزمية اكتشاف الكائنات المتقدمة". تختلف بنية YOLO عن الشبكة العصبية الالتفافية القائمة على المنطقة (R-CNN) في عدة نواحٍ. فبينما تُمرِّر شبكة (R-CNN) المناطق المستخرجة من الصور عبر شبكات متعددة تستخرج الميزات وتصنِّف الصور بشكل منفصل، تُدمج YOLO هذه العمليات في شبكة واحدة. وثانيًا، مقارنةً بحوالي 2000 اقتراح لمنطقة في (R-CNN)، تُجري بنية YOLO أقل من 100 توقُّع لصندوق محيط لكل صورة. بالإضافة إلى كونها أسرع من R-CNN، تُنتج YOLO أيضًا عددًا أقل من الإيجابيات الزائفة في الخلفية، رغم أن خطأ تحديد المواقع فيها أعلى.12 وقد شهدت YOLO العديد من التحديثات منذ إنشائها، مع تركيز عام على السرعة والدقة.13

على الرغم من أنه تم تطوير شبكة (R-CNN) وبنية يولو (YOLO) في الأصل لاكتشاف الأشياء، إلا أن الإصدارات الأحدث منهما يمكنها أيضًا تدريب نماذج التصنيف والتجزئة. فعلى وجه التحديد، تجمع الشبكة العصبية التلافيفية السريعة القائمة على المنطقة ذات القناع (Mask R-CNN) بين اكتشاف الأشياء والتجزئة، بينما يمكن للإصدار الخامس من يولو (YOLOv5) تدريب نماذج منفصلة للتصنيف والاكتشاف والتجزئة.

وبالطبع، هناك كثير من بنى النماذج الأخرى بخلاف شبكة R-CNN وبنية YOLO. SSD وRetinanet هما نموذجان إضافيان يستخدمان بنية مبسَّطة مشابهة لـ YOLO.14 DETR هي بنية أخرى طورتها شركة Facebook (Meta الآن) تجمع بين CNN ونموذج المحوِّل وتُظهر أداءً مماثلًا لـ Faster R-CNN.‏15

أمثلة على حالات الاستخدام

في كثير من الحالات الاستخدام، لا يعد التعرف على الأشياء غاية في حد ذاته، بل مرحلة واحدة ضمن مهمة أكبر في رؤية الكمبيوتر.

القيادة الذاتية

تعتمد السيارات ذاتية القيادة بشكل واسع على اكتشاف الكائنات للتعرُّف عليها مثل السيارات والمشاة. ومن الأمثلة على ذلك الذكاء الاصطناعي للطيار الآلي في Tesla. ونظرًا لسرعتها العالية، تُعَد البنى البسيطة مثل بنية YOLO وSimpleNet أكثر مثالية للقيادة الذاتية.16

التصوير الطبي

يمكن أن يُساعد اكتشاف الكائنات في مهام الفحص البصري. فعلى سبيل المثال، يبحث جزء كبير من أبحاث اكتشاف الكائنات في المقاييس والنماذج لتحديد المؤشرات الفسيولوجية للأمراض في الصور الطبية مثل الأشعة السينية وصور الرنين المغناطيسي. وفي هذا المجال، ركَّزت كثير من الأبحاث على تحسين توازن مجموعات البيانات نظرًا لندرة مثل هذه الصور الطبية للأمراض.17

الأمان

قد تستخدم مراقبة الفيديو اكتشاف الكائنات في الوقت الفعلي لتتبُّع الكائنات المرتبطة بالجريمة، مثل الأسلحة أو السكاكين في لقطات كاميرات المراقبة. ومن خلال اكتشاف هذه الكائنات، يمكن لأنظمة الأمن التنبؤ بالجريمة ومنعها. فقد طوَّر الباحثون خوارزميات لاكتشاف الأسلحة باستخدام الشبكة العصبية الالتفافية القائمة على المنطقة (R-CNN) وبنية YOLO.‏18

الأبحاث الحديثة

تُعَد مجموعات البيانات غير المتوازنة إحدى المشكلات التي تواجه مهام اكتشاف الكائنات، حيث تفوق العيّنات السلبية (أي الصور التي لا تحتوي على الشيء المُراد اكتشافه) بشكل كبير العيّنات الإيجابية في كثير من مجموعات البيانات الخاصة بمجالات معينة. وهذه مشكلة خاصة في الصور الطبية، حيث يصعب الحصول على عيّنات إيجابية للأمراض. حيث تستفيد الأبحاث الحديثة من تكبير البيانات لتوسيع وتنويع مجموعات البيانات المحدودة لتحسين أداء النموذج.19

ركَّزت التطورات السابقة في اكتشاف الكائنات بشكل كبير على الصور ثنائية الأبعاد. وفي الآونة الأخيرة، تحوَّل الباحثون إلى تطبيقات اكتشاف الكائنات للصور ثلاثية الأبعاد والفيديو. فقد تسبَّب طمس الحركة وتحوُّل تركيز الكاميرا في حدوث مشكلات في تحديد الكائنات عبر إطارات الفيديو. استكشَف الباحثون مجموعة من الأساليب والبنى لتعزيز اكتشاف الكائنات عبر الإطارات على الرغم من هذه الظروف، مثل بنية الشبكة العصبية المتكررة والذاكرة طويلة المدى وقصيرة المدى (LSTM)20 والنماذج القائمة على المحوِّلات.21 تم استخدام المحوِّلات لتسريع نماذج اكتشاف الكائنات لمهام الكشف في الوقت الفعلي. كما تشكِّل تقنيات المعالجة المتوازية مجالًا بارزًا آخر في هذا المسعى.22

حلول ذات صلة
IBM Maximo Visual Inspection

إطلاق العنان لقوة رؤية الكمبيوتر بدون رموز برمجية لأتمتة الفحص البصري.

استكشاف Maximo Visual Inspection
الاستشارات والخدمات في مجال الذكاء الاصطناعي

تساعد خدمات الذكاء الاصطناعي التي تقدمها IBM Consulting في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.

استكشف خدمات الذكاء الاصطناعي
حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي
اتخِذ الخطوة التالية

يضع IBM Maximo Visual Inspection قوة الذكاء الاصطناعي لرؤية الكمبيوتر بين أيدي فرق مراقبة الجودة والفحص لديك. أطلق العنان لقوة رؤية الكمبيوتر بدون برمجة لأتمتة الفحص البصري.

استكشاف Maximo Visual Inspection ألقِ نظرة على قدرات المنتج