هناك عدد من الأساليب في التعلم الآلي لمهام اكتشاف الكائنات. تشمل الأمثلة إطار عمل Viola-Jones 8 والرسم البياني للتدرّجات الموجَّهة.9 ومع ذلك، ركَّزت أبحاث وتطوير اكتشاف الكائنات الحديثة بشكل كبير على الشبكات العصبية الالتفافية (CNN). وبالتالي، يركِّز هذا القسم على نوعين من الشبكات العصبية الالتفافية (CNN) التي تُناقش بشكل أكبر في أبحاث اكتشاف الكائنات. لاحِظ أن هذه النماذج يتم اختبارها ومقارنتها باستخدام مجموعات بيانات معيارية، مثل مجموعة بيانات Microsoft COCO أو ImageNet.
تُعَد الشبكة العصبية الالتفافية القائمة على المنطقة (R-CNN) كاشفًا ذا مرحلتين يستخدم طريقة تُسمَّى اقتراحات المناطق لتوليد 2,000 تنبؤ بمنطقة لكل صورة. ثم تعمل الشبكة العصبية الالتفافية القائمة على المنطقة (R-CNN) على تحويل المناطق المستخرجة إلى حجم موحَّد وتشغيل هذه المناطق عبر شبكات منفصلة لاستخراج الميزات والتصنيف. فكل منطقة تُصنَّف وفقًا لثقة تصنيفها. ثم ترفض الشبكة العصبية الالتفافية القائمة على المنطقة (R-CNN) المناطق التي لها تداخل تقاطع على الاتحاد (IoU) معين مع منطقة أخرى مصنّفة بتقييم أعلى. وتكون المناطق المتبقية التي لا تتداخل والتي حصلت على أعلى التقييمات المصنّفة هي الناتج النهائي للنموذج.10 وكما هو متوقع، فإن هذه البنية مكلِّفة حسابيًا وبطيئة. تُعَد الشبكة العصبية الالتفافية السريعة القائمة على المنطقة (R-CNN) والشبكة العصبية الالتفافية الأسرع القائمة على المنطقة (R-CNN) تعديلات لاحقة تقلل من حجم بنية الشبكة العصبية الالتفافية القائمة على المنطقة (R-CNN)، وبالتالي تقلل من وقت المعالجة مع زيادة الدقة أيضًا.11
تُعَد خوارزمية YOLO (You Only Look Once) مجموعة من بنى اكتشاف الكائنات أحادية المرحلة، وهي قائمة على Darknet، إطار عمل الشبكة العصبية الالتفافية (CNN) مفتوحة المصدر. تم تطوير بنية YOLO لأول مرة في عام 2016، وهي تُعطي الأولوية للسرعة. وفي الواقع، يُفضَّل استخدام YOLO في اكتشاف الكائنات في الوقت الفعلي بفضل سرعتها، ما أكسبها وصفًا شائعًا بأنها "خوارزمية اكتشاف الكائنات المتقدمة". تختلف بنية YOLO عن الشبكة العصبية الالتفافية القائمة على المنطقة (R-CNN) في عدة نواحٍ. فبينما تُمرِّر شبكة (R-CNN) المناطق المستخرجة من الصور عبر شبكات متعددة تستخرج الميزات وتصنِّف الصور بشكل منفصل، تُدمج YOLO هذه العمليات في شبكة واحدة. وثانيًا، مقارنةً بحوالي 2000 اقتراح لمنطقة في (R-CNN)، تُجري بنية YOLO أقل من 100 توقُّع لصندوق محيط لكل صورة. بالإضافة إلى كونها أسرع من R-CNN، تُنتج YOLO أيضًا عددًا أقل من الإيجابيات الزائفة في الخلفية، رغم أن خطأ تحديد المواقع فيها أعلى.12 وقد شهدت YOLO العديد من التحديثات منذ إنشائها، مع تركيز عام على السرعة والدقة.13
على الرغم من أنه تم تطوير شبكة (R-CNN) وبنية يولو (YOLO) في الأصل لاكتشاف الأشياء، إلا أن الإصدارات الأحدث منهما يمكنها أيضًا تدريب نماذج التصنيف والتجزئة. فعلى وجه التحديد، تجمع الشبكة العصبية التلافيفية السريعة القائمة على المنطقة ذات القناع (Mask R-CNN) بين اكتشاف الأشياء والتجزئة، بينما يمكن للإصدار الخامس من يولو (YOLOv5) تدريب نماذج منفصلة للتصنيف والاكتشاف والتجزئة.
وبالطبع، هناك كثير من بنى النماذج الأخرى بخلاف شبكة R-CNN وبنية YOLO. SSD وRetinanet هما نموذجان إضافيان يستخدمان بنية مبسَّطة مشابهة لـ YOLO.14 DETR هي بنية أخرى طورتها شركة Facebook (Meta الآن) تجمع بين CNN ونموذج المحوِّل وتُظهر أداءً مماثلًا لـ Faster R-CNN.15