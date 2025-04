هناك عدد من الأساليب في التعلم الآلي لمهام اكتشاف الأشياء،حيث تشمل الأمثلة إطار عمل Viola-Jones8 والمخطط الإحصائي للمدرجات الموجهة.9 ومع ذلك، ركزت أبحاث وتطوير اكتشاف الأشياء الحديثة بشكل كبير على الشبكات العصبية التلافيفية (CNN).وبالتالي، يركز هذا القسم على نوعين من الشبكات العصبية التلافيفية (CNN) التي تُناقش بشكل أكبر في أبحاث اكتشاف الأشياء.لاحظ أن هذه النماذج تُختبر وتُقارن باستخدام مجموعات بيانات معيارية، مثل مجموعة بيانات Microsoft COCO أو ImageNet.

تُعد الشبكة العصبية التلافيفية القائمة على المنطقة (R-CNN) كاشفًا ذا مرحلتين يستخدم طريقة تُسمى اقتراحات المناطق لتوليد 2000 تنبؤ بمنطقة لكل صورة. ثم تقوم الشبكة العصبية التلافيفية القائمة على المنطقة (R-CNN) بتوحيد حجم المناطق المستخرجة وتشغيلها عبر شبكات منفصلة لاستخراج الميزات والتصنيف، حيث يتم تصنيف كل منطقة وفقًا لدرجة الثقة في تصنيفها. بعد ذلك، تستبعد الشبكة العصبية التلافيفية القائمة على المنطقة (R-CNN) المناطق التي تمتلك تداخلًا معينًا في مقياس التقاطع على الاتحاد (IoU) مع منطقة أخرى مصنفة بتقييم أعلى. وتكون المناطق المتبقية، غير المتداخلة، والتي حصلت على أعلى التقييمات المصنفة هي الناتج النهائي للنموذج.10 وكما هو متوقع، فإن هذه البنية مكلفة حسابيًا وبطيئة. تُعد الشبكة العصبية التلافيفية السريعة القائمة على المنطقة (Fast R-CNN) والشبكة العصبية التلافيفية الأسرع القائمة على المنطقة (Faster R-CNN) تعديلات لاحقة تقلل من حجم بنية الشبكة العصبية التلافيفية القائمة على المنطقة (R-CNN)، وبالتالي تقلل من وقت المعالجة مع زيادة الدقة أيضًا.11

تُعد خوارزمية اكتشاف الأشياء (You Only Look Once "اختصارًا YOLO") مجموعة من بنى اكتشاف الأشياء أحادية المرحلة، وهي قائمة على Darknet، وهو إطار عمل مفتوح المصدر للشبكات العصبية التلافيفية (CNN). فقد طُورت بنية YOLO لأول مرة في عام 2016، حيث تُعطي الأولوية للسرعة، مما يجعلها الخيار المفضل في اكتشاف الأشياء في الوقت الحقيقي، ولذلك تُوصف غالبًا بأنها "الكاشف المتقدم للأشياء". تختلف بنية YOLO عن الشبكة العصبية التلافيفية القائمة على المنطقة (R-CNN) في عدة نواحٍ. فبينما تُمرر شبكة (R-CNN) المناطق المستخرجة من الصور عبر شبكات متعددة لاستخراج الميزات وتصنيف الصور بشكل منفصل، تُدمج بنية YOLO هذه العمليات في شبكة واحدة. وثانيًا، مقارنةً بحوالي 2000 اقتراح لمنطقة في (R-CNN)، تقوم بنية YOLO بإجراء أقل من 100 توقع لصندوق الاحتواء لكل صورة. وإضافةً إلى تميزها بسرعة أكبر من شبكة (R-CNN)، تُنتج بنية YOLO أيضًا عددًا أقل من القيم الإيجابية الخاطئة في الخلفية، على الرغم من أنها تحتوي على معدل خطأ أعلى في التحديد الموضعي.12 وقد شهدت بنية YOLO منذ تطويرها العديد من التحديثات الي ركزت بشكل أساسي على تحسين السرعة والدقة.13

على الرغم من أن شبكة (R-CNN) وبنية YOLO قد طُوِّرتا في الأصل لاكتشاف الأشياء، إلا أن الإصدارات الأحدث منهما يمكنها أيضًا تدريب نماذج التصنيف والتجزئة. وتحديدًا، تجمع الشبكة العصبية التلافيفية القائمة على المنطقة ذات القناع (Mask R-CNN) بين اكتشاف الأشياء والتجزئة، في حين يمكن للإصدار الخامس من بنية YOLOv5 تدريب نماذج منفصلة لكل من التصنيف والاكتشاف والتجزئة.

وبالطبع، هناك العديد من بُنى النماذج الأخرى بخلاف شبكة (R-CNN) وبنية YOLO. يُعد الكاشف أحادي اللقطة (SSD) وRetinanet نموذجين إضافيين يستخدمان بنية مبسطة مشابهة لبنية YOLO.14 أما بنية (DETR)، فهي نموذج آخر طورته شركة Facebook (التي تُعرف الآن باسم "Meta") يجمع بين الشبكة العصبية التلافيفية (CNN) ونموذج المحول، ويظهر أداءً مقاربًا للشبكة العصبية التلافيفية الأسرع القائمة على المنطقة (Faster R-CNN).15