تقنية اكتشاف الأشياء هي تقنية تستخدم الشبكات العصبية لتحديد موقع الأجسام في الصور وتصنيفها،حيث تتسم هذه المهمة المتعلقة برؤية الكمبيوتر بنطاق واسع من التطبيقات، بدءًا من التصوير الطبي إلى السيارات ذاتية القيادة.
تقنية اكتشاف الأشياء هي حدى مهام رؤية الكمبيوتر التي تهدف إلى تحديد مواقع الأشياء في الصور الرقمية. وبذلك، تُعد نوعًا من الذكاء الاصطناعي يتضمن تدريب أجهزة الكمبيوتر على الرؤية كما يفعل البشر، تحديدًا من خلال التعرف على الأشياء وتصنيفها وفقًا للفئات الدلالية.1 يُعد تحديد موقع الأشياء تقنية لتحديد موقع أشياء معينة في الصورة عن طريق تمييز الشيء/الجسم باستخدام صندوق تحديد، كما يُعد تصنيف الأشياء تقنية أخرى تحدد الفئة التي ينتمي إليها الشيء/الجسم المكتشف. وتجمع مهمة اكتشاف الأشياء بين تحديد الموقع والتصنيف لتقدير موقع ونوع الأشياء في صورة أو أكثر بشكل متزامن.2
تتداخل تقنية اكتشاف الأشياء مع تقنيات رؤية الكمبيوتر الأخرى، لكن المطورين يعاملونها كجهد منفصل،
حيث يهدف تصنيف الصور (أو التعرف على الصور) إلى تصنيف الصور وفقًا لفئات محددة. ومثال بسيط على ذلك هو اختبارات كابتشا (CAPTCHA) للصور، حيث يمكن تنظيم مجموعة من الصور كصور تحتوي على إشارات توقف وصور بدونها، حيث يُعيّن تصنيف الصور تسمية واحدة للصورة بالكامل.
وعلى النقيض، تُحدد تقنية اكتشاف الأشياء مواقع الأجسام الفردية في الصورة وفقًا للفئات المحددة. وبينما تقوم تقنية تصنيف الصور بفرز الصور إلى فئات مثل تلك التي تحتوي على إشارات توقف وتلك التي لا تحتوي عليها، فإن تقنية اكتشاف الأشياء تحدد مواقع جميع إشارات الطرق في الصورة، بالإضافة إلى أشياء أخرى مثل السيارات والأشخاص.
تقسيم الصور (أو التقسيم الدلالي) يشبه اكتشاف الأشياء، ولكنه أكثر دقة. فمثل اكتشاف الأشياء، يقوم التقسيم بتحديد الأشياء في الصورة وفقًا للفئات الدلالية. ولكن بدلاً من تحديد الأشياء باستخدام صناديق، يقوم التقسيم بتمييز الأشياء على مستوى البيكسل.
يتطلب فهم الآليات الداخلية لتقنية اكتشاف الأشياء أساسًا في رؤية الكمبيوتر ومعالجة الصور الرقمية بشكل أوسع. يوفر هذا القسم لمحة عامة عن المفهوم.
في رؤية الكمبيوتر، يتم تمثيل الصور كدوال مستمرة على مستوى إحداثي ثنائي الأبعاد (2D) يُعبر عنه بالدالة f(x,y). فعند تحويل الصور إلى صور رقمية، تخضع الصور لعمليتين رئيسيتين هما أخذ العينات والتكميم، واللتين تعملان معًا على تحويل الدالة المستمرة للصورة إلى بنية شبكية منفصلة من عناصر البكسل. وبعد ذلك، يُمكن للكمبيوتر تقسيم الصورة إلى مناطق منفصلة وفقًا للتشابه البصري والقرب بين وحدات البكسل.3
من خلال وضع علامات على الصور باستخدام واجهة التعليقات التوضيحية، يقوم المستخدمون بتعريف شيء معين كمنطقة تحتوي على ميزات محددة على مستوى البكسل (مثل المساحة، أو القيمة الرمادية، وغيرهما). فعند إدخال صورة، يتعرف نموذج اكتشاف الأشياء على المناطق ذات الميزات المشابهة لتلك المحددة في مجموعة البيانات التدريبية، ويصنفها على أنها نفس الشيء. وبهذه الطريقة، يعد اكتشاف الأشياء شكلاً من أشكال التعرف على الأنماط، حيث لا يتعرف نموذج اكتشاف الأشياء على الأشياء بحد ذاتها، بل على مجموعات من الخصائص مثل الحجم، والشكل، واللون، وما إلى ذلك، ويُصنف المناطق وفقًا للأنماط البصرية المستنتجة من بيانات التدريب التي تم وضع تعليقات توضيحية عليها يدويًا.4
على سبيل المثال، لا يتعرف نموذج اكتشاف الأشياء في السيارة الذاتية القيادة على المشاة بل على مجموعة من الميزات التي تشكل النمط العام الذي يميز الأشياء الممثلة للمشاة (كما هو محدد في بيانات التدريب).
بينما تستخدم مجموعات النماذج المختلفة بنى مختلفة، تتبع نماذج التعلم العميق لاكتشاف الأشياء بنية عامة تتكون من ثلاثة مكونات رئيسية: العمود الفقري، والعنق، والرأس.
يستخرج العمود الفقري الميزات من الصورة المدخلة. وغالبًا ما يكون العمود الفقري مستمدًا من جزء من نموذج تصنيف مدرب مسبقًا. ينتج استخراج الميزات مجموعة متنوعة من خرائط الميزات ذات الدقة المختلفة التي يمررها العمود الفقري إلى العنق. يقوم العنق بدمج خرائط الميزات لكل صورة، ثم تُمرر البنية خرائط الميزات متعددة الطبقات إلى الرأس، الذي يتنبأ بمربعات الاحتواء ودرجات التصنيف لكل مجموعة ميزات.
تفصل الكاشفات ثنائية المرحلة بين مهام تحديد موقع الشيء وتصنيفه في الرأس، في حين تدمج الكاشفات أحادية المرحلة هذه المهام. وبشكل عام، توفر الكاشفات ثنائية المرحلة دقة أعلى في تحديد الموقع، في حين تتميز الكاشفات أحادية المرحلة بسرعة أدائها.5
التقاطع على الاتحاد (IoU) هو مقياس تقييم شائع يستخدم في نماذج اكتشاف الأشياء. يمثل مربع الاحتواء الناتج المحدد الذي يميز الشيء المكتشف كما تنبأ به النموذج، حيث يحسب مقياس التقاطع على الاتحاد (IoU) نسبة مساحة التقاطع بين مربعين (أي مساحة الأجزاء المتداخلة بين المربعين) إلى مساحة اتحادهما (أي المساحة الكلية للمربعين معًا):6
يمكننا تصور هذه المعادلة كما يلي:
تستخدم النماذج مقياس التقاطع على الاتحاد (IoU) لقياس دقة التنبؤ عن طريق حساب التقاطع على الاتحاد (IoU) بين مربع الاحتواء المُتنبأ به ومربع الحقيقة الأرضية. كما تعتمد بنى النماذج على مقياس التقاطع على الاتحاد (IoU) لتوليد التنبؤات النهائية لمربعات الاحتواء. ونظرًا لأن النماذج غالبًا ما تولد عدة مئات من تنبؤات مربعات الاحتواء لشيء واحد مكتشف، فإنها تستخدم مقياس التقاطع على الاتحاد (IoU) لتقييم هذه التنبؤات ودمجها في مربع واحد لكل شيء مكتشف.
قد تُستخدم مقاييس أخرى لتقييم نماذج اكتشاف الأشياء من زوايا مختلفة. يُعد التقاطع المعمم على الاتحاد (GIoU) نسخة معدلة من مقياس التقاطع على الاتحاد (IoU)، حيث يأخذ في الاعتبار تحسينات في تحديد موقع الشيء التي قد يُرجع فيها مقياس التقاطع على الاتحاد (IoU) الأساسي قيمة فارغة (null)،7 كما تعتمد أبحاث اكتشاف الأشياء مقاييس استرجاع المعلومات الشائعة، مثل متوسط الدقة والاستدعاء.
هناك عدد من الأساليب في التعلم الآلي لمهام اكتشاف الأشياء،حيث تشمل الأمثلة إطار عمل Viola-Jones8 والمخطط الإحصائي للمدرجات الموجهة.9 ومع ذلك، ركزت أبحاث وتطوير اكتشاف الأشياء الحديثة بشكل كبير على الشبكات العصبية التلافيفية (CNN).وبالتالي، يركز هذا القسم على نوعين من الشبكات العصبية التلافيفية (CNN) التي تُناقش بشكل أكبر في أبحاث اكتشاف الأشياء.لاحظ أن هذه النماذج تُختبر وتُقارن باستخدام مجموعات بيانات معيارية، مثل مجموعة بيانات Microsoft COCO أو ImageNet.
تُعد الشبكة العصبية التلافيفية القائمة على المنطقة (R-CNN) كاشفًا ذا مرحلتين يستخدم طريقة تُسمى اقتراحات المناطق لتوليد 2000 تنبؤ بمنطقة لكل صورة. ثم تقوم الشبكة العصبية التلافيفية القائمة على المنطقة (R-CNN) بتوحيد حجم المناطق المستخرجة وتشغيلها عبر شبكات منفصلة لاستخراج الميزات والتصنيف، حيث يتم تصنيف كل منطقة وفقًا لدرجة الثقة في تصنيفها. بعد ذلك، تستبعد الشبكة العصبية التلافيفية القائمة على المنطقة (R-CNN) المناطق التي تمتلك تداخلًا معينًا في مقياس التقاطع على الاتحاد (IoU) مع منطقة أخرى مصنفة بتقييم أعلى. وتكون المناطق المتبقية، غير المتداخلة، والتي حصلت على أعلى التقييمات المصنفة هي الناتج النهائي للنموذج.10 وكما هو متوقع، فإن هذه البنية مكلفة حسابيًا وبطيئة. تُعد الشبكة العصبية التلافيفية السريعة القائمة على المنطقة (Fast R-CNN) والشبكة العصبية التلافيفية الأسرع القائمة على المنطقة (Faster R-CNN) تعديلات لاحقة تقلل من حجم بنية الشبكة العصبية التلافيفية القائمة على المنطقة (R-CNN)، وبالتالي تقلل من وقت المعالجة مع زيادة الدقة أيضًا.11
تُعد خوارزمية اكتشاف الأشياء (You Only Look Once "اختصارًا YOLO") مجموعة من بنى اكتشاف الأشياء أحادية المرحلة، وهي قائمة على Darknet، وهو إطار عمل مفتوح المصدر للشبكات العصبية التلافيفية (CNN). فقد طُورت بنية YOLO لأول مرة في عام 2016، حيث تُعطي الأولوية للسرعة، مما يجعلها الخيار المفضل في اكتشاف الأشياء في الوقت الحقيقي، ولذلك تُوصف غالبًا بأنها "الكاشف المتقدم للأشياء". تختلف بنية YOLO عن الشبكة العصبية التلافيفية القائمة على المنطقة (R-CNN) في عدة نواحٍ. فبينما تُمرر شبكة (R-CNN) المناطق المستخرجة من الصور عبر شبكات متعددة لاستخراج الميزات وتصنيف الصور بشكل منفصل، تُدمج بنية YOLO هذه العمليات في شبكة واحدة. وثانيًا، مقارنةً بحوالي 2000 اقتراح لمنطقة في (R-CNN)، تقوم بنية YOLO بإجراء أقل من 100 توقع لصندوق الاحتواء لكل صورة. وإضافةً إلى تميزها بسرعة أكبر من شبكة (R-CNN)، تُنتج بنية YOLO أيضًا عددًا أقل من القيم الإيجابية الخاطئة في الخلفية، على الرغم من أنها تحتوي على معدل خطأ أعلى في التحديد الموضعي.12 وقد شهدت بنية YOLO منذ تطويرها العديد من التحديثات الي ركزت بشكل أساسي على تحسين السرعة والدقة.13
على الرغم من أن شبكة (R-CNN) وبنية YOLO قد طُوِّرتا في الأصل لاكتشاف الأشياء، إلا أن الإصدارات الأحدث منهما يمكنها أيضًا تدريب نماذج التصنيف والتجزئة. وتحديدًا، تجمع الشبكة العصبية التلافيفية القائمة على المنطقة ذات القناع (Mask R-CNN) بين اكتشاف الأشياء والتجزئة، في حين يمكن للإصدار الخامس من بنية YOLOv5 تدريب نماذج منفصلة لكل من التصنيف والاكتشاف والتجزئة.
وبالطبع، هناك العديد من بُنى النماذج الأخرى بخلاف شبكة (R-CNN) وبنية YOLO. يُعد الكاشف أحادي اللقطة (SSD) وRetinanet نموذجين إضافيين يستخدمان بنية مبسطة مشابهة لبنية YOLO.14 أما بنية (DETR)، فهي نموذج آخر طورته شركة Facebook (التي تُعرف الآن باسم "Meta") يجمع بين الشبكة العصبية التلافيفية (CNN) ونموذج المحول، ويظهر أداءً مقاربًا للشبكة العصبية التلافيفية الأسرع القائمة على المنطقة (Faster R-CNN).15
في كثير من حالات الاستخدام، لا يعد اكتشاف الأشياء غاية في حد ذاته، بل مرحلة واحدة ضمن مهمة أكبر في رؤية الكمبيوتر.
تعتمد السيارات ذاتية القيادة بشكل واسع على اكتشاف الأشياء للتعرف على العناصر مثل السيارات والمشاة. وإحدى الأمثلة على ذلك هي الذكاء الاصطناعي لنظام Autopilot في سيارات تسلا. ونظرًا لسرعتها العالية، تُعتبر البنى المبسطة مثل بنية YOLO وSimpleNet أكثر مثالية لتطبيقات القيادة الذاتية.16
يمكن أن يُساعد اكتشاف الأشياء في مهام الفحص البصري. فعلى سبيل المثال، يركز جزء كبير من أبحاث اكتشاف الأشياء على تطوير المقاييس والنماذج لتحديد المؤشرات الفسيولوجية للأمراض في الصور الطبية، مثل الأشعة السينية وصور الرنين المغناطيسي. وفي هذا المجال، ركزت العديد من الأبحاث على معالة اختلال توازن مجموعات البيانات، نظرًا لندرة الصور الطبية التي توثق الحالات المرضية.17
قد تعتمد أنظمة مراقبة الفيديو على اكتشاف الأشياء في الوقت الحقيقي لتتبع العناصر المرتبطة بالجريمة، مثل الأسلحة أو السكاكين في لقطات كاميرات المراقبة. ومن خلال اكتشاف هذه الأشياء، يمكن لأنظمة الأمان التنبؤ بالجرائم المحتملة والمساهمة في منعها. فقد طوَّر الباحثون خوارزميات لاكتشاف الأسلحة باستخدام كلٍّ من الشبكة العصبية التلافيفية القائمة على المنطقة (R-CNN) وبنية YOLO.18
تعد مجموعات البيانات غير المتوازنة إحدى المشاكل التي تواجه مهام اكتشاف الأشياء، حيث تفوق العينات السلبية (أي الصور التي لا تحتوي على الشيء المراد اكتشافه) بشكل كبير العينات الإيجابية في العديد من مجموعات البيانات الخاصة بمجالات معينة. وتشكّل هذه المشكلة تحديًا خاصًا في الصور الطبية، حيث يصعب الحصول على عينات إيجابية للحالات المرضية. لذلك، تستفيد الأبحاث الحديثة من تقنيات تعزيز البيانات لتوسيع وتنويع مجموعات البيانات المحدودة، مما يساهم في تحسين أداء النموذج.19
ركزت التطورات السابقة في اكتشاف الأشياء بشكل كبير على الصور ثنائية الأبعاد. وفي الآونة الأخيرة، اتجه الباحثون إلى تطبيقات اكتشاف الأشياء للصور ثلاثية الأبعاد والفيديو. فقد تسبب طمس الحركة وتحول تركيز الكاميرا في مشاكل في تحديد الأشياء عبر إطارات الفيديو. لذلك استكشف الباحثون مجموعة متنوعة من الأساليب والبنى للمساعدة في تتبع الأشياء عبر الإطارات رغم هذه التحديات، مثل بنية الشبكة العصبية المتكررة القائمة على الذاكرة طويلة وقصيرة المدى" (LSTM)20 والنماذج القائمة على المحولات.21. وقد استُخدمت المحوّلات لتسريع نماذج اكتشاف الأشياء بهدف تنفيذ مهام الاكتشاف في الوقت الفعلي، كما تُعد تقنيات المعالجة المتوازية مجالًا بارزًا آخر في هذا السياق.22
1 Bogusław Cyganek, Object Detection and Recognition in Digital Images: Theory and Practice, Wiley, 2013.
2 Kemal Oksuz, Baris Can Cam, Sinan Kalkan, and Emre Akbas, "Imbalance Problems in Object Detection: A Review," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 43, No. 10, 2021, pp. 3388-3415, https://ieeexplore.ieee.org/document/9042296.
3 Archangelo Disante and Cosimo Disante, Handbook of Image Processing and Computer Vision, Vol. 1, Springer, 2020. Milan Sonka, Vaclav Hlavac, and Roger Boyle, Image Processing, Analysis, and Machine Vision, 4th edition, Cengage, 2015.
4 Archangelo Disante and Cosimo Disante, Handbook of Image Processing and Computer Vision, Vol. 3, Springer, 2020. Milan Sonka, Vaclav Hlavac, and Roger Boyle, Image Processing, Analysis, and Machine Vision, 4th edition, Cengage, 2015.
5 Benjamin Planche and Eliot Andres, Hands-On Computer Vision with TensorFlow 2, Packt Publishing, 2019. Van Vung Pham and Tommy Dang, Hands-On Computer Vision with Detectron2, Packt Publishing, 2023. Licheng Jiao, Fan Zhang, Fang Liu, Shuyuan Yang, Lingling Li, Zhixi Feng, Rong Qu, "A survey of deep learning-based object detection," IEEE Access, Vol. 7, 2019, pp. 128837-128868, https://ieeexplore.ieee.org/document/8825470. Richard Szeliski, Computer Vision: Algorithms and Applications, 2nd edition, Springer, 2021.
6 Richard Szeliski, Computer Vision: Algorithms and Applications, 2nd edition, Springer, 2021.
7 Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid, and Silvio Savarese, "Generalized intersection over union: A metric and a loss for bounding box regression," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019,pp. 658-666, accessible here.
8 P. Viola and M. Jones, "Rapid object detection using a boosted cascade of simple features," Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2001, https://ieeexplore.ieee.org/document/990517.
9 N. Dalal and B. Triggs, "Histograms of oriented gradients for human detection," Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005, pp. 886-893, https://ieeexplore.ieee.org/document/1467360 .
10 Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," Proceedings of the 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2014, https://arxiv.org/abs/1311.2524 .
11 Ross Girschick, "Fast R-CNN," Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV), 2015, pp. 1440-1448, https://arxiv.org/abs/1504.08083 . Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," Advances in Neural Information Processing Systems (NIPS 2015), Vol. 28, https://proceedings.neurips.cc/paper_files/paper/2015/hash/14bfa6bb14875e45bba028a21ed38046-Abstract.html .
12 Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, "You Only Look Once: Unified, Real-Time Object Detection," 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 779-788, https://arxiv.org/abs/1506.02640.
13 Joseph Redmon and Ali Farhadi, "YOLOv3: An Incremental Improvement," 2018, https://arxiv.org/abs/1804.02767 . Alexey Bochkovskiy, Chien-Yao Wang, and Hong-Yuan Mark Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," European Conference on Computer Vision, 2020, https://arxiv.org/abs/2004.10934 . Xin Huang, Xinxin Wang, Wenyu Lv, Xiaying Bai, Xiang Long, Kaipeng Deng, Qingqing Dang, Shumin Han, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma, and Osamu Yoshie, "PP-YOLOv2: A Practical Object Detector," 2021, https://arxiv.org/abs/2104.10419 . Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao, "YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors," 2022, https://arxiv.org/abs/2207.02696.
14 Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C. Berg, "SSD: Single Shot MultiBox Detector," Proceedings of the European Conference of Computer Vision (ECCV), 2016, pp. 21-37, https://arxiv.org/abs/1512.02325. Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár, "Focal Loss for Dense Object Detection," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 42, No. 2, 2020, pp. 318-327,https://arxiv.org/abs/1708.02002.
15 Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko, "End-to-End Object Detection with Transformers," Proceedings of the European Conference of Computer Vision (ECCV), 2020, https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123460205.pdf .
16 Abhishek Balasubramaniam and Sudeep Pasricha, "Object Detection in Autonomous Vehicles: Status and Open Challenges," 2022, https://arxiv.org/abs/2201.07706. Gene Lewis, "Object Detection for Autonomous Vehicles," 2016, https://web.stanford.edu/class/cs231a/prev_projects_2016/object-detection-autonomous.pdf.
17 Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen, and Minh-Triet Tran, "Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pp. 2729-2738, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html. Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee, and Hansu Cho, "Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pp. 2757-2766, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html.
18 Palash Yuvraj Ingle and Young-Gab Kim, "Real-Time Abnormal Object Detection for Video Surveillance in Smart Cities," Sensors, Vol. 22, No. 10, 2022, https://www.mdpi.com/1424-8220/22/10/3862.
19 Manisha Saini and Seba Susan, "Tackling class imbalance in computer vision: a contemporary review," Artificial Intelligence Review, Vol. 56, 2023, pp. 1279–1335, https://link.springer.com/article/10.1007/s10462-023-10557-6.
20 Kai Kang, Hongsheng Li, Tong Xiao, Wanli Ouyang, Junjie Yan, Xihui Liu, and Xiaogang Wang, "Object Detection in Videos With Tubelet Proposal Networks," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 727-735, https://openaccess.thecvf.com/content_cvpr_2017/html/Kang_Object_Detection_in_CVPR_2017_paper.html
21 Sipeng Zheng, Shizhe Chen, and Qin Jin, "VRDFormer: End-to-End Video Visual Relation Detection With Transformers," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 18836-18846, https://openaccess.thecvf.com/content/CVPR2022/html/Zheng_VRDFormer_End-to-End_Video_Visual_Relation_Detection_With_Transformers_CVPR_2022_paper.html.
22 Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko, "End-to-End Object Detection with Transformers," Proceedings of the European Conference on Computer Vision (ECCV), 2020, pp. 213-229, https://link.springer.com/chapter/10.1007/978-3-030-58452-8_13, Mekhriddin Rakhimov, Jamshid Elov , Utkir Khamdamov , Shavkatjon Aminov, and Shakhzod Javliev, "Parallel Implementation of Real-Time Object Detection using OpenMP," International Conference on Information Science and Communications Technologies (ICISCT), 2021, https://ieeexplore.ieee.org/document/9670146. Yoon-Ki Kim and Yongsung Kim, "DiPLIP: Distributed Parallel Processing Platform for Stream Image Processing Based on Deep Learning Model Inference," Electronics, Vol. 9, No. 10, 2020, https://www.mdpi.com/2079-9292/9/10/1664.