我的 IBM

什么是物体检测？

2024 年 1 月 3 日

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

物体检测是一种使用神经网络对图像中的物体进行定位和分类的技术。这项计算机视觉任务应用广泛，从医学成像到自动驾驶汽车，无所不包。

物体检测是一项计算机视觉任务，它旨在定位数字图像中的物体。因此，它属于人工智能的一个实例，其中包括训练计算机掌握如同人类一般的视角，具体则是根据语义类别来识别物体并对其进行分类。¹ 物体定位是一种技术，它可通过利用边界框来划分物体，从而确定图像中位于特定位置的物体。物体分类则是另一种技术，它可用于确定检测到的物体属于哪个类别。物体检测任务结合了物体定位与分类的多个子任务，以便同时估计一个或多个图像中物体实例的位置和类型。²

计算机视觉任务

物体检测与其他计算机视觉技术重叠，但开发人员仍然将其视为一项独立的工作。

图像分类（或图像识别）旨在根据定义的类别对图像进行分类。一个基本示例是 CAPTCHA 图像测试，其中一组图像可以组织为带有停车标志的图像和不带停车标志的图像。图像分类为整个图像分配一个标签。

相比之下，物体检测根据指定的类别描绘图像中的各个物体。图像分类将图像分为带停车标志的图像和不带停车标志的图像，而物体检测对图像中的所有道路标志以及汽车和人等其他物体进行定位和分类。

图像分割（或语义分割）与物体检测类似，但更精确。与物体检测类似，分割根据语义类别描绘图像中的物体。但是，分割不使用框标记物体，而是在像素级别划分物体。

物体检测的工作原理

要理解物体检测的内部机制，需要更广泛的计算机视觉和数字图像处理基础。本节提供了一般概述。

图像处理

在计算机视觉领域，图像在表示为 f(x,y) 的 2D 坐标平面上会以连续函数的形式进行表示。经过数字化处理后，图像会经历两大流程：采样和量化。简而言之，这两个流程会共同将连续图像函数转换为像素元素的离散网格结构。然后，计算机可根据视觉相似度和像素的接近度将图像分割为若干离散的区域。³

通过使用注释接口标记图像，用户可以将特定物体定义为特定像素级特征（例如面积、灰度值等等）的区域。当给定输入图像时，物体检测模型会将具有与训练数据集中定义的特征相似的区域识别为同一物体。这样，物体检测就是模式识别的一种形式。物体检测模型本身不识别物体，而是汇集大小、形状、颜色等属性，并根据从手动注释的训练数据中推断出的视觉模式对区域进行分类。⁴

例如，自动驾驶汽车的物体检测模型并不识别行人，而是识别一组形成表征行人物体的一般模式的特征（如训练数据中所定义）。

模型架构

虽然不同的模型系列使用不同的架构，但用于物体检测的深度学习模型遵循一般结构。它们由脊椎、颈部和头部组成。

主干从输入图像中提取特征。通常，主干来自预训练分类模型的一部分。特征提取会产生无数不同分辨率的特征图，主干将其传递到颈部。该结构的后一部分连接了每个图像的特征图。然后，该架构将分层特征图传递给头部，由头部预测每个特征集的边界框和分类分数。

两级检测器将头部的物体定位和分类分开，而单级检测器将这些任务结合起来。前者通常返回更高的定位精度，而后者执行速度更快。⁵

评估指标

交并比 (IoU) 是物体检测模型中常见的评估指标。边界框是根据模型预测的四边形输出，用于划分检测到的物体。IoU 计算两个边界框的交集面积（即框的重叠部分的面积）与它们的并集面积（即两个框的总面积之和）的比率：⁶

我们可将此方程形象化为：

模型会通过计算预测框与基准真实值框之间的 IoU，从而使用 IoU 来衡量预测准确性。模型架构还会使用 IoU 来生成最终的边界框预测。由于模型通常最初会为单个检测到的物体生成数百个边界框预测，因此模型会使用 IoU 来进行加权，并将边界框预测合并到每个检测到的物体的单个对应框中。

其他指标可用于物体检测模型的不同评估。全局交并比 (GIoU) 是 IoU 的修改版本，它考虑了物体定位的改进，而基本 IoU 仍然会返回空值。⁷ 物体检测研究还采用常见的信息检索指标，例如平均精确度和召回率。

物体检测算法和架构

有许多机器学习方法可以完成物体检测任务。示例包括 Viola-Jones 框架⁸ 和方向梯度直方图。⁹ 然而，最近的物体检测研究和开发主要集中在卷积神经网络 (CNN) 上。因此，本页重点介绍物体检测研究中讨论最多的两类 CNN。请注意，这些模型是使用基准数据集（例如 Microsoft COCO 数据集或 ImageNet）进行测试和比较的。

R-CNN（基于区域的卷积神经网络）是一种两阶段检测器，它使用一种称为区域建议的方法，为每个图像生成 2000 个区域预测。然后，R-CNN 将提取的区域伸缩变换为统一大小，并通过单独的网络运行这些区域，进行特征提取和分类。每个区域根据其分类的置信度进行排名。然后，R-CNN 拒绝与得分较高的选定区域有一定 IoU 重叠的区域。其余不重叠和排名靠前的分类区域是模型的输出。¹⁰ 正如预期的那样，这种架构计算成本高昂且速度缓慢。Fast R-CNN 和 Faster R-CNN 是后续修改版本，它们可以缩小 R-CNN 架构的大小，从而减少处理时间，同时提高准确性。¹¹

YOLO (You Only Look Once) 是基于开源 CNN 框架 Darknet 的单级检测架构系列。YOLO 架构于 2016 年首次开发，它会优先考虑速度。事实上，YOLO 的速度使其更适用于实时物体检测，并为其赢得了最先进物体检测方法的常见称谓。YOLO 在几个方面不同于 R-CNN。R-CNN 会通过多个网络传递提取的图像区域，而这些网络可分别提取特征并对图像进行分类；相比之下，YOLO 则会将这些操作压缩到一个网络中执行。其次，较之 R-CNN 的约 2,000 个候选区域，YOLO 会对每个图像进行不到 100 次的边界框预测。除了速度优于 R-CNN 之外，YOLO 产生的背景假负例也更少，虽然它的定位误差更高。¹² 自开创以来，YOLO 已进行多轮更新，且通常更侧重速度和准确性。¹³

虽然最初是为物体检测而开发的，但 R-CNN 和 YOLO 的后续版本也可以训练分类和分割模型。具体来说，Mask R-CNN 将物体检测和分割相结合，而 YOLOv5 可以训练单独的分类、检测和分割模型。

当然，除了 R-CNN 和 YOLO，还有许多其他模型架构。SSD 和 Retinanet 是另外两种模型，它们使用类似于 YOLO 的简化架构。¹⁴ DETR 是 Facebook（现为 Meta）开发的另一种架构，它将 CNN 与转换器模型相结合，其性能与 Faster R-CNN 相当。¹⁵

示例用例

在许多用例中，物体检测本身并不是目的，而是大型计算机视觉任务中的一个阶段。

自动驾驶

自动驾驶汽车广泛采用物体检测技术来识别汽车和行人等物体。特斯拉的 Autopilot AI 就是这样一个示例。由于速度的提高，YOLO 和 SimpleNet 等简单架构显然更适合自动驾驶。¹⁶

医学影像

物体检测可协助完成视觉检查任务。例如，物体检测的大量研究调查了各种指标和模型，而这些指标和模型可用于识别 X 射线和 MRI 扫描等医学影像中疾病的生理学指标。在这一领域，鉴于此类疾病医学图像的稀缺，因而很多研究均致力于改善数据集不平衡问题。¹⁷

安全性

视频监控可以采用实时物体检测来跟踪与犯罪相关的物体，例如安全摄像头镜头中的枪支或刀具。通过检测此类物体，安全系统可以进一步预测和预防犯罪。研究人员使用 R-CNN 和 YOLO 开发了枪支检测算法。¹⁸

专家荟萃 | 播客

解码 AI：每周新闻摘要

加入我们的世界级专家团队，包括工程师、研究人员、产品负责人等，他们将穿透 AI 的喧嚣，为您带来最新的 AI 新闻和见解。

观看片段

资源

2024 年 AI 实际应用

我们对 2,000 家组织进行了调查，旨在了解他们的 AI 计划，以发现哪些方法有效、哪些方法无效，以及如何才能取得领先。

深入了解 IBM Granite

IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列，专门为企业量身定制，并经过优化，可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和护栏选项。

提升你的 AI 专业知识

立即购买单用户或多用户订阅，即可访问我们完整的包含 100 多个在线课程的目录，以低廉的价格扩展您的技能。

IBM AI Academy

本课程由 IBM 资深思想领袖带领，旨在帮助企业领导者获得所需的知识，以便划分可以推动增长的 AI 投资的优先级。

让 AI 充分发挥作用：利用生成式 AI 提高投资回报率

想要从 AI 投资中获得更好的回报吗？了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案，在关键领域扩展生成式人工智能来推动变革。

解锁生成式 AI + ML 的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

树立信任，从容自信在 AI 新时代蓬勃发展

深入了解强大 AI 战略的 3 个关键要素：创造竞争优势、在整个企业中扩展 AI 以及推进值得信赖的 AI。

资源

了解网络延迟及其影响

了解什么是网络延迟、它为何重要及其如何影响性能。深入了解其中的原因并发现解决方案，以测量和减少延迟，从而实现更快、更高效的连接。

释放工作场所 XR 的力量

深入了解增强现实 (AR) 和虚拟现实 (VR) 如何提高组织的生产力和灵活性。获取我们关于利用 XR 技术改造工作空间并提高效率的最新洞察分析。

利用边缘计算彻底改变您的运营

了解边缘计算如何以更高的速度、增强的安全性和无与伦比的可扩展性转变运营。准备好发挥边缘技术的潜力了吗？现在就开始吧。

5G 网络切片：为电信提供商带来新的机遇

了解 5G 网络切片如何为医疗保健、制造业和智慧城市等行业提供个性化、高速、可靠的连接，从而彻底改变电信运营。

理解环境、社会和治理：解释环境、社会和治理

环境、社会和治理 (ESG) 将环境、社会和治理因素整合到企业战略中，从监管合规到提升利益相关者信任等方面均获益良多。了解 ESG 投资如何使财务目标与道德责任保持一致，以及如何有效地披露 ESG 指标。

5G 神话和误解

DevOps 原则如何应用于复杂 5G 网络的部署？

脚注

¹ Bogusław Cyganek，“数字图像中的对象检测和识别：理论和实践”，Wiley，2013 年。

² Kemal Oksuz、Baris Can Cam、Sinan Kalkan 和 Emre Akbas，“对象检测中的不平衡问题：概述”，《IEEE 模式分析和机器智能汇刊》，第 43 卷，第 10 期，2021 年，第 3388-3415 页，https://ieeexplore.ieee.org/document/9042296。

³ Archangelo Disante 和 Cosimo Disante，《图像处理和计算机视觉手册》，第 1 卷，Springer，2020 年。Milan Sonka、Vaclav Hlavac 和 Roger Boyle，《图像处理、分析和机器视觉》，第 4 版，Cengage，2015 年。

⁴ Archangelo Disante 和 Cosimo Disante，《图像处理和计算机视觉手册》，第 3 卷，Springer，2020 年。Milan Sonka、Vaclav Hlavac 和 Roger Boyle，《图像处理、分析和机器视觉》，第 4 版，Cengage，2015 年。

⁵ Benjamin Planche 和 Eliot Andres，《使用 TensorFlow 2 的计算机视觉实践》，Packt Publishing，2019 年。Van Vung Pham 和 Tommy Dang，《使用 Detectron2 的计算机视觉实践》，Packt Publishing，2023 年。Licheng Jiao、Fan Zhang、Fang Liu、Shuyuan Yang、Lingling Li、Zhixi Feng、Rong Qu，“基于深度学习的物体检测研究”，IEEE Access，第 7 卷，2019 年，第 128837-128868 页，https://ieeexplore.ieee.org/document/8825470。Richard Szeliski，《计算机视觉：算法和应用》，第 2 版，Springer，2021 年。

⁶ Richard Szeliski，《计算机视觉：算法和应用》，第 2 版，Springer，2021 年。

⁷ Hamid Rezatofighi、Nathan Tsoi、JunYoung Gwak、Amir Sadeghian、Ian Reid 和 Silvio Savarese，“全局交并比：边界框回归的指标和损失”，《IEEE/CVF 计算机视觉和模式识别 (CVPR) 会议会议录》，2019 年，第 658-666 页，在此访问。

⁸ P. Viola 和 M. Jones，“使用一系列增强的简单功能进行快速物体检测”，《2001 年 IEEE 计算机协会计算机视觉和模式识别 (CVPR) 会议会议录》，2001 年，https://ieeexplore.ieee.org/document/990517。

⁹ N. Dalal 和 B. Triggs，“用于人体检测的定向梯度直方图”，《2005 年 IEEE 计算机协会计算机视觉和模式识别 (CVPR) 会议会议录》，2005 年，第 886-893 页，https://ieeexplore.ieee.org/document/1467360。

¹⁰ Ross Girshick、Jeff Donahue、Trevor Darrell 和 Jitendra Malik，“用于准确检测对象和分割语义的丰富特征层次结构”，《2014 年 IEEE 计算机协会计算机视觉和模式识别 (CVPR) 会议会议录》，2014 年，https://arxiv.org/abs/1311.2524。

¹¹ Ross Girschick，“快速 R-CNN”，《2015 年 IEEE 国际计算机视觉会议 (ICCV) 会议录》，2015 年，第 1440-1448 页，https://arxiv.org/abs/1504.08083。Shaoqing Ren、Kaiming He、Ross Girshick、Jian Sun，“更快的 R-CNN：利用区域建议网络实现实时物体检测”，《神经信息处理系统的进展》(NIPS 2015)，第 28 卷,https://proceedings.neurips.cc/paper_files/paper/2015/hash/14bfa6bb14875e45bba028a21ed38046-Abstract.html。

¹² Joseph Redmon、Santosh Divvala、Ross Girshick、Ali Farhadi，“You Only Look Once：统一的实时对象检测”，2016 年 IEEE 计算机视觉和模式识别 (CVPR) 会议，2016 年，第 779-788 页，https://arxiv.org/abs/1506.02640。

¹³ Joseph Redmon 和 Ali Farhadi，“YOLOv3：逐步改进”，2018 年，https://arxiv.org/abs/1804.02767。Alexey Bochkovskiy、Chien-Yao Wang 和 Hong-Yuan Mark Liao，“YOLOv4：物体检测的最佳速度和准确性”，欧洲计算机视觉会议，2020 年,https://arxiv.org/abs/2004.10934。Xin Huang、Xinxin Wang、Wenyu Lv、Xiaying Bai、Xiang Long、Kaipeng Deng、Qingqing Dang、Shumin Han、Qiwen Liu、Xiaoguang Hu、Dianhai Yu、Yanjun Ma 和 Osamu Yoshie，“PP-YOLOv2：实用物体检测器”，2021 年,https://arxiv.org/abs/2104.10419。Chien-Yao Wang、Alexey Bochkovskiy 和 Hong-Yuan Mark Liao，“YOLOv7：可训练的赠品袋为实时物体检测设定了新的技术水平”，2022 年,https://arxiv.org/abs/2207.02696。

¹⁴ Wei Liu、Dragomir Anguelov、Dumitru Erhan、Christian Szegedy、Scott Reed、Cheng-Yang Fu 和 Alexander C. Berg，“SSD：单次多框检测器”，《欧洲计算机视觉会议 (ECCV) 会议录》，2016 年，第 21-37 页，https://arxiv.org/abs/1512.02325。Tsung-Yi Lin、Priya Goyal、Ross Girshick、Kaiming He 和 Piotr Dollár，“密集物体检测的焦点损失”，《IEEE 模式分析和机器智能汇刊》，第 42 卷，第 2 期，2020 年，第 318-327 页，https://arxiv.org/abs/1708.02002。

¹⁵ Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov 和 Sergey Zagoruyko，“使用转换器进行端到端物体检测”，《欧洲计算机视觉会议 (ECCV) 会议录》，2020 年，https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123460205.pdf。

¹⁶ Abhishek Balasubramaniam 和 Sudeep Pasricha，“自动驾驶汽车中的物体检测：现状和面临的挑战”，2022 年，https://arxiv.org/abs/2201.07706。Gene Lewis，“自动驾驶汽车物体检测”，2016 年，https://web.stanford.edu/class/cs231a/prev_projects_2016/object-detection-autonomous.pdf。

¹⁷ Trong-Hieu Nguyen-Mau、Tuan-Luc Huynh、Thanh-Danh Le、Hai-Dang Nguyen 和 Minh-Triet Tran，“用于对长尾多标签胸部 X 射线进行分类的高级增强和集成方法”，《IEEE/CVF 国际计算机视觉 (ICCV) 研讨会会议会议录》，2023 年，第 2729-2738 页，https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html。Changhyun Kim、Giyeol Kim、Sooyoung Yang、Hyunsu Kim、Sangyool Lee 和 Hansu Cho，“采用疾病区域数据增强方法的胸部 X 射线特征金字塔和模型”，《IEEE/CVF 国际计算机视觉 (ICCV) 研讨会会议会议录》，2023 年，第 2757-2766 页，https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html。

¹⁸ Palash Yuvraj Ingle 和 Young-Gab Kim，“智能城市视频监控的实时异常物体检测”，《传感器》，第 22 卷，第 10 期，2022 年，https://www.mdpi.com/1424-8220/22/10/3862。

¹⁹ Manisha Saini 和 Seba Susan，“解决计算机视觉中的类不平衡：当代评论”，《人工智能评论》，第 56 卷，2023 年，第 1279-1335 页，https://link.springer.com/article/10.1007/s10462-023-10557-6。

²⁰ Kai Kang、Hongsheng Li、Tong Xiao、Wanli Ouyang、Junjie Yan、Xihui Liu 和 Xiaogang Wang，“使用管道建议网络在视频中进行物体检测”，《IEEE 计算机视觉和模式识别 (CVPR) 会议会议录》，2017 年，第 727-735 页，https://openaccess.thecvf.com/content_cvpr_2017/html/Kang_Object_Detection_in_CVPR_2017_paper.html。

²¹ Sipeng Zheng、Shizhe Chen 和 Qin Jin，“VRDFormer：利用转换器进行端到端视频视觉关系检测”，《IEEE/CVF 计算机视觉和模式识别 (CVPR) 会议会议录》，2022 年，第 18836-18846 页，https://openaccess.thecvf.com/content/CVPR2022/html/Zheng_VRDFormer_End-to-End_Video_Visual_Relation_Detection_With_Transformers_CVPR_2022_paper.html。

²² Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov 和 Sergey Zagoruyko，“使用转换器进行端到端物体检测”，《欧洲计算机视觉会议 (ECCV) 会议录》，2020 年，第 213-229 页，https://link.springer.com/chapter/10.1007/978-3-030-58452-8_13。Mekhriddin Rakhimov、Jamshid Elov、Utkir Khamdamov、Shavkatjon Aminov 和 Shakhzod Javliev，“使用 OpenMP 并行实现实时物体检测”，国际信息科学和通信技术会议 (ICISCT)，2021 年， https://ieeexplore.ieee.org/document/9670146。Yoon-Ki Kim 和 Yongsung Kim，“DiPLIP：用于基于深度学习模型推理的流式图像处理的分布式并行处理平台”，《电子学》，第 9 卷，第 10 期，2020 年，https://www.mdpi.com/2079-9292/9/10/1664。