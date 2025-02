有许多机器学习方法可以完成物体检测任务。示例包括 Viola-Jones 框架8 和方向梯度直方图。9 然而,最近的物体检测研究和开发主要集中在卷积神经网络 (CNN) 上。因此,本页重点介绍物体检测研究中讨论最多的两类 CNN。请注意,这些模型是使用基准数据集(例如 Microsoft COCO 数据集或 ImageNet)进行测试和比较的。

R-CNN(基于区域的卷积神经网络)是一种两阶段检测器,它使用一种称为区域建议的方法,为每个图像生成 2000 个区域预测。然后,R-CNN 将提取的区域伸缩变换为统一大小,并通过单独的网络运行这些区域,进行特征提取和分类。每个区域根据其分类的置信度进行排名。然后,R-CNN 拒绝与得分较高的选定区域有一定 IoU 重叠的区域。其余不重叠和排名靠前的分类区域是模型的输出。10 正如预期的那样,这种架构计算成本高昂且速度缓慢。Fast R-CNN 和 Faster R-CNN 是后续修改版本,它们可以缩小 R-CNN 架构的大小,从而减少处理时间,同时提高准确性。11

YOLO (You Only Look Once) 是基于开源 CNN 框架 Darknet 的单级检测架构系列。YOLO 架构于 2016 年首次开发,它会优先考虑速度。事实上,YOLO 的速度使其更适用于实时物体检测,并为其赢得了最先进物体检测方法的常见称谓。YOLO 在几个方面不同于 R-CNN。R-CNN 会通过多个网络传递提取的图像区域,而这些网络可分别提取特征并对图像进行分类;相比之下,YOLO 则会将这些操作压缩到一个网络中执行。其次,较之 R-CNN 的约 2,000 个候选区域,YOLO 会对每个图像进行不到 100 次的边界框预测。除了速度优于 R-CNN 之外,YOLO 产生的背景假负例也更少,虽然它的定位误差更高。12 自开创以来,YOLO 已进行多轮更新,且通常更侧重速度和准确性。13

虽然最初是为物体检测而开发的,但 R-CNN 和 YOLO 的后续版本也可以训练分类和分割模型。具体来说,Mask R-CNN 将物体检测和分割相结合,而 YOLOv5 可以训练单独的分类、检测和分割模型。

当然,除了 R-CNN 和 YOLO,还有许多其他模型架构。SSD 和 Retinanet 是另外两种模型,它们使用类似于 YOLO 的简化架构。14 DETR 是 Facebook(现为 Meta)开发的另一种架构,它将 CNN 与转换器模型相结合,其性能与 Faster R-CNN 相当。15