物体検出とは

2024年1月3日

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

物体検出はニューラル・ネットワークを使用して画像に写っている物体の位置を特定し、分類する手法です。このコンピューター・ビジョンのタスクには、医学的画像から自動運転車まで、幅広い用途があります。

物体検出は、デジタル画像内の物体を見つけることを目的としたコンピューター・ビジョンのタスクです。したがって、これは人工知能の一例であり、特に意味カテゴリーに従って物体を認識して分類することにより、コンピューターが人間のように物を見るトレーニングで構成されています。1 物体の位置推定は、バウンディング・ボックスで物の境界線を定めることにより、画像内で特定の物体がどこにあるかを見つけ出す手法です。物体分類は、検出された物がどのカテゴリーに属するかを判断する別の手法です。物体検出タスクでは、物体の位置推定と分類のサブタスクを組み合わせて、1つ以上の画像に写っている物体インスタンスの位置と種類を同時に推定します。2

コンピューター・ビジョンのタスク

物体検出は他のコンピューター・ビジョン技術と重複していますが、開発者はそれを個別の作業として扱っています。

画像分類(または画像認識)は、定義されたカテゴリーに従って画像を分類することを目的としています。基本的な例として、CAPTCHA画像テストがあります。このテストでは、複数画像を一時停止の標識が写っている画像と写っていない画像に整理できます。画像分類は、画像全体に1つのラベルを割り当てます。

これに対し物体検出では、指定されたカテゴリーに従って画像に写る各物体の範囲を示します。画像分類は一時停止の標識が写っている画像とそうでない画像を分類するものですが、物体検出は1枚の画像に写っているすべての道路標識や、車、人などその他の物体を識別して分類するものです。

画像セグメンテーション(またはセマンティック・セグメンテーション)は物体検出と似ていますが、より正確です。物体検出と同様に、セグメンテーションは意味カテゴリーに従って画像に写る物体の輪郭を描きます。ただしセグメンテーションでは、ボックスを使用して物体を示すのではなく、ピクセルレベルで物を区別します。

物体検出の仕組み

物体検出の内部構造を理解するには、コンピューター・ビジョンとデジタル画像処理のより広い基礎が必要です。このセクションでは、一般的な概要について説明します。

画像処理

コンピューター・ビジョンでは、画像はf(x,y)として表される2次元の座標平面上に連続関数として表現されます。画像はデジタル化される際、サンプリングと量子化と呼ばれる2つの主要なプロセスを通ります。手短に言うと、連続画像関数をピクセル要素の連続しないグリッド構造に変換します。コンピュータはその後、視覚的な類似性とピクセルの近接性に従って、画像を個別の領域に分割することができます。3

アノテーション・インターフェースを使用して画像にラベルを付けることにより、ユーザーは特定の物体を特定のピクセル・レベルの特徴(面積、濃淡値など)を持った領域として定義します。物体検出モデルは入力画像が与えられると、トレーニング用データセットで定義された領域に特徴が似ている領域を、同じ物として認識します。このように、物体検出はパターン認識の1つの形態なのです。物体検出モデルは、物体そのものを認識するのではなく、サイズや形状、色といったプロパティの集合体を認識します。そして、手動でアノテーションされたトレーニング用データから推測される視覚的なパターンに従って、領域を分類します。4

たとえば自動運転車の物体検出モデルは、歩行者を認識しているのではなく、物体としての歩行者を特徴づける(トレーニング・データで定義された)一般的なパターンをなす一連の特徴を認識しているのです。

モデル・アーキテクチャー

モデルのファミリーが異なれば使用するアーキテクチャーも異なりますが、物体検出用のディープラーニング・モデルは一般的な構造に従います。バックボーン、ネック、ヘッドで構成されます。

バックボーンでは、入力画像から特徴を抽出します。多くの場合、バックボーンは事前トレーニングされた分類モデルの一部から派生しています。特徴抽出は、バックボーンからネックに渡される、さまざまな解像度の特徴マップを無数に生成します。各画像の特徴マップは、この構造の後半部分で連結されます。次に階層化された特徴マップをヘッドに渡し、ヘッドで各特徴セットのバウンディング・ボックスと分類スコアを予測します。

2段階検出器の場合はヘッドで物体の位置推定と分類を分けますが、1段階検出器の場合はこれらのタスクを組み合わせます。一般的には前者の方が位置推定の精度が高く、後者の方が迅速に実行されます。5

評価メトリクス

IoU(Intersection over Union)とは、物体検出モデルでよく使われる評価メトリクスです。バウンディング・ボックスは、モデルによって予測されるように、検出された物体の境界を示す四角形のアウトプットです。IoUは、2つのバウンディング・ボックスの交差面積(ボックスが重なり合う部分の面積)と結合面積(両方のボックスの合計面積)の比率を計算します。6

この式は次のように視覚化できます。

モデルは、IoUを使用して予測ボックスとグランド・トゥルース・ボックス間のIoUを計算することで、予測精度を測定します。モデル・アーキテクチャーは、IoUで最終的なバウンディング・ボックス予測も生成します。モデルは多くの場合、検出された1つの物体に対して数百個のバウンディング・ボックス予測を生成するため、モデルはIoUを使用してバウンディング・ボックス予測を重み付けし、検出された物体ごとに1つのボックスに統合します。

他のメトリクスは、物体検出モデルの異なる評価に利用される場合があります。GIoU(Generalized intersection over union)はIoUの修正版で、基本的なIoUだとNULL値を返す可能性がある物体の位置推定を改良したものです。7物体検出の研究では、mAP(mean average precision)や再現率(recall)などの一般的な情報検索メトリクスも採用されています。

物体検出アルゴリズムとアーキテクチャー

物体検出タスクには、さまざまな機械学習アプローチがあります。例としては、Viola-Jonesフレームワーク8や勾配方向ヒストグラム(histogram of oriented gradients)などがあります。9しかし最近の物体検出に関する研究開発では、主に畳み込みニューラル・ネットワーク(CNN)に重点が置かれています。そのため本ページでは、物体検出についての研究で最も議論されている2種類のCNNに焦点を当てます。これらのモデルは、Microsoft COCOデータセットやImageNetなどのベンチマーク用データセットでテストおよび比較されていることにご注意ください。

R-CNN(領域ベースの畳み込みニューラル・ネットワーク)は、領域提案と呼ばれる方法で画像ごとに2,000個の領域を予測する2段階の検出器です。R-CNNはその後、抽出した領域を均一なサイズに直して別のネットワークに通し、特徴の抽出と分類を行います。各領域は、その分類の信頼度によってランク付けされます。R-CNNは次に、スコアが高いと指定された領域と一定のIoU重複を持つ領域を除外します。残りの重なり合わない分類領域のうち最上位の領域がモデルの出力です。10案の定、このアーキテクチャーは計算コストが高く、低速です。Fast R-CNNとFaster R-CNNは後の修正版で、R-CNNのアーキテクチャーを縮小したことで、処理時間を短縮しながら精度を高めています。11

YOLO(You Only Look Once)は、オープンソースのCNNフレームワークであるダークネットをベースにした1段階検出アーキテクチャーのファミリーです。2016年に初めて開発されたYOLOアーキテクチャーは、速度を重視しています。実際、YOLOの速度はリアルタイムの物体検出に適しており、最先端の物体検出器における共通記述子となっています。YOLOはR-CNNとはいくつかの点で異なります。R-CNNは抽出された画像領域を複数のネットワークに渡し、それぞれで特徴を抽出して画像を分類しますが、YOLOはこれらの働きを1つのネットワークにまとめます。次に、R-CNNが提案する領域が約2,000個であるのに対して、YOLOのバウンディング・ボックス予測は1画像あたり100個未満です。YOLOは、R-CNNより高速であることに加えてバックグラウンドの誤検出も少なくなりますが、位置推定エラーは多くなります。12 YOLOは登場以来、概して速度と精度に重きを置いた更新が数多く実施されています。13

R-CNNやYOLOはもともと物体検出のために開発されましたが、後のバージョンでは分類モデルとセグメンテーション・モデルをトレーニングすることもできます。具体的に言うと、Mask R-CNNは物体検出とセグメンテーションを組み合わせていますが、YOLOv5は分類、検出、セグメンテーションの各モデルをトレーニングできます。

もちろん、R-CNNとYOLO以外にもたくさんのモデル・アーキテクチャーがあります。SSDとRetinanetは、YOLOのような簡略化されたアーキテクチャーを使用する2つの追加モデルです。14 DETRは、Facebook社(現Meta社)によって開発されたもう1つのアーキテクチャーで、CNNとトランスフォーマー・モデルを組み合わせ、Faster R-CNNに匹敵するパフォーマンスを発揮します。15

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

ユースケースの例

多くのユースケースでは、物体検出自体は最終的な目的ではなく、より大きなコンピューター・ビジョン・タスクにおける1つの段階です。

自動運転

自動運転車は、車や歩行者などの物体を認識するために物体検出を広く採用しています。その一例がTesla社のオートパイロットAIです。YOLOやSimpleNetのようなシンプルなアーキテクチャーは速度が速いので、自動運転にとって明らかに理想的です。16

医用画像

物体検出は外観検査の作業を支援できます。たとえば、物体検出の研究を行う独立団体では、X線スキャンやMRIスキャンといった医学的画像から病気の生理学的な指標を特定するためのメトリクスとモデルを調査しています。この分野では多くの研究が、そのような病気の医学的画像が不足していることを考慮して、データセットの不均衡を改善することに焦点を当ててきました。17

セキュリティー

ビデオ監視には、防犯カメラの映像に写っている銃やナイフなど、犯罪に関連する物体を追跡するために、リアルタイムの物体検出を採用することがあります。このような物体を検出することで、セキュリティー・システムは犯罪の予測を高め、未然に防ぐことができるのです。研究者たちは、R-CNNとYOLOを併用した銃の検出アルゴリズムを開発しました。18

Mixture of Experts | ポッドキャスト

AIを解読する:1週間のニュースのまとめ

エンジニア、研究者、製品リーダーなど、世界をリードするパネリストがAIに関する最新のニュースとインサイトをお届けします。

最近の研究

不均衡なデータセットは、物体検出タスクで悩みとなっている問題の1つです。多くの分野特化型データセットで、負のサンプル(つまり、対象となる物体が写っていない画像)が正のサンプルの数を大幅に上回っているためです。これは、病気の正サンプルを取得するのが難しい医学的画像にとって特に問題となります。最近の研究では、データ拡張を利用して限定的なデータセットを拡張および多様化し、モデルの能力向上を図っています。19

物体検出における過去の開発は、主に2D画像に焦点を当てていました。最近では、研究者は3D画像や動画の物体検出への応用に注目しています。モーション・ブラーおよびカメラのフォーカスシフトは、動画のコマをまたいで物体を識別する際に問題を引き起こします。研究者は、そのような制約があるにもかかわらず、コマをまたいで物体を追跡するのに役立つさまざまな方法とアーキテクチャーを研究してきました。たとえば、回帰型ニューラル・ネットワーク・アーキテクチャーの長・短期記憶(LSTM)20や、トランスフォーマーベース・モデル21などです。トランスフォーマーは、リアルタイムの検出タスクに向けた物体検出モデルを高速化するために利用されてきました。並列処理技術は、この取り組みで注目すべきもう1つの研究分野です。22

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界屈指のAI(人工知能)の専門知識とIBM Watsonのソリューション製品群を活用して、大規模かつ信頼できるビジネスのためのAIを構築します。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約
脚注

1 Bogusław Cyganek『Object Detection and Recognition in Digital Images: Theory and Practice』Wiley、2013年

2 Kemal Oksuz、Baris Can Cam、Sinan Kalkan、『Imbalance Problems in Object Detection: A Review』IEEE Transactions on Pattern Analysis and Machine Intelligence、Vol. 43, No. 10, pp. 3388-3415、2021年、https://ieeexplore.ieee.org/document/9042296

3 Archangelo DisanteおよびCosimo Disante『Handbook of Image Processing and Computer Vision』Vol. 1、Springer、2020年。Milan Sonka、Vaclav Hlavac、Roger Boyle『 Image Processing, Analysis, and Machine Vision』第4版、Cengage、 2015年

4 Archangelo DisanteおよびCosimo Disante『Handbook of Image Processing and Computer Vision』Vol. 3、Springer、2020年。Milan Sonka、Vaclav Hlavac、Roger Boyle『 Image Processing, Analysis, and Machine Vision』第4版、Cengage、2015年

5 Benjamin PlancheおよびEliot Andres『Hands-On Computer Vision with TensorFlow 2』Packt Publishing、2019年。Van Vung PhamおよびTommy Dang『Hands-On Computer Vision with Detectron2』Packt Publishing、2023年。Licheng Jiao、Fan Zhang、Fang Liu、Shuyuan Yang、Lingling Li、Zhixi Feng、Rong Qu『A survey of deep learning-based object detection』IEEE Access、Vol. 7, pp. 128837-128868、2019年、https://ieeexplore.ieee.org/document/8825470。Richard Szeliski『Computer Vision: Algorithms and Applications』第2版、Springer、2021年

6 Richard Szeliski『Computer Vision: Algorithms and Applications』第2版、Springer、2021年

7 Hamid Rezatofighi、Nathan Tsoi、JunYoung Gwak、Amir Sadeghian、Ian Reid、Silvio Savarese『Generalized intersection over union: A metric and a loss for bounding box regression』Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)、pp. 658-666、2019年、こちらからアクセス可能

8 P. Viola およびM. Jones『Rapid object detection using a boosted cascade of simple features』Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)、2001年、https://ieeexplore.ieee.org/document/990517

9 N. DalalおよびB. Triggs『Histograms of oriented gradients for human detection』Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pp. 886-893、2005年、https://ieeexplore.ieee.org/document/1467360

10 Ross Girshick、Jeff Donahue、Trevor Darrell、Jitendra Malik『Rich feature hierarchies for accurate object detection and semantic segmentation』Proceedings of the 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)、2014年、https://arxiv.org/abs/1311.2524

11 Ross Girschick『Fast R-CNN』Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV)、 pp. 1440-1448、2015年、https://arxiv.org/abs/1504.08083 。Shaoqing Ren、Kaiming He、Ross Girshick、Jian Sun『Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks』Advances in Neural Information Processing Systems (NIPS 2015)、Vol. 28、https://proceedings.neurips.cc/paper_files/paper/2015/hash/14bfa6bb14875e45bba028a21ed38046-Abstract.html

12 Joseph Redmon、Santosh Divvala、Ross Girshick、Ali Farhadi『You Only Look Once: Unified, Real-Time Object Detection』2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 779-788、2016年、https://arxiv.org/abs/1506.02640

13 Joseph RedmonおよびAli Farhadi『YOLOv3: An Incremental Improvement』2018年、https://arxiv.org/abs/1804.02767。Alexey Bochkovskiy、Chien-Yao Wang、Hong-Yuan Mark Liao『YOLOv4: Optimal Speed and Accuracy of Object Detection』European Conference on Computer Vision、2020年、https://arxiv.org/abs/2004.10934。Xin Huang、Xinxin Wang、Wenyu Lv、Xiaying Bai、Xiang Long、Kaipeng Deng、Qingqing Dang、Shumin Han、Qiwen Liu、Xiaoguang Hu、Dianhai Yu、Yanjun Ma、Osamu Yoshie『PP-YOLOv2: A Practical Object Detector』2021年、https://arxiv.org/abs/2104.10419。Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao『YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors』2022年、https://arxiv.org/abs/2207.02696

14 Wei Liu、Dragomir Anguelov、Dumitru Erhan、Christian Szegedy、Scott Reed、Cheng-Yang Fu、Alexander C. Berg『SSD: Single Shot MultiBox Detector』Proceedings of the European Conference of Computer Vision (ECCV), pp. 21-37、2016年、https://arxiv.org/abs/1512.02325。Tsung-Yi Lin、Priya Goyal、Ross Girshick、Kaiming He、Piotr Dollár『Focal Loss for Dense Object Detection』IEEE Transactions on Pattern Analysis and Machine Intelligence、Vol. 42, No. 2, pp. 318-327、2020年、https://arxiv.org/abs/1708.02002

15 Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov、Sergey Zagoruyko『End-to-End Object Detection with Transformers』Proceedings of the European Conference of Computer Vision (ECCV)、2020年、https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123460205.pdf

16 Abhishek BalasubramaniamおよびSudeep Pasricha『Object Detection in Autonomous Vehicles: Status and Open Challenges』2022年、https://arxiv.org/abs/2201.07706。Gene Lewis『Object Detection for Autonomous Vehicles』2016年、https://web.stanford.edu/class/cs231a/prev_projects_2016/object-detection-autonomous.pdf

17 Trong-Hieu Nguyen-Mau、Tuan-Luc Huynh、Thanh-Danh Le、Hai-Dang Nguyen、Minh-Triet Tran『Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays』Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, pp. 2729-2738、2023年、https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html。Changhyun Kim、Giyeol Kim、Sooyoung Yang、Hyunsu Kim、Sangyool Lee、Hansu Cho『Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method』Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, pp. 2757-2766、2023年、https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html

18 Palash Yuvraj IngleおよびYoung-Gab Kim『Real-Time Abnormal Object Detection for Video Surveillance in Smart Cities』Sensors、Vol. 22, No. 10、2022年、https://www.mdpi.com/1424-8220/22/10/3862

19 Manisha Saini およびSeba Susan『Tackling class imbalance in computer vision: a contemporary review』Artificial Intelligence Review, Vol. 56, pp. 1279–1335、2023年、https://link.springer.com/article/10.1007/s10462-023-10557-6

20 Kai Kang、Hongsheng Li、Tong Xiao、Wanli Ouyang、Junjie Yan、Xihui Liu、Xiaogang Wang『Object Detection in Videos With Tubelet Proposal Networks』Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 727-735、2017年、https://openaccess.thecvf.com/content_cvpr_2017/html/Kang_Object_Detection_in_CVPR_2017_paper.html 

21 Sipeng Zheng、Shizhe Chen、Qin Jin『VRDFormer: End-to-End Video Visual Relation Detection With Transformers』Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 18836-18846、2022年、https://openaccess.thecvf.com/content/CVPR2022/html/Zheng_VRDFormer_End-to-End_Video_Visual_Relation_Detection_With_Transformers_CVPR_2022_paper.html

22 Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov、Sergey Zagoruyko『End-to-End Object Detection with Transformers』Proceedings of the European Conference on Computer Vision (ECCV), pp. 213-229、2020年、https://link.springer.com/chapter/10.1007/978-3-030-58452-8_13Mekhriddin RakhimovJamshid ElovUtkir KhamdamovShavkatjon AminovShakhzod Javliev『Parallel Implementation of Real-Time Object Detection using OpenMP』International Conference on Information Science and Communications Technologies (ICISCT)、2021年、https://ieeexplore.ieee.org/document/9670146。Yoon-Ki KimおよびYongsung Kim『DiPLIP: Distributed Parallel Processing Platform for Stream Image Processing Based on Deep Learning Model Inference』Electronics、Vol. 9, No. 10、2020年、https://www.mdpi.com/2079-9292/9/10/1664