コンピューター・ビジョンとは

執筆者

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

コンピューター・ビジョンとは

コンピューター・ビジョンは、画像やビデオなどの視覚的な入力を処理、分析、解釈する能力を機械に装備する人工知能(AI)の一分野です。機械学習を使用して、コンピューターやその他のシステムが視覚データから意味のある情報を導き出すのを支援します。

コンピューター・ビジョンは、認識、再構築、再編成という3つの広範なプロセス間の相互作用として表すことができます。これらのプロセスはそれぞれ連携して動作し、相互に情報を伝達し合います。画像認識とは、デジタル画像や動画内の動作、物体、人物、場所、文章を識別することです。再構成はそれらの実体の立体的な特徴を導き出し、再編成は実体間の関係を推測します。1

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

コンピューター・ビジョンのしくみ

検索における放射線画像処理は、コンピューター・ビジョンでよく使用されているユースケースです。放射線科医は胸部X線写真を注意深く解釈する必要がありますが、肺炎の症状は微妙で他の肺疾患と似ているため、間違いが起きやすく、時間がかかる作業となる可能性があります。2コンピューター・ビジョン・システムは役に立ちます。

コンピューター・ビジョンのタスクには複数の種類のモデルとアプローチがありますが、次の架空の例は一般的なワークフローを示しています。

  1. データ収集
  2. 前処理
  3. モデル選択
  4. モデル・トレーニング

データ収集

最初のステップは、必要な視覚データを収集することです。病院では大量の胸部X線写真が生成され、それを使ってコンピューター・ビジョン・アルゴリズムをトレーニングすることができます。アルゴリズムの目標は、X 線画像が肺炎を示しているかどうかを分類することであるため、病院は胸部X線スキャンのデータセットを編集し、各スキャンを正常か肺炎を示しているか正しくラベル付けまたは注釈付けする必要があります。

他のユースケースでは、画像や動画はカメラやセンサーなどの情報源から取得できます。^COCO、ImageNet、Open Imagesなどのデータセットは、注釈付き画像の大規模な収集を実現します。

前処理

AIモデルの良し悪しはトレーニングに使用するデータによって決まるため、コンピューター・ビジョンには高品質のデータが不可欠です。前処理は、データ・クリーニングや、明るさやコントラストを調整して画像を鮮明にする、サイズ変更やスムージングなどの機能強化を通じて、データ品質の向上を支援します。

データセットは、コンピューター・ビジョン・アルゴリズムが正確な結果を生成するために十分な大きさと多様性を備えている必要があります。合成データの生成データ拡張は、データセットのサイズとダイバーシティーの拡大に役立ちます。たとえば、病院は胸部 X 線画像を左右に回転させたり、画像を上下反転させたりするなどの幾何学的変換を使用してデータを増強できます。

モデル選択

効率性と性能を最適化するには、適切な機械学習モデルを選択することが重要です。畳み込みニューラル・ネットワーク(CNN) は次に進む画像処理タスクの主要な ディープラーニング・モデルですが、 リカレント・ニューラル・ネットワーク(RNN)はビデオ・フレームなどの逐次データの処理に特に適しています。

しかし、AIの進歩により、トランスフォーマー・モデルへの移行が進んでいます。たとえば、ビジョン・トランスフォーマー(ViT)は、トランスフォーマーベースの言語モデルの要素をコンピューター・ビジョンに適用します。ViTは画像をパッチ処理し、それを言語変換器のトークンに似たシーケンスとして扱います。その後、ViTはこれらのパッチ全体に自己注意メカニズムを実装し、トランスフォーマーベースのインプット画像表現を作成します。多くの場合、ViTは、画像分類などのコンピューター・ビジョンのタスクではCNNの性能に匹敵するか、それを上回ります。3

モデル・トレーニング

モデルの選択後、モデルのトレーニングが実行されます。トレーニング段階では、コンピューター・ビジョン・タスクに固有のトレーニング・データでモデルを実行し、地上検証データに対して性能を測定し、時間の経過とともに性能を向上させるためにパラメーターを最適化します。

CNNは、畳み込み層、プーリング層、全結合層の3種類の層で構成されます。畳み込み層では特徴抽出が行われます。特徴抽出では、色、機能、形、テクスチャーなどの未加工画像データから主要な視覚属性を特定し、取得します。肺炎のX線画像の場合、抽出される特徴には、非対称な肺の輪郭、炎症または体液の存在を示す明るい領域(暗い空気で満たされた領域とは対照的)、曇ったまたは不透明な肺の領域、粗いまたは斑状のテクスチャーが含まれます。4特徴抽出により、アルゴリズムは視覚データ内の重要な関係とパターンを区別できます。

X線画像は、ピクセル値の行列として扱われます。フィルターまたはカーネルとして知られる別の重み行列(特定のインプットの特徴がモデルのアウトプットに及ぼす影響を制御するパラメーター)がX線画像の領域に適用され、入力ピクセル値の間の内積が計算されます。フィルターは画像全体で動き、つまり「畳み込み」、特徴を抽出します。このプロセス全体は畳み込みとして知られています。一連のドット積からの最終アウトプットは、有効化マップまたは特徴マップと呼ばれます。各フィルターは、エッジ、形状、テクスチャーなどの特定のパターンに応答するように調整されており、CNNが複数の特徴を同時に学習できるようになります。

特徴マップはプーリング層に渡され、マップのサイズをさらに縮小し、次元を圧縮します。もう1つのフィルターは特徴マップ全体をスイープし、特徴マップ内のセル・グループ内の最大値または平均値を取得します。これにより、最も重要な特徴が保持されるため、モデルはそれらに集中することができます。

画像全体を移動して特徴を抽出し、次元を縮小して分類を行うことは、フォワード・パスとして知られています。このフォワード・パスの後、モデルは損失関数を適用して、誤差、つまり予測された分類と実際の分類の差を計算します。

損失関数を最小限に抑えるために、バックプロパゲーションが採用されます。バックプロパゲーションは、各重みに関する損失関数の勾配を計算するための逆方向パスです。次に、勾配降下手法を実装してモデルの重みを更新し、モデルを最適化します。

最後に、全結合層が、前の層とそのさまざまなフィルターを通じて抽出された特徴に基づいて分類のタスクを実行します。次に、CNNは各クラス(この場合は正常な組織と敗血症)の確率であるアウトプットを生成します。胸部X線画像分類タスクの場合、このアウトプットは正常なスキャン、または可能性が所定のしきい値を超えた場合は、肺炎陽性のスキャンを示します。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

コンピューター・ビジョンのタスク

コンピューター・ビジョン・アルゴリズムは、次のような幅広いタスクでトレーニングできます。

  • 画像認識
  • 画像分類
  • オブジェクト検出
  • 画像セグメンテーション
  • オブジェクト追跡
  • 状況理解
  • 顔認識
  • 姿勢評価
  • 光学式文字認識
  • 画像生成
  • 外観検査

画像認識

画像認識は、コンピューター・ビジョンの最も広範な形式です。これには、デジタル画像内の人々、場所、物体、その他の存在の識別が含まれ、画像分類、物体検知、画像セグメンテーションなどのタスクの基盤となります。

画像分類

画像分類は、画像を事前定義されたグループまたはクラスに分類するコンピューター・ビジョンの中核的タスクです。画像分類は画像または画像内の物体に最も適したラベルを予測します。胸部X線を用いた肺炎診断のシナリオは、画像分類の一例です。

物体検知

物体検知は、デジタル画像内で物体がどこにあるかを正確に特定することを目的としています。これは、物体位置特定と画像分類という2つの学習手法を融合したものです。

物体位置特定は、画像内の特定の物体の位置を、その物体を囲むように境界ボックスを描画することによって識別します。次に、画像分類によって、物体が属するカテゴリーを区別します。たとえば、道路交通の映像では、コンピューター・ビジョン・アプリは物体検知を使用して車両を分類するだけでなく、道路上の車両の位置を特定することができます。

交通に使用されている物体検知ソフトウェア

物体検知向けの一般的なCNNアーキテクチャーには、R-CNN(領域ベースの畳み込みニューラル・ネットワーク)やYOLO(一度だけ確認)などがあります。R-CNNは、まず物体が存在する領域を特定し、次に、それらの領域を別のネットワークに実行して分類とより正確な位置特定を行うことで2段階の検知を実装します。一方、YOLOは、1つのネットワーク・パスに位置特定と分類を融合することで単一段階の検知を行い、リアルタイムの物体検知に十分な高速性を実現します。

映像の物体検知には通常、トランスフォーマーベースのモデルとRNN、特に長期短期記憶アーキテクチャーが適用されます。

画像セグメンテーション

画像セグメンテーションは、物体検知のより正確なピクセルレベルのバージョンです。デジタル画像を画像セグメントと呼ばれるピクセルの個別のグループに分割し、そのクラスまたはインスタンスに応じてピクセルにラベルを付けます。

物体検出では、画像内の複数の要素を分類し、各要素の幅と高さを概算できますが、正確な境界や形状を識別することはできません。これにより、画像セグメンテーションは、境界ボックスが重なり合って密集した物体を描出するのに役立ちます。

画像セグメンテーションは、さらに3つのタスク・タイプに分類できます。

  • セマンティック・セグメンテーションは最も単純なタイプで、各ピクセルにセマンティック・クラス(特定のピクセルが属する可能性のある特定のカテゴリー)を割り当てます。
  • インスタンス・セグメンテーションは、画像内の個々の物体インスタンスの正確なピクセル単位の境界を予測します。
  • パノプティック・セグメンテーションは、すべてのピクセルのセマンティック分類を決定し、画像内の各物体インスタンスを区別することにより、セマンティック・セグメンテーションとインスタンス・セグメンテーションを組み合わせます。

たとえば、街の道路の画像では、セマンティック・セグメンテーションでは、並んで駐車されている車を1つの長い車セグメントとして扱いますが、インスタンス・セグメンテーションでは、各車を分離して形状を決定します。

セマンティック・セグメンテーション、インスタンス・セグメンテーション、パノプティック・セグメンテーションを使用してソース画像を比較する図

物体追跡

物体追跡は、一連のビデオ・フレームまたは画像フレームにわたって移動する物体を追跡します。各フレーム内の物体を正確に特定して区別し、移動中の物体の連続性を保持します。

シーン理解

状況理解は物体認識をさらに一歩進めて、より高レベルの視覚情報を取得します。画像内の物体を識別する際に、ディープラーニング・モデルは、動作、出来事、やり取りなど、それらの間のつながりを予測します。

グラフ・ニューラル・ネットワーク(GNN)を使用して、画像内の物体間の空間関係を表すことができます。交通映像の例では、コンピューター・ビジョン・システムは、タクシーが車の前を移動していること、車がタクシーの左に駐車していること、または車が右向きに転換していることを推測できます。

視覚言語モデル(VLM)も状況理解に役立ちます。大規模言語モデル(LLM)とビジョン・トランスフォーマーを組み合わせることで、画像内の物体を認識して分類し、他の視覚要素に対する物体の位置など状況に応じた説明が可能になります。

顔認識

顔認識は、顔の特徴に画像認識を適用します。顔の形状を捉え、目と目の間の距離、額から顎までの距離、鼻の輪郭、唇の形などの主要なパターンを見つけます。

顔認識は、リアルタイムで、または写真や動画から個人を識別できます。よくある例としては、スマートフォンをロック解除するための顔認識による生体認証があります。

 

顔認証による生体認証

姿勢評価

姿勢評価は、さまざまな身体部分の空間位置を測定し、ジェスチャーを認識し、身体の動きを追跡します。たとえば、姿勢評価は、仮想現実のゲームプレイ中にゲーマーの腕や手の方向をマークするのに役立ちます。より現実的な例としては、NASAのコンピューター・ビジョン・ソフトウェアが挙げられます。このソフトウェアは、国際宇宙ステーションに搭乗するロボットARMオペレーターに、ターゲットを正確に把握するためのリアルタイムの姿勢評価を提供します。5

光学式文字認識

光学文字認識(OCR)はテキスト認識とも呼ばれ、画像、スキャンされた文書、その他の情報源からテキストを抽出し、機械が読み取り可能な形式に変換します。そのため、手書きのテキストや紙の記録のデジタル化を自動化するのに役立ちます。

OCR ワークフローは、次のステップに従います。

  1. 画像取得は、画像またはデジタル文書を白黒版に変換し、明るい領域を背景として、暗い領域を認識用の文字としてマークします。
  2. 前処理では、無関係なピクセルが除去され、スキャン中に画像が不適切に位置合わせされるのを修正するための傾き補正を含めることができます。
  3. テキスト認識は、一度に1文字をターゲットにして、英数字または記号を検出します。次に、パターン認識を通じて文字を識別し、文字のフォント、スケール、形状をテンプレートと照合します。

CNNとトランスフォーマーベースのモデルは、よりインテリジェントな文字認識を実現し、文字内の曲線、線交差、ループ、角度のある線の数などの特徴を抽出します。これらのアルゴリズムは、インテリジェントな単語認識も可能で、文字ではなく単語を区別して処理を高速化します。

画像生成

画像生成では、生成AIモデルを使用して画像を生成します。画像生成に使用される一般的な生成モデルを以下に示します。

  • 拡散モデルは、ランダム・ノイズが徐々に拡散され、認識できないほどスクランブルされたトレーニング・データ内のサンプルをノイズ除去または再構築する方法を学習して、新しい画像を作成するようにトレーニングされます。
  • 敵対的生成ネットワーク(GAN)は、画像を作成する生成器と、敵対者として機能し人工データと実画像を区別する識別器という2つのニューラル・ネットワークで構成されています。両方のネットワークは反復的にトレーニングされ、識別器のフィードバックによってジェネレーターの出力が向上し、最終的には識別器が人工画像と実際画像を区別できなくなります。
  • 変分オートエンコーダー(VAE)は、トレーニング対象の画像のバリエーションを生成するディープラーニング・モデルです。エンコーダーは入力画像を低次元空間に圧縮し、画像に含まれる意味のある情報を取得します。次に、デコーダーがこの圧縮表現から新しい画像を再構築します。

VLMは、テキストの説明を指定して画像を生成することもできます。

外観検査

外観検査により欠陥の特定が自動化されます。コンピューター・ビジョンは、物体検知を通じて、画像や動画を検査し、障害や欠陥を見つけます。欠陥をより正確に特定するために、画像セグメンテーションを実施することもできます。

コンピューター・ビジョンを搭載した外観検査機は、届きにくい橋の部分の腐食を指摘したり、組み立てられた電子製品のコネクターの欠陥を発見したりする際に、一貫性と精度を向上させながら、より迅速で安全な検査を実施するのに役立ちます。

コンピューター・ビジョンの応用

成熟したAI分野として、コンピューター・ビジョンは多くの進歩を遂げ、幅広いユースケースにつながっています。コンピューター・ビジョンの実際の用途をいくつかご紹介します。

農業

カメラ、ドローン、衛星は、作物や農場の高解像度画像を撮影します。コンピューター・ビジョン・テクノロジーがこれらの画像を分析して、植物の健康状態を評価し、より的を絞った除草剤散布のために害虫や雑草を特定します。

自律走行車

自動車産業では、自動運転車は、カメラ、ライダー、レーダー、センサーを組み合わせて使用して環境の3Dモデルを構成します。次に、検知、画像セグメンテーション、状況理解を適用して安全なナビゲーションを実現し、歩行者や他車などの障害物を回避し、車線、信号、交通標識などの道路の機能を正確に検知します。

医療

医用画像処理は、コンピュータ・ビジョンの重要な分野です。たとえば、物体検知は画像解析を自動化し、X線、CT、MRI、超音波スキャン内の潜在的な病気のマーカーを見つけて特定できます。さらに、インスタンス¥・セグメンテーションにより、臓器、組織、腫瘍の特定の境界を明確にすることができ、より正確な診断が可能になり、治療や患者のケアに関する意思決定に役立ちます。

製造業

コンピューター・ビジョン・システムは、品目をスキャンして在庫レベルを判断することで、在庫管理に役立ちます。また、リアルタイムで欠陥を認識することで、品質管理を強化することもできます。これらのシステムは製品の画像を分析し、検査員が人間の視覚で確認する場合と比べて、欠陥や不一致を迅速かつ正確に検出できます。

小売とEコマース

たとえば、Amazonのジャスト・ウォークアウト・テクノロジーは、小規模な小売店や食品サービス店のコンピューター・ビジョンを使用して顧客の選択を追跡し、チェックアウト体験を自動化します。顧客は、支払いカウンターに並ぶことなく、商品だけ受け取って帰ることができます。6

また、オンライン・ストアは、拡張現実と顔認識、姿勢評価を組み合わせて仮想試着体験を行うこともでき、顧客は購入前に衣服やメガネ、化粧品をどのように見せるかを視覚化することができます。

ロボティクス

自動運転車と同様、ロボットはカメラ、ライダー、センサーを使用して周囲をマッピングします。そして、複雑な手術を行う外科医を補助する、倉庫内を移動して商品を輸送する、熟した農産物だけを収穫する、物体を組立ラインに投入するといったタスクを完了するためにコンピューター・ビジョンのアルゴリズムを適用します。

宇宙探査

物体検知は、宇宙船が着陸時に危険を見つけて回避するのに役立ちます。一方、探査車は地形を移動するために同様の機能を実装できます。7 画像分類は、小惑星、流星、さらには宇宙ゴミを分類するために使用でき、物体追跡はこれらの天体の軌道を監視します。

コンピューター・ビジョン・ツール

コンピューター・ビジョン・アプリを構築するためのツールは数多くあり、開発プロセスの効率化を支援します。一般的なツールには次のようなものがあります。

  • Keras
  • OpenCV
  • Scikit-image
  • TensorFlow
  • Torchvision

Keras

Kerasは、PyTorchやTensorFlownどの他のAIフレームワーク上で実行できるディープラーニング・アプリケーション・プログラミング・インターフェース(API)です。画像と動画の分類、画像セグメンテーション、物体検出、OCR など、さまざまなコンピューター・ビジョンのタスクに関する多数のチュートリアルと例を提供します。

OpenCV

OpenCVは、最も広く使用されているコンピューター・ビジョン・ライブラリーの1つです。このオープンソース・ライブラリーには、2,500を超えるコンピューター・ビジョン・アルゴリズムが含まれており、画像処理、物体検知、動画分析などのモジュールが含まれています。これは C++で書かれていますが、 JavaやPythonなどのプログラミング言語用のラッパーもあります。

Scikit-image

Scikit-image は、Python 画像処理を行うためのアルゴリズムのオープンソース・コレクションです。前処理、特徴抽出、物体検知、画像セグメンテーションなどのタスクをサポートします。シンプルなので初心者でも使いやすいです。

TensorFlow

TensorFlowは、Google のオープンソースの機械学習プラットフォームです。TensorFlowは、より汎用的なディープラーニング・アプリケーションに対応していますが、コンピューター・ビジョン固有のデータセット、前処理のためのツール、画像と動画の分類、画像セグメンテーション、物体検知のための機能も提供しています。

Torchvision

torchvisionライブラリーは、PyTorchエコシステムの一部を形成します。トランスフォーメーション、データセット、その他のユーティリティー機能が含まれます。このパッケージは、画像と動画の分類、物体検出、セマンティックおよびインスタンス・セグメンテーション用のモデルも提供します。

コンピューター・ビジョンの歴史の概要

コンピューター・ビジョンは、AIの最も初期の分野の1つです。コンピューター・サイエンスの研究者は数十年にわたり、機械に視覚データを理解させる方法を開発してきました。

実験は1950年代から1960年代に始まり、神経生理学者は猫にさまざまな画像を見せながら神経活動を記録しました。動物が最初に線に反応することを発見し、画像処理が定規のような単純な形から始まると結論付けました。8

ほぼ同時に、最初のコンピューター画像スキャン・テクノロジーが開発され、画像をデジタル化して取得できる機能がコンピューターに搭載されるようになりました。9もう1つのマイルストーンは、コンピューターが2次元画像を3次元形式に変換できるようになったときです。10

1982年、神経科学者のDavid Marrは、視覚が階層的に機能することを明らかにし、角、曲線、隅、および同様の基本形状を検知するための機械向けのアルゴリズムを発表しました。11 同じ10年間に、コンピューター科学者の福島邦彦は、パターンを認識できるセルのネットワークを開発しました。ネオコグニトロンと呼ばれるネットワークには、ニューラル・ネットワークに畳み込み層が含まれていました。12

2000年までに、研究の焦点は画像分類と物体認識にありました。13 2009年、コンピューター・ビジョン・アルゴリズムをトレーニングするための、何百万ものラベル付き画像を含むImageNetデータセットが導入されました。14 2012年、トロント大学のチームがAlexNet CNNを開発しました。これはImageNetデータセットでトレーニングされ、画像認識のエラー率を大幅に低減し、今日のコンピューター・ビジョン・モデルへの道を開きました。15

関連ソリューション
IBM Maximo Visual Inspection

外観検査を自動化する優れたノーコード・コンピューター・ビジョンの機能を活用します。

Maximoによる外観検査の詳細はこちら
人工知能(AI)コンサルティングおよびサービス

IBMコンサルティングAIサービスは、企業がAIをトランスフォーメーションに活用する方法を再考するのに役立ちます。

人工知能サービスの詳細はこちら
人工知能ソリューション

業界をリードするIBMのAIに関する専門知識とソリューションのポートフォリオで、ビジネスにAIを活用しましょう。

AIソリューションの詳細はこちら
次のステップ

IBM Maximo Visual Inspectionは、コンピューター・ビジョンのAI機能を品質管理チームや検査チームに提供します。外観検査を自動化する優れたノーコード・コンピューター・ビジョンの機能を活用できます。

Maximoによる外観検査の詳細はこちら 製品ツアーはこちら
脚注

1.「The three R’s of computer vision: Recognition, reconstruction and reorganization」Pattern Recognition Letters、2016年2月8日
2. 「Efficient pneumonia detection using Vision Transformers on chest X-rays」Scientific Reports、2024年1月30日
3. 「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」arXiv、2021ン3ン6月3日
4. 「NGBoost Classifier Using Deep Features for Pneumonia Chest X-Ray Classification」Applied Sciences、2025年9月8日
5. 「Computer Vision Lends Precision to Robotic Grappling」NASA Technology Transfer Program、アクセス日:2025年9月11日
6. 「Amazon Just Walk Out」AWS、アクセス日:2025年9月11日
7. 「The Computer Vision Laboratory」NASA JPL Robotics、アクセス日:2025年9月11日
8. 「From Cats to the Cortex: Unravelling the Hierarchical Processing System of Vision and Brain Plasticity」Cureus、2024年9月2日
9. あなたのエンジニアリングの遺産:スキャナとコンピュータ画像処理、IEEE-USA 知見、2016年2月8日
10.シンプルな世界:ブロックの世界、コンピューター・ビジョンの基礎、2024年
11.マールの視覚の計算理論、コンピュータビジョンの基礎、2024年
12.ネオコグニトロン:位置の変化に影響されないパターン認識機構のための自己組織化ニューラル・ネットワークモデル、バイオロジカルサイバネティクス、1980年
13.コンピュータビジョン、コンピュータビジョンの基礎、2024年
14.ImageNet: 大規模階層型画像データベース、IEEE コンピューター・ビジョンおよびパターン認識会議、2009
15.CHMがAlexNetのソースコードを公開、コンピュータ歴史博物館、2025年3月20日