IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
コンピューター・ビジョンは、認識、再構築、再編成という3つの広範なプロセス間の相互作用として表すことができます。これらのプロセスはそれぞれ連携して動作し、相互に情報を伝達し合います。画像認識とは、デジタル画像や動画内の動作、物体、人物、場所、文章を識別することです。再構成はそれらの実体の立体的な特徴を導き出し、再編成は実体間の関係を推測します。1
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
検索における放射線画像処理は、コンピューター・ビジョンでよく使用されているユースケースです。放射線科医は胸部X線写真を注意深く解釈する必要がありますが、肺炎の症状は微妙で他の肺疾患と似ているため、間違いが起きやすく、時間がかかる作業となる可能性があります。2コンピューター・ビジョン・システムは役に立ちます。
コンピューター・ビジョンのタスクには複数の種類のモデルとアプローチがありますが、次の架空の例は一般的なワークフローを示しています。
AIモデルの良し悪しはトレーニングに使用するデータによって決まるため、コンピューター・ビジョンには高品質のデータが不可欠です。前処理は、データ・クリーニングや、明るさやコントラストを調整して画像を鮮明にする、サイズ変更やスムージングなどの機能強化を通じて、データ品質の向上を支援します。
データセットは、コンピューター・ビジョン・アルゴリズムが正確な結果を生成するために十分な大きさと多様性を備えている必要があります。合成データの生成とデータ拡張は、データセットのサイズとダイバーシティーの拡大に役立ちます。たとえば、病院は胸部 X 線画像を左右に回転させたり、画像を上下反転させたりするなどの幾何学的変換を使用してデータを増強できます。
効率性と性能を最適化するには、適切な機械学習モデルを選択することが重要です。畳み込みニューラル・ネットワーク(CNN) は次に進む画像処理タスクの主要な ディープラーニング・モデルですが、 リカレント・ニューラル・ネットワーク(RNN)はビデオ・フレームなどの逐次データの処理に特に適しています。
しかし、AIの進歩により、トランスフォーマー・モデルへの移行が進んでいます。たとえば、ビジョン・トランスフォーマー(ViT)は、トランスフォーマーベースの言語モデルの要素をコンピューター・ビジョンに適用します。ViTは画像をパッチ処理し、それを言語変換器のトークンに似たシーケンスとして扱います。その後、ViTはこれらのパッチ全体に自己注意メカニズムを実装し、トランスフォーマーベースのインプット画像表現を作成します。多くの場合、ViTは、画像分類などのコンピューター・ビジョンのタスクではCNNの性能に匹敵するか、それを上回ります。3
モデルの選択後、モデルのトレーニングが実行されます。トレーニング段階では、コンピューター・ビジョン・タスクに固有のトレーニング・データでモデルを実行し、地上検証データに対して性能を測定し、時間の経過とともに性能を向上させるためにパラメーターを最適化します。
CNNは、畳み込み層、プーリング層、全結合層の3種類の層で構成されます。畳み込み層では特徴抽出が行われます。特徴抽出では、色、機能、形、テクスチャーなどの未加工画像データから主要な視覚属性を特定し、取得します。肺炎のX線画像の場合、抽出される特徴には、非対称な肺の輪郭、炎症または体液の存在を示す明るい領域(暗い空気で満たされた領域とは対照的)、曇ったまたは不透明な肺の領域、粗いまたは斑状のテクスチャーが含まれます。4特徴抽出により、アルゴリズムは視覚データ内の重要な関係とパターンを区別できます。
X線画像は、ピクセル値の行列として扱われます。フィルターまたはカーネルとして知られる別の重み行列(特定のインプットの特徴がモデルのアウトプットに及ぼす影響を制御するパラメーター)がX線画像の領域に適用され、入力ピクセル値の間の内積が計算されます。フィルターは画像全体で動き、つまり「畳み込み」、特徴を抽出します。このプロセス全体は畳み込みとして知られています。一連のドット積からの最終アウトプットは、有効化マップまたは特徴マップと呼ばれます。各フィルターは、エッジ、形状、テクスチャーなどの特定のパターンに応答するように調整されており、CNNが複数の特徴を同時に学習できるようになります。
特徴マップはプーリング層に渡され、マップのサイズをさらに縮小し、次元を圧縮します。もう1つのフィルターは特徴マップ全体をスイープし、特徴マップ内のセル・グループ内の最大値または平均値を取得します。これにより、最も重要な特徴が保持されるため、モデルはそれらに集中することができます。
画像全体を移動して特徴を抽出し、次元を縮小して分類を行うことは、フォワード・パスとして知られています。このフォワード・パスの後、モデルは損失関数を適用して、誤差、つまり予測された分類と実際の分類の差を計算します。
損失関数を最小限に抑えるために、バックプロパゲーションが採用されます。バックプロパゲーションは、各重みに関する損失関数の勾配を計算するための逆方向パスです。次に、勾配降下手法を実装してモデルの重みを更新し、モデルを最適化します。
最後に、全結合層が、前の層とそのさまざまなフィルターを通じて抽出された特徴に基づいて分類のタスクを実行します。次に、CNNは各クラス(この場合は正常な組織と敗血症)の確率であるアウトプットを生成します。胸部X線画像分類タスクの場合、このアウトプットは正常なスキャン、または可能性が所定のしきい値を超えた場合は、肺炎陽性のスキャンを示します。
コンピューター・ビジョン・アルゴリズムは、次のような幅広いタスクでトレーニングできます。
画像認識は、コンピューター・ビジョンの最も広範な形式です。これには、デジタル画像内の人々、場所、物体、その他の存在の識別が含まれ、画像分類、物体検知、画像セグメンテーションなどのタスクの基盤となります。
画像分類は、画像を事前定義されたグループまたはクラスに分類するコンピューター・ビジョンの中核的タスクです。画像分類は画像または画像内の物体に最も適したラベルを予測します。胸部X線を用いた肺炎診断のシナリオは、画像分類の一例です。
物体検知は、デジタル画像内で物体がどこにあるかを正確に特定することを目的としています。これは、物体位置特定と画像分類という2つの学習手法を融合したものです。
物体位置特定は、画像内の特定の物体の位置を、その物体を囲むように境界ボックスを描画することによって識別します。次に、画像分類によって、物体が属するカテゴリーを区別します。たとえば、道路交通の映像では、コンピューター・ビジョン・アプリは物体検知を使用して車両を分類するだけでなく、道路上の車両の位置を特定することができます。
物体検知向けの一般的なCNNアーキテクチャーには、R-CNN(領域ベースの畳み込みニューラル・ネットワーク)やYOLO(一度だけ確認)などがあります。R-CNNは、まず物体が存在する領域を特定し、次に、それらの領域を別のネットワークに実行して分類とより正確な位置特定を行うことで2段階の検知を実装します。一方、YOLOは、1つのネットワーク・パスに位置特定と分類を融合することで単一段階の検知を行い、リアルタイムの物体検知に十分な高速性を実現します。
映像の物体検知には通常、トランスフォーマーベースのモデルとRNN、特に長期短期記憶アーキテクチャーが適用されます。
画像セグメンテーションは、物体検知のより正確なピクセルレベルのバージョンです。デジタル画像を画像セグメントと呼ばれるピクセルの個別のグループに分割し、そのクラスまたはインスタンスに応じてピクセルにラベルを付けます。
物体検出では、画像内の複数の要素を分類し、各要素の幅と高さを概算できますが、正確な境界や形状を識別することはできません。これにより、画像セグメンテーションは、境界ボックスが重なり合って密集した物体を描出するのに役立ちます。
画像セグメンテーションは、さらに3つのタスク・タイプに分類できます。
たとえば、街の道路の画像では、セマンティック・セグメンテーションでは、並んで駐車されている車を1つの長い車セグメントとして扱いますが、インスタンス・セグメンテーションでは、各車を分離して形状を決定します。
物体追跡は、一連のビデオ・フレームまたは画像フレームにわたって移動する物体を追跡します。各フレーム内の物体を正確に特定して区別し、移動中の物体の連続性を保持します。
状況理解は物体認識をさらに一歩進めて、より高レベルの視覚情報を取得します。画像内の物体を識別する際に、ディープラーニング・モデルは、動作、出来事、やり取りなど、それらの間のつながりを予測します。
グラフ・ニューラル・ネットワーク(GNN)を使用して、画像内の物体間の空間関係を表すことができます。交通映像の例では、コンピューター・ビジョン・システムは、タクシーが車の前を移動していること、車がタクシーの左に駐車していること、または車が右向きに転換していることを推測できます。
視覚言語モデル(VLM)も状況理解に役立ちます。大規模言語モデル(LLM)とビジョン・トランスフォーマーを組み合わせることで、画像内の物体を認識して分類し、他の視覚要素に対する物体の位置など状況に応じた説明が可能になります。
顔認識は、顔の特徴に画像認識を適用します。顔の形状を捉え、目と目の間の距離、額から顎までの距離、鼻の輪郭、唇の形などの主要なパターンを見つけます。
顔認識は、リアルタイムで、または写真や動画から個人を識別できます。よくある例としては、スマートフォンをロック解除するための顔認識による生体認証があります。
姿勢評価は、さまざまな身体部分の空間位置を測定し、ジェスチャーを認識し、身体の動きを追跡します。たとえば、姿勢評価は、仮想現実のゲームプレイ中にゲーマーの腕や手の方向をマークするのに役立ちます。より現実的な例としては、NASAのコンピューター・ビジョン・ソフトウェアが挙げられます。このソフトウェアは、国際宇宙ステーションに搭乗するロボットARMオペレーターに、ターゲットを正確に把握するためのリアルタイムの姿勢評価を提供します。5
光学文字認識(OCR)はテキスト認識とも呼ばれ、画像、スキャンされた文書、その他の情報源からテキストを抽出し、機械が読み取り可能な形式に変換します。そのため、手書きのテキストや紙の記録のデジタル化を自動化するのに役立ちます。
OCR ワークフローは、次のステップに従います。
CNNとトランスフォーマーベースのモデルは、よりインテリジェントな文字認識を実現し、文字内の曲線、線交差、ループ、角度のある線の数などの特徴を抽出します。これらのアルゴリズムは、インテリジェントな単語認識も可能で、文字ではなく単語を区別して処理を高速化します。
画像生成では、生成AIモデルを使用して画像を生成します。画像生成に使用される一般的な生成モデルを以下に示します。
VLMは、テキストの説明を指定して画像を生成することもできます。
外観検査により欠陥の特定が自動化されます。コンピューター・ビジョンは、物体検知を通じて、画像や動画を検査し、障害や欠陥を見つけます。欠陥をより正確に特定するために、画像セグメンテーションを実施することもできます。
コンピューター・ビジョンを搭載した外観検査機は、届きにくい橋の部分の腐食を指摘したり、組み立てられた電子製品のコネクターの欠陥を発見したりする際に、一貫性と精度を向上させながら、より迅速で安全な検査を実施するのに役立ちます。
成熟したAI分野として、コンピューター・ビジョンは多くの進歩を遂げ、幅広いユースケースにつながっています。コンピューター・ビジョンの実際の用途をいくつかご紹介します。
カメラ、ドローン、衛星は、作物や農場の高解像度画像を撮影します。コンピューター・ビジョン・テクノロジーがこれらの画像を分析して、植物の健康状態を評価し、より的を絞った除草剤散布のために害虫や雑草を特定します。
自動車産業では、自動運転車は、カメラ、ライダー、レーダー、センサーを組み合わせて使用して環境の3Dモデルを構成します。次に、検知、画像セグメンテーション、状況理解を適用して安全なナビゲーションを実現し、歩行者や他車などの障害物を回避し、車線、信号、交通標識などの道路の機能を正確に検知します。
医用画像処理は、コンピュータ・ビジョンの重要な分野です。たとえば、物体検知は画像解析を自動化し、X線、CT、MRI、超音波スキャン内の潜在的な病気のマーカーを見つけて特定できます。さらに、インスタンス¥・セグメンテーションにより、臓器、組織、腫瘍の特定の境界を明確にすることができ、より正確な診断が可能になり、治療や患者のケアに関する意思決定に役立ちます。
コンピューター・ビジョン・システムは、品目をスキャンして在庫レベルを判断することで、在庫管理に役立ちます。また、リアルタイムで欠陥を認識することで、品質管理を強化することもできます。これらのシステムは製品の画像を分析し、検査員が人間の視覚で確認する場合と比べて、欠陥や不一致を迅速かつ正確に検出できます。
たとえば、Amazonのジャスト・ウォークアウト・テクノロジーは、小規模な小売店や食品サービス店のコンピューター・ビジョンを使用して顧客の選択を追跡し、チェックアウト体験を自動化します。顧客は、支払いカウンターに並ぶことなく、商品だけ受け取って帰ることができます。6
また、オンライン・ストアは、拡張現実と顔認識、姿勢評価を組み合わせて仮想試着体験を行うこともでき、顧客は購入前に衣服やメガネ、化粧品をどのように見せるかを視覚化することができます。
自動運転車と同様、ロボットはカメラ、ライダー、センサーを使用して周囲をマッピングします。そして、複雑な手術を行う外科医を補助する、倉庫内を移動して商品を輸送する、熟した農産物だけを収穫する、物体を組立ラインに投入するといったタスクを完了するためにコンピューター・ビジョンのアルゴリズムを適用します。
物体検知は、宇宙船が着陸時に危険を見つけて回避するのに役立ちます。一方、探査車は地形を移動するために同様の機能を実装できます。7 画像分類は、小惑星、流星、さらには宇宙ゴミを分類するために使用でき、物体追跡はこれらの天体の軌道を監視します。
コンピューター・ビジョン・アプリを構築するためのツールは数多くあり、開発プロセスの効率化を支援します。一般的なツールには次のようなものがあります。
Kerasは、PyTorchやTensorFlownどの他のAIフレームワーク上で実行できるディープラーニング・アプリケーション・プログラミング・インターフェース(API)です。画像と動画の分類、画像セグメンテーション、物体検出、OCR など、さまざまなコンピューター・ビジョンのタスクに関する多数のチュートリアルと例を提供します。
Scikit-image は、Python 画像処理を行うためのアルゴリズムのオープンソース・コレクションです。前処理、特徴抽出、物体検知、画像セグメンテーションなどのタスクをサポートします。シンプルなので初心者でも使いやすいです。
TensorFlowは、Google のオープンソースの機械学習プラットフォームです。TensorFlowは、より汎用的なディープラーニング・アプリケーションに対応していますが、コンピューター・ビジョン固有のデータセット、前処理のためのツール、画像と動画の分類、画像セグメンテーション、物体検知のための機能も提供しています。
torchvisionライブラリーは、PyTorchエコシステムの一部を形成します。トランスフォーメーション、データセット、その他のユーティリティー機能が含まれます。このパッケージは、画像と動画の分類、物体検出、セマンティックおよびインスタンス・セグメンテーション用のモデルも提供します。
コンピューター・ビジョンは、AIの最も初期の分野の1つです。コンピューター・サイエンスの研究者は数十年にわたり、機械に視覚データを理解させる方法を開発してきました。
実験は1950年代から1960年代に始まり、神経生理学者は猫にさまざまな画像を見せながら神経活動を記録しました。動物が最初に線に反応することを発見し、画像処理が定規のような単純な形から始まると結論付けました。8
ほぼ同時に、最初のコンピューター画像スキャン・テクノロジーが開発され、画像をデジタル化して取得できる機能がコンピューターに搭載されるようになりました。9もう1つのマイルストーンは、コンピューターが2次元画像を3次元形式に変換できるようになったときです。10
1982年、神経科学者のDavid Marrは、視覚が階層的に機能することを明らかにし、角、曲線、隅、および同様の基本形状を検知するための機械向けのアルゴリズムを発表しました。11 同じ10年間に、コンピューター科学者の福島邦彦は、パターンを認識できるセルのネットワークを開発しました。ネオコグニトロンと呼ばれるネットワークには、ニューラル・ネットワークに畳み込み層が含まれていました。12
2000年までに、研究の焦点は画像分類と物体認識にありました。13 2009年、コンピューター・ビジョン・アルゴリズムをトレーニングするための、何百万ものラベル付き画像を含むImageNetデータセットが導入されました。14 2012年、トロント大学のチームがAlexNet CNNを開発しました。これはImageNetデータセットでトレーニングされ、画像認識のエラー率を大幅に低減し、今日のコンピューター・ビジョン・モデルへの道を開きました。15
1.「The three R’s of computer vision: Recognition, reconstruction and reorganization」Pattern Recognition Letters、2016年2月8日
2. 「Efficient pneumonia detection using Vision Transformers on chest X-rays」Scientific Reports、2024年1月30日
3. 「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」arXiv、2021ン3ン6月3日
4. 「NGBoost Classifier Using Deep Features for Pneumonia Chest X-Ray Classification」Applied Sciences、2025年9月8日
5. 「Computer Vision Lends Precision to Robotic Grappling」NASA Technology Transfer Program、アクセス日:2025年9月11日
6. 「Amazon Just Walk Out」AWS、アクセス日:2025年9月11日
7. 「The Computer Vision Laboratory」NASA JPL Robotics、アクセス日:2025年9月11日
8. 「From Cats to the Cortex: Unravelling the Hierarchical Processing System of Vision and Brain Plasticity」Cureus、2024年9月2日
9. あなたのエンジニアリングの遺産:スキャナとコンピュータ画像処理、IEEE-USA 知見、2016年2月8日
10.シンプルな世界:ブロックの世界、コンピューター・ビジョンの基礎、2024年
11.マールの視覚の計算理論、コンピュータビジョンの基礎、2024年
12.ネオコグニトロン:位置の変化に影響されないパターン認識機構のための自己組織化ニューラル・ネットワークモデル、バイオロジカルサイバネティクス、1980年
13.コンピュータビジョン、コンピュータビジョンの基礎、2024年
14.ImageNet: 大規模階層型画像データベース、IEEE コンピューター・ビジョンおよびパターン認識会議、2009
15.CHMがAlexNetのソースコードを公開、コンピュータ歴史博物館、2025年3月20日