ホーム

Topics

コンピューター・ビジョン

コンピューター・ビジョンとは
IBMのコンピューター・ビジョン・ソリューションはこちら 登録してサステナビリティーの最新情報を受け取る
顔の横顔、葉、雲のピクトグラムのコラージュ付きイラスト
コンピューター・ビジョンとは

コンピューター・ビジョンとは、機械学習とニューラル・ネットワークを使用して、コンピューターとシステムを教育してデジタル画像、動画、その他の視覚データから意味のある情報を導き出し、欠陥や問題が特定されたときに推奨事項を作成したりアクションを実行したりする人工知能(AI)の一分野のことです。

AIによってコンピューターが考えることができるようになると、コンピューター・ビジョンによって、コンピューターは確認し、観察し、理解できるようになります。

コンピューター・ビジョンは、人間が有利にスタートを切ることができるという点を除けば、人間のビジョンとほとんど同じように機能します。人間の視覚には、オブジェクトを区別する方法、オブジェクト間の距離、オブジェクトが動いているかどうか、画像に何か問題があるかどうかを把握するためのコンテキストの学習の蓄積という利点があります。

コンピューター・ビジョンは、こうした機能を実行するように機械を訓練しますが、網膜、視神経、視覚野によるものではなく、カメラ、データ、アルゴリズムを使用して、はるかに短い時間で実行する必要があります。製品の検査や生産資産の監視を行うように訓練されたシステムは、数千の製品やプロセスを瞬時に分析し、知覚できない欠陥や問題を認識することができるため、人間の能力をすぐに超える可能性があります。

コンピューター・ビジョンは、エネルギー・公共事業から製造業や自動車に至るまで幅広い業界で使用されており、市場は成長を続けています。2022年までに486億米ドルに達すると予想されています。1

EUのCSRDに関する独占ガイドを掘り下げる

一部の企業に対し早ければ2025年にESG情報の開示が開始されるので、当社のガイドを参考に準備しておきましょう。

関連コンテンツ 資産管理のスマート化に関するプレイブックはこちら
コンピューター・ビジョンの仕組み

コンピューター・ビジョンには、大量のデータが必要です。特徴を識別し、最終的に画像を認識するまで、データの分析を繰り返し実行します。例えば、自動車のタイヤをコンピューターに認識させるには、膨大な量のタイヤ画像やタイヤに関するアイテムを与えて違いを学習させ、特に欠陥のないタイヤを認識させる必要があります。

これを実現するには、ディープラーニングと呼ばれる機械学習の一種と、畳み込みニューラル・ネットワーク(CNN)の2つの重要なテクノロジーが使用されます。

機械学習では、アルゴリズム・モデルを使用し、視覚データのコンテキストについてコンピューターが自ら学習できるようにします。モデルを通じて十分なデータが提供されると、コンピューターはデータを「確認」して、ある画像と別の画像を区別するように自ら学習します。アルゴリズムにより、誰かが画像を認識するようにプログラミングするのではなく、機械が自ら学習できるようになります。

CNNは、画像をタグまたはラベルが付けられたピクセルに分割することにより、機械学習またはディープラーニング・モデルの「視覚化」をサポートします。ラベルを使用して畳み込み(2つの関数を使用して3番目の関数を生成する数学的演算)を実行し、「見ている」ものについて予測を行います。ニューラル・ネットワークは畳み込みを実行し、予測が可能になるまで、一連の反復で予測の精度をチェックします。次に、人間と同様の方法で画像を認識または表示します。

人間が離れた場所の画像を認識するのと同じように、CNNは最初にハード・エッジと単純な形状を識別し、次に予測を反復して実行しながら情報を埋め込んでいきます。CNNは、単一の画像を理解するために使用されます。再帰型ニューラル・ネットワーク(RNN)は、動画アプリケーションでも同様の方法で使用され、一連のフレーム内の画像が互いにどのように関連しているかをコンピューターが理解できるようにします。

コンピューター・ビジョンの歴史

科学者やエンジニアは、約60年間、機械が視覚データを確認して理解する方法を開発しようとしてきました。実験は1959年に始まり、神経生理学者が猫に一連の画像を見せ、その脳の反応を相関させようとしました。彼らは脳が最初にはっきりした輪郭や線に反応することを発見し、また科学的には、このことは画像処理がまっすぐな輪郭のような単純な形から始まることを意味しました。2

ほぼ同時に、最初のコンピューター画像スキャン・テクノロジーが開発され、コンピューターが画像をデジタル化して取得できるようになりました。コンピューターが2次元画像を3次元形式に変換できるようになった1963年がもう1つのマイルストーンでした。1960年代に、AIは学術研究分野となり、人間の視覚の問題を解決するためのAIの探求の始まりともなりました。

1974年には、任意のフォントまたは書体で印刷されたテキストを認識できる光学式文字認識(OCR)テクノロジーが導入されました。3 同様に、インテリジェント文字認識(ICR)は、ニューラル・ネットワークを使用して手書きのテキストを解読できます。4 それ以来、OCRとICRは、文書や請求書の処理、車両プレート認識、モバイル決済、機械翻訳、その他の一般的なアプリケーションに適用されるようになりました。

1982年、神経科学者のDavid Marr氏は、視覚が階層的に機能することを明らかにし、輪郭、角、曲線、および同様の基本形状を検知するための機械向けのアルゴリズムを発表しました。同時に、コンピューター科学者の福島邦彦は、パターンを認識できるセルのネットワークを開発しました。ネオコグニトロンと呼ばれるネットワークには、ニューラル・ネットワークに畳み込み層が含まれていました。

2000年までの研究は主にオブジェクト認識を対象とし、2001年までに最初のリアルタイム顔認識アプリケーションが登場しました。視覚データ・セットのタグ付けと注釈付けの方法の標準化は、2000年代に登場しました。2010年に、ImageNetデータ・セットが利用可能になりました。これには、1,000のオブジェクト・クラスにわたる数百万のタグ付き画像が含まれており、今日使用されているCNNとディープラーニング・モデルの基盤を提供します。2012年、トロント大学のチームが「画像認識におけるCNN活用」コンテストに参加しました。AlexNetと呼ばれるこのモデルによって、画像認識の誤差率が大幅に低下しました。このブレークスルーによって、誤差率はわずか数パーセントに低下しました。5

コンピューター・ビジョンの研究 IBM® Researchにおけるコンピューター・ビジョンとマルチメディア

動画、論文、ワークショップなどにアクセスできます。

コンピューター・ビジョンの応用

コンピューター・ビジョンの分野で多くの研究が行われていますが、単なる研究だけではありません。実世界での応用は、ビジネス、エンターテインメント、輸送、医療、および日常生活での取り組みにとって、コンピューター・ビジョンがいかに重要であるかを示しています。これらの応用の拡大の主な推進力は、スマートフォン、セキュリティー・システム、交通カメラ、その他の視覚計測デバイスからの大量の視覚情報です。このデータは、さまざまな業界の業務で主要な役割を果たす可能性がありますが、現在使用されていません。この情報は、コンピューター・ビジョン・アプリケーションとランチパッドをトレーニングするテスト・ベッドを作成し、人間の活動範囲の一部となります。

  • IBMは、コンピューター・ビジョンを使用して、2018年マスターズ・ゴルフ・トーナメント用のMy Momentsを作成しました。IBM Watsonは、何百時間ものマスターズの映像を見て、重要なショットの光景(および音)を特定することができました。これらの重要な瞬間を選別し、パーソナライズされたハイライト・リールとしてファンに配信しました。
  • Google翻訳を使用すると、ユーザーはスマートフォンのカメラを別の言語の標識に向けることで、ほぼ瞬時に選択した言語の標識の翻訳を取得できます。6
  • 自動運転車の開発は、車のカメラやその他のセンサーからの視覚データを解釈するコンピューター・ビジョンに依存しています。他の車、交通標識、車線マーカー、歩行者、自転車、および道路で遭遇するその他すべての視覚情報を特定することが不可欠です。
  • IBMは、Verizon社などのパートナーとコンピューター・ビジョン・テクノロジーを応用し、インテリジェントAIをエッジに導入し、自動車メーカーが工場出荷前の車両の品質上の欠陥を特定できるようにしています。
コンピューター・ビジョンの例

多くの組織には、コンピューター・ビジョン・ラボに資金を提供し、ディープラーニング・モデルやニューラル・ネットワークを作り上げるためのリソースがありません。また、膨大な視覚データ・セットを処理するために必要なコンピューティング能力が不足している可能性もあります。IBMなどの企業は、コンピューター・ビジョン・ソフトウェア開発サービスを提供することで支援を行っています。これらのサービスは、クラウドから利用できる事前構築された学習モデルを提供し、コンピューティング・リソースへの需要も緩和します。ユーザーは、アプリケーション・プログラミング・インターフェース(API)を使用してサービスに接続し、それらを使用してコンピューター・ビジョン・アプリケーションを開発します。

IBMはまた、開発とコンピューティング・リソースの両方の課題に対処するコンピューター・ビジョン・プラットフォームを導入しました。IBM Maximo Visual Inspectionには、対象分野の専門家がコーディングやディープラーニングの専門知識なしでディープラーニング・ビジョン・モデルにラベルを付け、トレーニングし、導入できるようにするツールが含まれています。ビジョン・モデルは、ローカル・データ・センター、クラウド、およびエッジ・デバイスに導入できます。

コンピューター・ビジョン・アプリケーションを開発するためのリソースを入手するのは簡単になってきていますが、早い段階で「これらのアプリケーションは正確には何をするのか」という疑問に答える必要があります。コンピューター・ビジョンの特定のタスクを理解して定義することで、プロジェクトとアプリケーションに焦点を当てて検証し、より簡単に開始できるようになります。

確立されたコンピューター・ビジョン・タスクの例を以下に示します。

  • 画像分類では、画像を見て、分類すること(犬、りんご、人の顔)ができます。より正確には、特定の画像が特定のクラスに属することを正確に予測できます。例えば、ソーシャル・メディア会社は、ユーザーがアップロードした好ましくない画像を自動的に識別して分離するために使用する場合があります。
  • オブジェクト検出では、画像の分類を使用して特定のクラスの画像を識別し、画像または動画でそれらの外観を検出して表にまとめることができます。例としては、組立ラインの損傷の検出や、保守が必要な機械の特定などがあります。
  • オブジェクト・トラッキングでは、オブジェクトが検出されると追尾または追跡します。このタスクは、多くの場合、シーケンスまたはリアルタイムの動画フィードで取り込まれた画像を使用して行われます。例えば、自動運転車は、歩行者、他の車両、道路インフラなどのオブジェクトを分類して検出するだけでなく、衝突を回避して交通法規に従うために、移動中のオブジェクトを追跡する必要があります。7
  • コンテンツ・ベースの画像検索 では、コンピューター・ビジョンを使用して、画像に関連付けられたメタデータ・タグではなく、画像のコンテンツに基づいて、大規模なデータ・ストアから画像を参照、検索、取得します。このタスクには、手動の画像タグ付けに代わる自動画像注釈を組み込むことができます。これらのタスクは、デジタル資産管理システムに使用でき、検索と取得の精度を高めることができます。
関連ソリューション
外観検査ソフトウェア

品質チームや検査チームが、コンピューター・ビジョンの機能を活用できます。IBM Maximo Visual Inspectionは、ディープラーニングを用いたコンピューター・ビジョンを、ビジネス・ユーザーに力を与える外観検査ツールで、より身近なものにします。

IBM Maximo Visual Inspectionはこちら
参考情報 IBM Researchブログ

IBM Researchは、世界最大の企業研究所の1つです。さまざまな業界で行われている研究の詳細をご覧ください。

目視検査とは

目視検査の進化と、人工知能による安全性と品質の向上について紹介します。

開発者向け参考情報

視覚認識およびIBM Maximo Visual Inspectionの使用を開始する方法の詳細を説明します。開発者向けのリソースとコースをご覧ください。

Sund & Baelt社:より良い洞察を獲得するための架け橋

Sund & Baelt社がコンピューター・ビジョン・テクノロジーを利用して、どのように検査を合理化し、生産性を向上させたかをご覧ください。

品質検査の改善

コンピューター・ビジョン・テクノロジーが製造業の品質検査をどのように向上させるかを紹介します。

次のステップ

人工知能ビジョン・モデルのラベル付け、トレーニング、導入のための直感的なツールセットであるIBM Maximo Visual Inspectionを使用して、自動視覚検査のためのノーコード・コンピューター・ビジョンを最大限に活用しましょう。

Maximoによる外観検査の詳細はこちら デモを試す