ホーム
Topics
コンピューター・ビジョン
コンピューター・ビジョンとは、機械学習とニューラル・ネットワークを使用して、コンピューターとシステムを教育してデジタル画像、動画、その他の視覚データから意味のある情報を導き出し、欠陥や問題が特定されたときに推奨事項を作成したりアクションを実行したりする人工知能(AI)の一分野のことです。
AIによってコンピューターが考えることができるようになると、コンピューター・ビジョンによって、コンピューターは確認し、観察し、理解できるようになります。
コンピューター・ビジョンは、人間が有利にスタートを切ることができるという点を除けば、人間のビジョンとほとんど同じように機能します。人間の視覚には、オブジェクトを区別する方法、オブジェクト間の距離、オブジェクトが動いているかどうか、画像に何か問題があるかどうかを把握するためのコンテキストの学習の蓄積という利点があります。
コンピューター・ビジョンは、こうした機能を実行するように機械を訓練しますが、網膜、視神経、視覚野によるものではなく、カメラ、データ、アルゴリズムを使用して、はるかに短い時間で実行する必要があります。製品の検査や生産資産の監視を行うように訓練されたシステムは、数千の製品やプロセスを瞬時に分析し、知覚できない欠陥や問題を認識することができるため、人間の能力をすぐに超える可能性があります。
コンピューター・ビジョンは、エネルギー・公共事業から製造業や自動車に至るまで幅広い業界で使用されており、市場は成長を続けています。2022年までに486億米ドルに達すると予想されています。1
一部の企業に対し早ければ2025年にESG情報の開示が開始されるので、当社のガイドを参考に準備しておきましょう。
コンピューター・ビジョンには、大量のデータが必要です。特徴を識別し、最終的に画像を認識するまで、データの分析を繰り返し実行します。例えば、自動車のタイヤをコンピューターに認識させるには、膨大な量のタイヤ画像やタイヤに関するアイテムを与えて違いを学習させ、特に欠陥のないタイヤを認識させる必要があります。
これを実現するには、ディープラーニングと呼ばれる機械学習の一種と、畳み込みニューラル・ネットワーク(CNN)の2つの重要なテクノロジーが使用されます。
機械学習では、アルゴリズム・モデルを使用し、視覚データのコンテキストについてコンピューターが自ら学習できるようにします。モデルを通じて十分なデータが提供されると、コンピューターはデータを「確認」して、ある画像と別の画像を区別するように自ら学習します。アルゴリズムにより、誰かが画像を認識するようにプログラミングするのではなく、機械が自ら学習できるようになります。
CNNは、画像をタグまたはラベルが付けられたピクセルに分割することにより、機械学習またはディープラーニング・モデルの「視覚化」をサポートします。ラベルを使用して畳み込み(2つの関数を使用して3番目の関数を生成する数学的演算)を実行し、「見ている」ものについて予測を行います。ニューラル・ネットワークは畳み込みを実行し、予測が可能になるまで、一連の反復で予測の精度をチェックします。次に、人間と同様の方法で画像を認識または表示します。
人間が離れた場所の画像を認識するのと同じように、CNNは最初にハード・エッジと単純な形状を識別し、次に予測を反復して実行しながら情報を埋め込んでいきます。CNNは、単一の画像を理解するために使用されます。再帰型ニューラル・ネットワーク(RNN)は、動画アプリケーションでも同様の方法で使用され、一連のフレーム内の画像が互いにどのように関連しているかをコンピューターが理解できるようにします。
科学者やエンジニアは、約60年間、機械が視覚データを確認して理解する方法を開発しようとしてきました。実験は1959年に始まり、神経生理学者が猫に一連の画像を見せ、その脳の反応を相関させようとしました。彼らは脳が最初にはっきりした輪郭や線に反応することを発見し、また科学的には、このことは画像処理がまっすぐな輪郭のような単純な形から始まることを意味しました。2
ほぼ同時に、最初のコンピューター画像スキャン・テクノロジーが開発され、コンピューターが画像をデジタル化して取得できるようになりました。コンピューターが2次元画像を3次元形式に変換できるようになった1963年がもう1つのマイルストーンでした。1960年代に、AIは学術研究分野となり、人間の視覚の問題を解決するためのAIの探求の始まりともなりました。
1974年には、任意のフォントまたは書体で印刷されたテキストを認識できる光学式文字認識(OCR)テクノロジーが導入されました。3 同様に、インテリジェント文字認識(ICR)は、ニューラル・ネットワークを使用して手書きのテキストを解読できます。4 それ以来、OCRとICRは、文書や請求書の処理、車両プレート認識、モバイル決済、機械翻訳、その他の一般的なアプリケーションに適用されるようになりました。
1982年、神経科学者のDavid Marr氏は、視覚が階層的に機能することを明らかにし、輪郭、角、曲線、および同様の基本形状を検知するための機械向けのアルゴリズムを発表しました。同時に、コンピューター科学者の福島邦彦は、パターンを認識できるセルのネットワークを開発しました。ネオコグニトロンと呼ばれるネットワークには、ニューラル・ネットワークに畳み込み層が含まれていました。
2000年までの研究は主にオブジェクト認識を対象とし、2001年までに最初のリアルタイム顔認識アプリケーションが登場しました。視覚データ・セットのタグ付けと注釈付けの方法の標準化は、2000年代に登場しました。2010年に、ImageNetデータ・セットが利用可能になりました。これには、1,000のオブジェクト・クラスにわたる数百万のタグ付き画像が含まれており、今日使用されているCNNとディープラーニング・モデルの基盤を提供します。2012年、トロント大学のチームが「画像認識におけるCNN活用」コンテストに参加しました。AlexNetと呼ばれるこのモデルによって、画像認識の誤差率が大幅に低下しました。このブレークスルーによって、誤差率はわずか数パーセントに低下しました。5
コンピューター・ビジョンの分野で多くの研究が行われていますが、単なる研究だけではありません。実世界での応用は、ビジネス、エンターテインメント、輸送、医療、および日常生活での取り組みにとって、コンピューター・ビジョンがいかに重要であるかを示しています。これらの応用の拡大の主な推進力は、スマートフォン、セキュリティー・システム、交通カメラ、その他の視覚計測デバイスからの大量の視覚情報です。このデータは、さまざまな業界の業務で主要な役割を果たす可能性がありますが、現在使用されていません。この情報は、コンピューター・ビジョン・アプリケーションとランチパッドをトレーニングするテスト・ベッドを作成し、人間の活動範囲の一部となります。
多くの組織には、コンピューター・ビジョン・ラボに資金を提供し、ディープラーニング・モデルやニューラル・ネットワークを作り上げるためのリソースがありません。また、膨大な視覚データ・セットを処理するために必要なコンピューティング能力が不足している可能性もあります。IBMなどの企業は、コンピューター・ビジョン・ソフトウェア開発サービスを提供することで支援を行っています。これらのサービスは、クラウドから利用できる事前構築された学習モデルを提供し、コンピューティング・リソースへの需要も緩和します。ユーザーは、アプリケーション・プログラミング・インターフェース(API)を使用してサービスに接続し、それらを使用してコンピューター・ビジョン・アプリケーションを開発します。
IBMはまた、開発とコンピューティング・リソースの両方の課題に対処するコンピューター・ビジョン・プラットフォームを導入しました。IBM Maximo Visual Inspectionには、対象分野の専門家がコーディングやディープラーニングの専門知識なしでディープラーニング・ビジョン・モデルにラベルを付け、トレーニングし、導入できるようにするツールが含まれています。ビジョン・モデルは、ローカル・データ・センター、クラウド、およびエッジ・デバイスに導入できます。
コンピューター・ビジョン・アプリケーションを開発するためのリソースを入手するのは簡単になってきていますが、早い段階で「これらのアプリケーションは正確には何をするのか」という疑問に答える必要があります。コンピューター・ビジョンの特定のタスクを理解して定義することで、プロジェクトとアプリケーションに焦点を当てて検証し、より簡単に開始できるようになります。
確立されたコンピューター・ビジョン・タスクの例を以下に示します。
品質チームや検査チームが、コンピューター・ビジョンの機能を活用できます。IBM Maximo Visual Inspectionは、ディープラーニングを用いたコンピューター・ビジョンを、ビジネス・ユーザーに力を与える外観検査ツールで、より身近なものにします。
IBM Researchは、世界最大の企業研究所の1つです。さまざまな業界で行われている研究の詳細をご覧ください。
目視検査の進化と、人工知能による安全性と品質の向上について紹介します。
視覚認識およびIBM Maximo Visual Inspectionの使用を開始する方法の詳細を説明します。開発者向けのリソースとコースをご覧ください。
Sund & Baelt社がコンピューター・ビジョン・テクノロジーを利用して、どのように検査を合理化し、生産性を向上させたかをご覧ください。
コンピューター・ビジョン・テクノロジーが製造業の品質検査をどのように向上させるかを紹介します。
1. https://www.forbes.com/sites/bernardmarr/2019/04/08/7-amazing-examples-of-computer-and-machine-vision-in-practice/#3dbb3f751018 (ibm.com外部へのリンク)
2. https://hackernoon.com/a-brief-history-of-computer-vision-and-convolutional-neural-networks-8fe8aacc79f3(ibm.com外部へのリンク)
3. 光学文字認識、Wikipedia (ibm.com外部へのリンク)
4. インテリジェント文字認識、Wikipedia (ibm.com外部へのリンク)
5. A Brief History of Computer Vision (and Convolutional Neural Networks)、Rostyslav Demush、Hacker Noon、2019年2月27日(ibm.com外部へのリンク)
6. 7 Amazing Examples of Computer And Machine Vision In Practice、Bernard Marr、Forbes、2019年4月8日(ibm.com外部へのリンク)
7. The 5 Computer Vision Techniques That Will Change How You See The World、James Le、Heartbeat、2018年4月12日(ibm.com外部へのリンク)