IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
画像認識は機械学習(ML)のアプリケーションであり、ソフトウェアやデバイスがデジタル画像や動画内のオブジェクト、場所、人物、文章、アクションを識別できるようにします。
画像認識技術で、コンピューターによる製品の欠陥の識別が可能となり、医療専門家は異常を検知しやすくなります。またこの技術は自律走行車の開発に不可欠なものです。
画像認識は、ソフトウェアやマシンが視覚データを理解して反応できるようにする、より広範な人工知能(AI)テクノロジーの分野であるコンピューター・ビジョンの中心的な機能です。
エンジニアは、画像認識で従来の機械学習とディープラーニング・モデルを使用します。これらのアプローチは通常は別々であり、組み合わせるか個別に使用するかは、特定の問題とリソース要件によって異なります。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
機械学習では、人間のエンジニアが手動で抽出した特徴に基づいて画像を分類するアルゴリズムを使用します。エンジニアは、画像認識を通じて解決しようとしている特定の目標または問題に応じて、画像を前処理し、分析します。
顔を識別したり、物体を検出したり、テクスチャーを分類したりするかもしれません。いずれの場合も、エンジニアはドメイン知識を使用して画像を前処理し、アルゴリズムをトレーニングします。
エンジニアは、画像を正規化することで分析用の画像を準備します。正規化とは、ピクセル値を標準範囲(通常は0~1または-1~1)にスケーリングすることを意味し、これによりデータの一貫性が保たれ、機械学習モデルが処理しやすくなります。
前処理には、画像のサイズ変更、計算の複雑さを軽減するためのグレースケールへの変換、ガウスフィルタリング技術を使用したノイズの除去なども含まれます。画像認識における「ノイズ」とは、斑点のある、粒状の、ぼやけた、または歪んだ画像など、ピクセル内の不要またはランダムな変動のことです。
次に、エンジニアは最も有意義な情報を提供する機能を選択する必要があります。結果が色相によってオブジェクトを区別することである場合、形状や色の強度を検出するときはエッジになる可能性があります。機械学習モデルは手動で抽出された特徴に依存しているため、データ注釈は重要な情報にラベルを付けます。
画像内の関心対象オブジェクトに注釈を付けることで、モデルは「ネコ」や「イヌ」などの特定のオブジェクトをより簡単に認識して分類できるようになります。正確に注釈が付けられたデータにより、機械学習アルゴリズムは各カテゴリーの視覚的特徴を正確に学習できます。
エンジニアはこれらの特徴を抽出し、数値ベクトルにフォーマットすることで、機械学習モデルによる画像の処理と比較を容易にします。エンジニアは各画像を固定長の特徴ベクトル(その重要性を要約した数値のリスト)に変換します。
対照的に、ディープラーニング・モデルは画像から直接学習できます。機械学習のサブセットであるディープラーニングは、階層化されたニューラル・ネットワークを使用して複雑な画像の前処理と認識タスクを実行しますが、計算とデータの要件が高くなります。
畳み込みニューラル・ネットワーク(CNN)は、画像データの構造化された性質を分析して学習する畳み込み層を備えたディープラーニング・アーキテクチャーです。
CNNのディープ・ニューラル・ネットワークは、画像の未加工のピクセル値を自動的に検出します。CNNはその情報をディープ・ネットワークの層に渡してパターンを抽出し、最終画像に関する予測を行います。
ネットワークの層は入力層から始まります。入力層は画像の未加工のピクセル値を処理し、それを数値強度のグリッドとして扱い、パターン抽出のために後続の層に渡します。
次に、畳み込み層は画像に小さなフィルターまたはkernelを適用し、エッジやテクスチャーなどのローカル・パターンを検出します。畳み込みにより、ネットワークがデータから直接パターンを学習できるため、手動での特徴抽出の必要性が軽減されます。
各畳み込みの後に、活性化関数がモデルに非線形性を導入し、ネットワークが複数の層を積み重ねることで複雑なパターン、形状、オブジェクトを学習できるようにします。
プーリング層は、重要な特徴を保持しながら画像をダウンサンプリングしてサイズを縮小し、画像内のわずかな回転やシフトなどの変化を処理する際のモデルの計算効率を確保します。
ネットワークは特徴を抽出した後、データを1次元ベクトルに平坦化し、完全に接続された層に渡します。これらの層は、以前の段階で学習したパターンを統合して、複雑な関係を識別し、分類プロセスを改良します。
最後に、データは出力層に到達し、そこで抽出された特徴が統合され、最終的な予測が生成されます。この予測は注釈付きのトレーニング用データセットと比較され、エラーが計算され、ネットワークの重みが調整されて精度が向上します。
例えば、ネコの画像を認識するモデルをトレーニングする場合、エンジニアは教師あり学習を使用して、何千枚もの画像に「ネコ」や「ネコではない」などのタグを付け、モデルが毛の質感、ひげ、耳の形などの主要な特徴を学習できるようにします。
一方、教師なし学習では、モデルはラベルなしデータを使用して独自にパターンを検出します。このモデルは、共通の特性(類似した形状やテクスチャーなど)に基づいて画像をクラスタリングすることにより、事前定義されたカテゴリーなしで関係を識別します。
このアプローチは、ラベル付けされたデータが利用できない場合の不正検知、品質管理、パターン分析などのタスクに役立ちます。教師なし学習では、モデルは共有パターンに基づいて画像を独立してクラスタ化し、明示的にネコであると認識することなく、すべてのネコの画像をグループ化します。
3番目のアプローチである自己教師あり学習は、ラベルなしデータから始めてデータの固有の構造から疑似ラベルを生成することで教師なし学習の側面を組み合わせ、モデルが従来のラベルなしで意味のある表現を学習できるようにすることで、ラベル付きデータセットが限られているタスクに強力になります。
自己教師学習により、モデルは、部分的に隠されたネコの顔を再構築するなど、画像の部分を分析して、パターンや特徴を識別することができます。最終的に、機械学習やディープラーニングのどちらを使用しても、訓練されたモデルは、ネコの新しい、見たことのない画像を正確に識別して分類し、他の動物やオブジェクトと区別できるようになります。
画像認識技術は進歩していますが、精度と信頼性に影響を与える課題が依然として残っています。エンジニアは、改良されたモデル・アーキテクチャー、多様なトレーニング用データセット、前処理技術を組み合わせることで、これらの問題を軽減します。
教師あり学習 では、ラベル付けされたデータを使用します。各画像には正しいカテゴリーがタグ付けされており、明確な例を通じてアルゴリズムをガイドします。たとえば、車を認識するシステムをトレーニングするには、「ネコ」と「猫ではない」というラベル付けされたデータセットが必要です。次に、モデルはこれらのラベル付けされた例内の視覚パターンに基づいて区別することを学習します。
教師なし学習 では、アルゴリズムはラベル付けされていないデータを使用して、独自にパターンを検出します。これは、子どもにおもちゃ箱を与え、おもちゃを類似性で分類させるようなものです。教師なしアルゴリズムは、明示的なカテゴリーを知らなくても、共通の特徴(例えば、ひげ、毛、4本の足、尻尾)に基づいて画像をクラスタリングします。
影、明るさの変化、暗い環境などの照明の変化は、画像認識システムのパフォーマンスに影響を与える可能性があります。明るいスポットによって細部がぼやけたり、影によって重要な特徴が不明瞭になったりして、モデルがオブジェクトの形状や色を誤って解釈する可能性があります。
適応型ヒストグラム均等化やさまざまな照明条件でのトレーニング用データの組み込みなどの高度な方法により、さまざまな照明シナリオでモデルのパフォーマンスが向上します。
画像認識モデルのパフォーマンスは、トレーニング用データの多様性と品質に依存します。主に高解像度の理想化された画像を特徴とするデータセットでトレーニングされたモデルは、低品質な画像や現実世界での違いに遭遇すると判断に苦労する可能性があります。
これを緩和するために、エンジニアは現実世界の状況を表す多様なデータセットをキュレートします。転移学習などの技術により、モデルは大規模で堅牢なデータセットから事前トレーニングされた知識を使用し、データが限られている場合でもパフォーマンスを向上させることができます。
画像内のオブジェクトのサイズは、カメラとの距離によって影響を受け、モデルがオブジェクトを正確に識別する能力に影響を与える可能性があります。小さなオブジェクトは認識に必要となる十分な情報がない可能性があり、また、近すぎるオブジェクトは歪んで見えたり、モデルが正しく分類するには大きすぎるように見える可能性があります。
エンジニアは、これを処理するために、さまざまなサイズと距離のオブジェクトを含むデータセットでモデルをトレーニングします。モデルが幅広いサイズのオブジェクトを処理できるようにするために、マルチスケール画像処理技術と特徴ピラミッドも採用されています。
オブジェクト検出は、オブジェクトを識別し、画像内での位置を正確に特定することで、画像認識を拡張します。この技術により、システムは「この写真のネコはどこにいるか」や「このシーンにはネコが何匹いるか」といった質問に答えることができます。オブジェクト検出では、フレーム内のオブジェクトとその位置、サイズ、方向を認識するため、より多くのコンテキストが提供されます。
例えば、画像内の「ネコ」を識別する代わりに、オブジェクト検出により、コンピューターは「画像の左隅のソファにネコが座っている」と特定し、シーンの空間的理解とオブジェクト間の関係性を提供できます。
画像認識タスクの複雑さもさまざまです。画像の分類または画像内容に基づいて画像全体に単一のラベルを割り当て、「この画像には何が含まれているか」という質問に答えます。
例えば、ネコとイヌのラベル付きデータセットでトレーニングされたモデルは、ネコとイヌの固有の特徴を識別することで、これら2つを区別することを学習します。新しい画像が提示されると、モデルはこれらの特徴を分析して、ネコが写っているのかイヌが写っているのかを予測します。
モデルは、境界ボックスを使用してこれらの個々のオブジェクトの輪郭を描き、背景から分離し、各オブジェクトが開始および終了する場所をマーキングします。この精度は、車両、歩行者、道路標識などのオブジェクトを正確に検出することが安全のために不可欠な自動運転などのアプリケーションにとって重要です。
画像認識は急速に進歩しており、多数の業界やユースケースでより洗練されたアプリケーションへの道を開いています。画像認識の支配的な現実世界のアプリケーションは次のとおりです。
多くのスマートフォンには、ユーザーが画面を調べてデバイスのロックを解除できるようにする顔認識テクノロジーが装備されています。この画像認識のアプリケーションは一般的になり、システムは個々の顔の特徴を認識してアイデンティティーを確認しています。
顔認識は、動画フィードの個人を特定するために、セキュリティーと監視にも広く使用されています。このテクノロジーは、法執行機関では公共スペースでの容疑者追跡に、企業ではアクセスを制御するセキュリティー対策に、それぞれ役立ちます。
SNSプラットフォームは、画像認識を使用して、写真のタグを提案し、友人や家族の顔を特定して認識します。SNSは、顔の特徴を検出するARフィルターを使用して、メガネや動物の耳などの仮想要素を顔の動きに合わせて配置します。
さらに、これらのプラットフォームは、不適切な画像をフィルタリングし、プラットフォームの安全性を維持し、ユーザー・エクスペリエンスを向上させることにより、画像認識を使用してコンテンツをモデレートします。
モバイル・デバイスの現在の拡張現実(AR)アプリケーションを基に、画像認識ソフトウェアを搭載したスマート・メガネは、オブジェクトや場所に関するリアルタイム情報を重ね合わせて、ユーザーに周囲の拡張ビューを提供します。
ARテクノロジーは、ランドマークの識別から店舗の製品の詳細の取得まで、ユーザーが見ているものに関するコンテキスト・データを提供します。
家電製品の画像認識により、スマート冷蔵庫の在庫追跡、ロボット掃除機の障害物検出、セキュリティー・カメラでの人間またはオブジェクト認識などの機能が可能になります。
また、洗濯機の布の生地の種類の検出、スマート・オーブンでの食材認識、スマート・ミラーやベビー・モニターでの顔の分析など、機能を強化します。
配送ロボットは、画像認識に依存して、環境をナビゲートし、障害物を検出し、配送地を特定して、正確かつ効率的な自律配送を行います。
対照的に、倉庫や産業用設定のロボットは、アイテムのスキャンやピックアップ、質の高いチェックの実行、部品の組み立て、並べ替えに同じ技術を使用します。
また、医療画像分析は、医療専門家がX線、MRI、CTスキャンを分析するのに役立ちます。これらのシステムは、肺がん、脳の脳卒中、腫瘍の初期兆候など、人間の目が見逃す可能性のある異常を検知することで、よりタイムリーな診断につながる可能性があります。
Merative(旧称、IBM® Watson Health)は、画像認識を適用して複雑な画像データを分析し、放射線科医が重要な情報を見逃さないようにするのをサポートします。
医療画像認識はAIを搭載した診断で進歩しているため、画像認識システムはより正確に初期段階の疾患を特定するのに役立ちます。
すでに腫瘍発見などの領域を強化しているこのテクノロジーは、特に細部に至る確認が重要な分野で、ミスのない診断のために高度にトレーニングされた「2番目の目」で医療従事者をサポートしています。
OCRテクノロジーは、ドキュメント、書籍、領収書をスキャンして印刷されたテキストをデジタル化します。アプリケーションはOCRを使用して、ユーザーが編集または検索できるデジタル形式に印刷されたテキストを認識して変換します。OCRは、画像認識のための重要な早期ユースケースであり、あらゆる業界で広範囲にわたるデジタル化の道を開くのに役立ちました。
銀行や金融機関は画像認識を使用して検証チェック、ID、その他の文書を自動化し、詐欺を減らし、顧客のオンボーディングを合理化します。このテクノロジーは、文書画像をスキャンして重要な詳細を確認し、認証して、異常があればフラグを付けて確認します。