IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
画像分類は、画像を事前に定義されたカテゴリーに分類するプロセスです。機械学習では、モデルは画像を認識して分類することを学習します。
人間は幼いころから画像を分類し始めます。先生が幼稚園児に植物や動物の絵を山に分けて分類するように指示すると、園児たちはそれぞれのカテゴリーについて学んだ特徴に従って課題を完了します。これらの各カテゴリーには、植物と動物を区別する異なる特徴があります。大人は、2つのカテゴリーを分ける明確な特徴について学んだことを覚えていないかもしれません。分類方法の大部分は自然に身につくからです。
人工知能(AI)モデルに同じタスクを実行するように教えることは、はるかに困難になる可能性があります。その主な違いは、AIモデルには「見る」ことを教える必要があるのに対し、人間はこの能力を生まれ持っていることです。このように、人間は最初から靴と生き物を区別できるのです。ルールベースの画像分類は、ラベルまたは注釈に依存して、これらを区別します。統計的画像分類は、画像に埋め込まれたパターンを認識するようにモデルをトレーニングすることで同じタスクを実行し、手動によるラベル付け作業の多くを排除します。
コンピューター・ビジョンは、画像分類が含まれる、AIのより一般的な分野を指します。機械学習と多くの場合ニューラル・ネットワークを使用して、コンピューターが画像や動画などの視覚データを解釈できるようにします。コンピューター・ビジョンの実験は1950年代には始まっていたかもしれませんが、ほとんどの専門家は、この技術の商業利用が始まったのは1970年になってからであることに同意するでしょう。
コンピューター・ビジョンにより、コンピューターは見ているものから有用なデータを抽出できます。このプロセスにより、視覚データに問題や異常が検出された場合に、推奨事項を作成したり、行動を起こしたりして対応することもできます。コンピューター・ビジョンには画像認識の分野もあります。この広義の用語は、画像や画像を解釈するコンピューターの能力を表すために使用されます。要約すると、コンピューター・ビジョンはより広いカテゴリーであり、画像認識のタスク、さらに具体的には画像分類のタスクがその中に含まれます。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
この方法は、特定の分類タスクまたは目標に合わせて厳密に開発された画像収集およびラベル付けのプロセスに依存します。このプロセスは、最も視覚的な情報を提供する画像の特徴を選択する専門家が手動で完了します。ルールベースの画像分類では、専門的な知識から構築されたこれらのルールを適用することで、類似のピクセル・クラスターをクラスにグループ化します。また、複雑な機械学習モデルに依存せずに、解釈可能かつカスタマイズ可能な分類も可能になります。
整理を任された写真の箱を想像してみてください。写真の束には、湖、犬、車の写真が含まれています。この方法ではハイテクツールを利用できないため、リストを作成する必要があります。
リストは次のようになります。
この例は、ルールベースの分類が、人間が作成した事前設定済みルールとツールに依存していることを示しています。この方法は、コンピュータに新しいルールを自ら「学習」させる方法とは対照的です。この形式の画像分類には、テンプレート・マッチングやしきい値設定などの手法が含まれます。
テンプレート・マッチングでは、大きなインプット画像の上にテンプレート画像をスライドさせ、各位置でのメトリクスを計算して、テンプレート画像と一致する領域を見つけます。
しきい値設定は、設定されたカットオフ値に基づいてピクセル値をバイナリに変換することで画像をセグメント化します。この方法は、特徴を強度に応じて背景から区別します。
これらの技術は、ルールベースの強化学習と組み合わせることで、堅牢で解釈可能な画像分類システムの実現に貢献します。ルールベースの分類は、 k最近傍アルゴリズムまたは ランダム・フォレスト・アルゴリズムを実装することで完了できます。
この分類方は、ルールベースの画像分類方よりも少し複雑です。統計的画像分類は、画像内のパターンを自動的に学習して認識するように設計されています。画像を効率的に分類するために、この方法では、大規模なラベル付きデータセットと強力なアーキテクチャー(通常は畳み込みニューラル・ネットワーク (CNN))に大きく依存します。これらのCNNは3つの層を使用し、それぞれが画像の一部を識別するために複雑さを増していきます。データがさまざまなCNN層を通過するにつれて、画像が分類できるようになるまで、認識される構成要素の数が増加します。
従来の分布ベースの手法は、画像データの統計特性に関する明確な仮定に依存しています。最尤推定(MLE)やベイズ識別器などの手法は、ピクセル強度や特徴の確率分布を分析してクラスを割り当てます。画像分類では、MLEは画像の各ピクセルを、収集されたデータを最もよく説明する統計モデルを持つクラスに割り当てます。ベイズ式分類法では、ベイズの定理を使用して、事前の知識と収集されたデータに基づいて、画像が特定のクラスに属する確率を計算します。この定理により、条件付き確率を「反転」することができます。クラスの事前確率と観測された特徴の尤度を組み合わせて、特定の画像セグメントの最も可能性の高いクラスを予測します。これらのアルゴリズムでは、各クラスの統計モデル化が必要であり、これらのモデルに基づいて特定のピクセルまたはセグメントが各クラスに属する可能性を推定して分類を実行します。
最尤推定 (MLE) は、観測データを最も可能性が高い値を見つけることでモデルのパラメーターを推定するために使われる統計的手法です。画像分類では、最尤推定(MLE)は、観測されたデータを生成する尤度を最大化する統計モデルを持つクラスに、各ピクセルまたはセグメントを割り当てます。
畳み込みニューラル・ネットワーク(CNN)は、明確に定められた統計的ルールに依存せずにデータから直接特徴を学習する、より現代的で分布によらないアプローチです。CNNは、画像の特徴が最も単純なものから最も複雑なものまで段階的に検知する複数の層で構成されており、畳み込みやプーリングなどの演算を使用します。この場合、畳み込みは、入力データと画像から特徴を抽出するためにCNNによって使用される数学操作です。この操作では、インプット全体をスライドするフィルターまたはカーネルを使用します。プーリングもインプット全体にフィルターを適用しますが、畳み込みとは異なり、このフィルターには重み付けされたパラメーターがありません。CNNのトレーニングには、大規模なラベル付きデータセットとリソースが必要ですが、未加工画像データから特徴を自動的に抽出できるため、多くの場合、精度が大幅に向上します。
データ収集と前処理:各グループの多種多様な画像を収集することが最初のステップです。データにラベルを付けてから正規化する必要があります。正規化およびその他のデータ拡大手法には、画像を固定サイズに変更したり、ピクセル値を正規化したりすることが含まれます。
モデルの選択:ワークフローの次のステップはモデルの選択です。ほとんどの場合、選択されるアーキテクチャーはCNNです。前述したように、CNNは、データがその層を通過するにつれて、より複雑な特徴を検知し始めます。
モデルのトレーニングと検証:選択後、ラベル付けされた画像はトレーニング・データセット、検証データセット、テスト・データセットに分類されます。ネットワークはこれらのセットを使用して重みを最適化し、繰り返し調整することで、予測されたラベルと実際のラベル間の誤差を最小限に抑えます。過学習の防止は検証データによって支援され、結果が所定の基準に達するまでこのトレーニング・プロセスを継続できます。
このステップでは、ImageNetなど人が注釈を付けた画像データセットが適用される場合があります。ImageNetは、1,400万点を超える画像の大規模なコレクションです。これらの画像はすべて整理され、ラベルが付けられており、画像内のオブジェクトをコンピューターが認識できるようにしています。データベース内の各画像には、「synsets」と呼ばれる特定のカテゴリーがタグ付けされています。 これらのシンセットには、「dog」「car」「apple」などが含まれ、WordNetと呼ばれるフレームワークを使用します。
特徴抽出:このステップでは、ルールベースの画像分類とは対照的に、ディープラーニング・モデルは抽出された未加工画像データから独自の特徴を学習します。このアプローチにより、ネットワークはグループまたはクラスを区別する内部表現を確立できます。
評価とデプロイメント:次に、モデルはテスト・データに基づいて評価され、必要に応じてファイン・チューニングされます。その後、モデルが導入されて、予想されるメトリクスが満たされた場合に実世界の環境で新しい画像に対して予測を行います。
画像分類のために、さまざまなモデルとアルゴリズムが開発されています。それは、k近傍法(KNN)、ランダム・フォレスト、サポート・ベクター・マシン(SVM)などのアプローチから、AlexNet、GoogLeNet、ResNetなどのアーキテクチャーまで多岐にわたります。それぞれの方法は、正確性、拡張性、複雑さの点で異なる強みを持っています。これらのオプションにより、ユーザーはより単純な分類器か、画像から深い階層の特徴を学習できる高度に洗練された畳み込みニューラル・ネットワーク(CNN)のいずれかを選択できます。これらのアルゴリズムとモデルについて、さらに詳しく説明していきます。
自動車産業:画像分類と物体検知はどちらも車両において普及しつつあります。物体検知は、周囲に関するリアルタイムの情報をドライバーに提供するために使用されます。この機能は、馴染みのない地域や交通量の多い地域で役立ちます。効果的な物体検知は、そのCNNの画像分類の有効性に大きく依存しています。
植物病害の葉画像分類:研究者らは、健康な葉の13種類の植物病害を検出できるモデルを開発しました。このモデルは、葉や葉を周囲と区別することもできます。このようなモデルは、たとえばブナ葉病(BLD)などに環境が感染しているかどうかを判断する上で非常に重要になる可能性があります。
医療用画像:CNNを使用したディープラーニング画像分類により、肺炎に感染した肺のX線画像を提供できます。医師や医療技術者は、肺炎の症例をより迅速かつ正確に、しかも費用対効果の高い方法で特定できるようになるかもしれません。
画像分類はコンピューター・ビジョンの重要な構成要素です。これにより、機械は人間と同じように視覚的な世界を理解できるようになります。手動による特徴の選択に依存するルールベースの画像分類手法から、微妙なパターンを高精度で認識できる CNN を使用した高度な統計的画像分類まで、この分野は急速に進化しています。その影響は、すでに医療、自動車、環境の業種・業務に同様に及んでいます。このツールは、全体的な安全性の向上につながる、より迅速な意思決定機能をユーザーに提供します。画像分類モデルがより高度化されるにつれて、既存のアプリケーションを強化するだけでなく、まったく新しい可能性への扉が開かれます。