画像分類とは

画像分類は、画像を事前に定義されたカテゴリーに分類するプロセスです。機械学習では、モデルは画像を認識して分類することを学習します。

人間は幼いころから画像を分類し始めます。先生が幼稚園児に植物や動物の絵を山に分けて分類するように指示すると、園児たちはそれぞれのカテゴリーについて学んだ特徴に従って課題を完了します。これらの各カテゴリーには、植物と動物を区別する異なる特徴があります。大人は、2つのカテゴリーを分ける明確な特徴について学んだことを覚えていないかもしれません。分類方法の大部分は自然に身につくからです。

人工知能（AI）モデルに同じタスクを実行するように教えることは、はるかに困難になる可能性があります。その主な違いは、AIモデルには「見る」ことを教える必要があるのに対し、人間はこの能力を生まれ持っていることです。このように、人間は最初から靴と生き物を区別できるのです。ルールベースの画像分類は、ラベルまたは注釈に依存して、これらを区別します。統計的画像分類は、画像に埋め込まれたパターンを認識するようにモデルをトレーニングすることで同じタスクを実行し、手動によるラベル付け作業の多くを排除します。

コンピューター・ビジョンとは

コンピューター・ビジョンは、画像分類が含まれる、AIのより一般的な分野を指します。機械学習と多くの場合ニューラル・ネットワークを使用して、コンピューターが画像や動画などの視覚データを解釈できるようにします。コンピューター・ビジョンの実験は1950年代には始まっていたかもしれませんが、ほとんどの専門家は、この技術の商業利用が始まったのは1970年になってからであることに同意するでしょう。

コンピューター・ビジョンにより、コンピューターは見ているものから有用なデータを抽出できます。このプロセスにより、視覚データに問題や異常が検出された場合に、推奨事項を作成したり、行動を起こしたりして対応することもできます。コンピューター・ビジョンには画像認識の分野もあります。この広義の用語は、画像や画像を解釈するコンピューターの能力を表すために使用されます。要約すると、コンピューター・ビジョンはより広いカテゴリーであり、画像認識のタスク、さらに具体的には画像分類のタスクがその中に含まれます。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

画像分類の種類

ルールベースの画像分類

この方法は、特定の分類タスクまたは目標に合わせて厳密に開発された画像収集およびラベル付けのプロセスに依存します。このプロセスは、最も視覚的な情報を提供する画像の特徴を選択する専門家が手動で完了します。ルールベースの画像分類では、専門的な知識から構築されたこれらのルールを適用することで、類似のピクセル・クラスターをクラスにグループ化します。また、複雑な機械学習モデルに依存せずに、解釈可能かつカスタマイズ可能な分類も可能になります。

整理を任された写真の箱を想像してみてください。写真の束には、湖、犬、車の写真が含まれています。この方法ではハイテクツールを利用できないため、リストを作成する必要があります。

リストは次のようになります。

「車」の場合は、タイヤ、ドア、サイドミラーを探します。
「犬」の場合は、垂れ耳、尻尾を振っていること、鼻が長いかどうかを確認します。
「湖」の場合は、たくさんの水と海岸線が写っている写真を探します。

この例は、ルールベースの分類が、人間が作成した事前設定済みルールとツールに依存していることを示しています。この方法は、コンピュータに新しいルールを自ら「学習」させる方法とは対照的です。この形式の画像分類には、テンプレート・マッチングやしきい値設定などの手法が含まれます。

テンプレート・マッチングでは、大きなインプット画像の上にテンプレート画像をスライドさせ、各位置でのメトリクスを計算して、テンプレート画像と一致する領域を見つけます。

しきい値設定は、設定されたカットオフ値に基づいてピクセル値をバイナリに変換することで画像をセグメント化します。この方法は、特徴を強度に応じて背景から区別します。

これらの技術は、ルールベースの強化学習と組み合わせることで、堅牢で解釈可能な画像分類システムの実現に貢献します。ルールベースの分類は、 k最近傍アルゴリズムまたはランダム・フォレスト・アルゴリズムを実装することで完了できます。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

統計的画像分類

この分類方は、ルールベースの画像分類方よりも少し複雑です。統計的画像分類は、画像内のパターンを自動的に学習して認識するように設計されています。画像を効率的に分類するために、この方法では、大規模なラベル付きデータセットと強力なアーキテクチャー（通常は畳み込みニューラル・ネットワーク (CNN)）に大きく依存します。これらのCNNは3つの層を使用し、それぞれが画像の一部を識別するために複雑さを増していきます。データがさまざまなCNN層を通過するにつれて、画像が分類できるようになるまで、認識される構成要素の数が増加します。

シマウマの画像を処理する畳み込みニューラル・ネットワーク（CNN）を示す詳細な図

畳み込みニューラル・ネットワーク（CNN）の図

分布ベースの手法

従来の分布ベースの手法は、画像データの統計特性に関する明確な仮定に依存しています。最尤推定（MLE）やベイズ識別器などの手法は、ピクセル強度や特徴の確率分布を分析してクラスを割り当てます。画像分類では、MLEは画像の各ピクセルを、収集されたデータを最もよく説明する統計モデルを持つクラスに割り当てます。ベイズ式分類法では、ベイズの定理を使用して、事前の知識と収集されたデータに基づいて、画像が特定のクラスに属する確率を計算します。この定理により、条件付き確率を「反転」することができます。クラスの事前確率と観測された特徴の尤度を組み合わせて、特定の画像セグメントの最も可能性の高いクラスを予測します。これらのアルゴリズムでは、各クラスの統計モデル化が必要であり、これらのモデルに基づいて特定のピクセルまたはセグメントが各クラスに属する可能性を推定して分類を実行します。

条件付き確率の式

最尤推定 (MLE) は、観測データを最も可能性が高い値を見つけることでモデルのパラメーターを推定するために使われる統計的手法です。画像分類では、最尤推定（MLE）は、観測されたデータを生成する尤度を最大化する統計モデルを持つクラスに、各ピクセルまたはセグメントを割り当てます。

分布によらない手法

畳み込みニューラル・ネットワーク（CNN）は、明確に定められた統計的ルールに依存せずにデータから直接特徴を学習する、より現代的で分布によらないアプローチです。CNNは、画像の特徴が最も単純なものから最も複雑なものまで段階的に検知する複数の層で構成されており、畳み込みやプーリングなどの演算を使用します。この場合、畳み込みは、入力データと画像から特徴を抽出するためにCNNによって使用される数学操作です。この操作では、インプット全体をスライドするフィルターまたはカーネルを使用します。プーリングもインプット全体にフィルターを適用しますが、畳み込みとは異なり、このフィルターには重み付けされたパラメーターがありません。CNNのトレーニングには、大規模なラベル付きデータセットとリソースが必要ですが、未加工画像データから特徴を自動的に抽出できるため、多くの場合、精度が大幅に向上します。

三角形のグラフィックが三つの部分に分割され、それぞれに様式化された自転車のアイコンが描かれています。ピラミッドはさまざまな青の色合いで陰影が付けられ、グラデーション効果を生み出しています。このデザインでは、目に見えるテキストや数値を使用せず、シンプルさと幾何学的形状が強調されます。

階層の図

数値グリッドに適用される行列フィルタリングの視覚的表現。インプット画像には数字の付いた3x3グリッドが表示され、フィルターとアウトプット配列にはトランスフォーメーション・プロセスが表示されます。

畳み込みニューラル・ネットワーク（CNN）の配列の図

統計的画像分類の仕組み

データ収集と前処理：各グループの多種多様な画像を収集することが最初のステップです。データにラベルを付けてから正規化する必要があります。正規化およびその他のデータ拡大手法には、画像を固定サイズに変更したり、ピクセル値を正規化したりすることが含まれます。

モデルの選択：ワークフローの次のステップはモデルの選択です。ほとんどの場合、選択されるアーキテクチャーはCNNです。前述したように、CNNは、データがその層を通過するにつれて、より複雑な特徴を検知し始めます。

モデルのトレーニングと検証：選択後、ラベル付けされた画像はトレーニング・データセット、検証データセット、テスト・データセットに分類されます。ネットワークはこれらのセットを使用して重みを最適化し、繰り返し調整することで、予測されたラベルと実際のラベル間の誤差を最小限に抑えます。過学習の防止は検証データによって支援され、結果が所定の基準に達するまでこのトレーニング・プロセスを継続できます。

このステップでは、ImageNetなど人が注釈を付けた画像データセットが適用される場合があります。ImageNetは、1,400万点を超える画像の大規模なコレクションです。これらの画像はすべて整理され、ラベルが付けられており、画像内のオブジェクトをコンピューターが認識できるようにしています。データベース内の各画像には、「synsets」と呼ばれる特定のカテゴリーがタグ付けされています。これらのシンセットには、「dog」「car」「apple」などが含まれ、WordNetと呼ばれるフレームワークを使用します。

特徴抽出：このステップでは、ルールベースの画像分類とは対照的に、ディープラーニング・モデルは抽出された未加工画像データから独自の特徴を学習します。このアプローチにより、ネットワークはグループまたはクラスを区別する内部表現を確立できます。

評価とデプロイメント：次に、モデルはテスト・データに基づいて評価され、必要に応じてファイン・チューニングされます。その後、モデルが導入されて、予想されるメトリクスが満たされた場合に実世界の環境で新しい画像に対して予測を行います。

画像分類モデルとアルゴリズム

画像分類のために、さまざまなモデルとアルゴリズムが開発されています。それは、k近傍法（KNN）、ランダム・フォレスト、サポート・ベクター・マシン（SVM）などのアプローチから、AlexNet、GoogLeNet、ResNetなどのアーキテクチャーまで多岐にわたります。それぞれの方法は、正確性、拡張性、複雑さの点で異なる強みを持っています。これらのオプションにより、ユーザーはより単純な分類器か、画像から深い階層の特徴を学習できる高度に洗練された畳み込みニューラル・ネットワーク（CNN）のいずれかを選択できます。これらのアルゴリズムとモデルについて、さらに詳しく説明していきます。

k近傍法（KNN）：このアルゴリズムは、画像分類タスクに広く使用されている教師あり学習分類器です。–ユークリッド距離を使用して、新しいデータ点と各データセット内の他のすべての既存のデータ点との類似性を測定します。画像分類では、まず各画像は特徴ベクトルとして表現されます。特徴ベクトルには、未加工ピクセル値、色ヒストグラム、または画像の重要な視覚的特徴を捉える数値的記述子を含めることができます。画像は、ラベル付けされたトレーニング・セット内の「k」個の最も類似した画像と比較し、それらの近傍間で最も一般的なラベルを割り当てることで分類されます。次に、前述のユークリッド距離を使用して類似性を測定します。
ランダム・フォレスト：柔軟性と使いやすさで知られる別の教師あり画像分類器。分類アルゴリズムは複数の決定木で構成されています。これらの決定木の各アウトプットは平均化され、結合されて最終アウトプットが得られます。ランダム・フォレストは、それぞれが異なるランダムなサンプル画像とデータからの特徴のサブセットでトレーニングされた、多数の決定木の集合を構築することによって画像を分類します。新しい画像に対して、各ツリーはクラスラベルを予測し、すべてのツリーの中で最も得票数の多いクラスがその画像の最終的な分類となります。
サポートベクターマシン（SVM）：分類問題に一般的に使用されるこの機械学習は、理想的な境界を特定して、対立するクラスの最も近いデータ点間のマージンを最大化することで機能します。
AlexNet：ディープラーニングCNNの世界の先駆者であるこのモデルは、そのシンプルでありながら深く階層化された設計により人気を得ました。このモデルは、活性化関数としてシグモイド関数の代わりにReLUを使用します。
GoogLeNet/Inception：Googleによって開発されたこのモデルは、Inceptionモジュールを採用しています。各Inceptionモジュールには、フィルター・サイズの異なる4つのパスが含まれており、GoogLeNetには4つのInceptionモジュールが互いに並列して実行されます。各Inceptionモジュールからの結果は単一のアウトプットに結合されます。研究者らは、Inceptionなどの事前トレーニング済みモデルをファイン・チューニングすると、より正確な成果が得られることを発見しました。
ResNet： このモデルは、残差接続、つまりショートカットを導入し、データが別のパスを通ってネットワークの一部の層をスキップできるようにします。ResNetにより、最大152層までのネットワークで成功したモデル性能を実現しながら、より深いネットワークのトレーニングが可能となった。
TensorFlowカスタム・モデル：もう1つのオプションは、TensorFlowとKerasを使用してモデルを最初から作成することです。このアプローチには、Conv2D、MaxPooling2D、Denseなどの層の構築が伴います。また、ラベル付きサンプルでトレーニングした後、画像を分類できるディープラーニング・パイプラインを構築するための活性化関数の構築も完了しました。

従来型のMLとディープラーニングML

画像分類のユースケース

自動車産業：画像分類と物体検知はどちらも車両において普及しつつあります。物体検知は、周囲に関するリアルタイムの情報をドライバーに提供するために使用されます。この機能は、馴染みのない地域や交通量の多い地域で役立ちます。効果的な物体検知は、そのCNNの画像分類の有効性に大きく依存しています。

植物病害の葉画像分類：研究者らは、健康な葉の13種類の植物病害を検出できるモデルを開発しました。このモデルは、葉や葉を周囲と区別することもできます。このようなモデルは、たとえばブナ葉病（BLD）などに環境が感染しているかどうかを判断する上で非常に重要になる可能性があります。

医療用画像：CNNを使用したディープラーニング画像分類により、肺炎に感染した肺のX線画像を提供できます。医師や医療技術者は、肺炎の症例をより迅速かつ正確に、しかも費用対効果の高い方法で特定できるようになるかもしれません。

まとめ：

画像分類はコンピューター・ビジョンの重要な構成要素です。これにより、機械は人間と同じように視覚的な世界を理解できるようになります。手動による特徴の選択に依存するルールベースの画像分類手法から、微妙なパターンを高精度で認識できる CNN を使用した高度な統計的画像分類まで、この分野は急速に進化しています。その影響は、すでに医療、自動車、環境の業種・業務に同様に及んでいます。このツールは、全体的な安全性の向上につながる、より迅速な意思決定機能をユーザーに提供します。画像分類モデルがより高度化されるにつれて、既存のアプリケーションを強化するだけでなく、まったく新しい可能性への扉が開かれます。

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。