セマンティックセグメンテーションとは

著者

Staff Writer

IBM Think

セマンティックセグメンテーションとは

セマンティック・セグメンテーションは、ディープラーニング、ディープラーニング（DL）アルゴリズムを使用してピクセルにクラス・ラベルを割り当てるコンピューター・ビジョン・タスクで、コンピューターが視覚情報を理解するのに役立つ画像セグメンテーション・プロセス全体における3つのサブカテゴリーのうちの1つです。

セマンティック・セグメンテーションは、ピクセルの集まりを識別し、さまざまな特性に従ってそれらを分類します。画像セグメンテーション以外の2つのサブカテゴリーは、インスタンス・セグメンテーションとパノプティック・セグメンテーションです。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

画像セグメンテーション

画像セグメンテーションは、デジタル画像を複数のセグメントに分割し、各領域に含まれる情報を分類するエンドツーエンドの画像分析プロセスです。

セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションの3種類の画像セグメンテーションタスクは、画像内の個々のピクセルにラベルを割り当てて、画像内のさまざまなオブジェクトや領域の特定の境界や形状をマークし、色、コントラスト、画像内の配置、その他の属性などの情報を使用して分類します。

セマンティックセグメンテーションでは、画像に含まれるすべてのピクセルがセマンティッククラスによってラベル付けされるのに対し、インスタンスセグメンテーションとパノプティックセグメンテーションでは、さまざまな分類タスクに使用されます。

インスタンスセグメンテーションモデルは、数えられる画像に含まれるセマンティッククラス（人、動物、木、車、消火栓などのエンティティやオブジェクト）のみに焦点を当てます。個々のオブジェクトまたはインスタンスを検出し、それぞれのセグメンテーションマスクと特定の識別子タグを出力します。

パノプティックセグメンテーションモデルは、セマンティックセグメンテーションを行い、個々のオブジェクトインスタンスを検出してセグメンテーションし、各画素にセマンティックラベルと（必要に応じて）一意のインスタンス識別子を割り当てることで、画像のより完全な分析を行います。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

セマンティック画像セグメンテーションが重要な理由

セマンティック・セグメンテーション・タスクは、機械が画像内のさまざまなオブジェクト・クラスと背景領域を区別するのに役立ちます。人工知能（AI）と機械学習（ML）の台頭により、画像セグメンテーションとセグメンテーション・マップの作成は、風景、人物の写真、医療画像などのデジタル画像の重要なコンテキストを認識するようコンピューターをトレーニングする上で重要な役割を果たしています。

画像セグメンテーション学習モデルにより、機械は人間の脳と同様に視覚情報を解釈できるようになります。画像セグメンテーションモデルは、オブジェクト検出モデルと共通の用途がありますが、重要な点で異なります。画像セグメンテーションモデルは、その情報を境界ボックスで近似するのではなく、ピクセルレベルで画像に含まれるさまざまなエンティティを識別するのです。基本的に、画像分類モデルは画像に何が含まれているかを判断でき（ただし、ローカライズは行わない）、オブジェクト検出モデルは画像内のどこにオブジェクトがあるかを判断できますが、画像内のエンティティの具体的な形状や境界を判断するには、画像セグメンテーションモデルが必要です。¹

機械が画像をデータとして解釈できるようにする深層学習アルゴリズムの成功が進むにつれて、機械が物体を識別する能力はますます向上しています。画像分類のタスクは、機械が画像にどのような情報が含まれているかを理解するのに役立ちますが、セマンティックセグメンテーションにより、マシンはさまざまな種類の視覚情報の正確な位置と、それぞれの始まりと終わりを識別できます。

セマンティックセグメンテーションはどのように機能するのか？

セマンティックセグメンテーションモデルは、インプット画像のセグメンテーションマップを作成します。セグメンテーションマップは本質的に、セグメンテーションマスクを作成するために各ピクセルがセマンティッククラスによって色分けされた元の画像を再構成したものです。セグメンテーションマスクは、画像の他の領域と区別された画像の一部にすぎません。たとえば、空のフィールドにある木のセグメンテーションマップには、木、地面、背景の空の3つのセグメンテーションマスクが含まれる可能性があります。

このために、セマンティック・セグメンテーション・モデルは、複雑なニューラル・ネットワークを使用して関連するピクセルをセグメンテーション・マスクに正確にグループ化し、各ピクセル・グループ（またはセグメント）の実世界のセマンティック・クラスを正確に認識します。これらのディープラーニング（DL）手法では、人間の専門家によって注釈が付けられた大規模な事前ラベル付けデータセットでモデルをトレーニングし、バック・プロパゲーションや勾配降下法のような機械学習技術によって重量とバイアスを調整する必要があります。

DL手法は、サポートベクターマシン（SVM）やランダム・フォレストのような、他の「従来の」機械学習アルゴリズムに取って代わるようになりました。ディープニューラル・ネットワークは、トレーニングに多くの時間、データ、計算リソースが必要ですが、他の方法よりも優れたパフォーマンスを発揮したため、初期のイノベーションが成功した後まもなく、注目されるアプローチ方法となりました。

トレーニング用データセット

画像データを正確に分類するには、画像に含まれるさまざまなオブジェクトまたはクラスラベルのマスクを表すピクセル値で構成されるデータセットが必要です。通常、画像セグメンテーションに含まれるトレーニングデータは複雑なため、この種のデータセットは他の機械学習データセットよりも量が多く複雑です。

利用可能なオープンソースの画像セグメンテーション・データセットは多数あり、さまざまなセマンティック・クラスにまたがり、それぞれに何千もの例と詳細な注釈が付けられています。例えば、歩行者、自転車、他の車など、ブレーキをかける必要があるさまざまな物体を認識するよう自動運転車のコンピューター・ビジョンに学習させるセグメンテーションの課題を想像してください。自動車のコンピューター・ビジョンは、それらすべてを一貫して認識するようにトレーニングする必要があります。常に車がブレーキをかけるように指示するとは限らないからです。また、そのトレーニングは非常に正確かつ精密でなければなりません。何の問題もない対象を誤って懸念の対象として分類した後、常にブレーキをかける可能性があるためです。

画像セグメンテーションおよびセマンティックセグメンテーションで使用される、最も一般的なオープンソースデータセットをいくつか示します。

Pascal Visual Object Classes（Pascal VOC）：Pascal VOCデータセットは、さまざまなオブジェクト・クラス、バウンディング・ボックス、ロバストなセグメンテーション・マップで構成されています。

MS COCO：MS COCOには、約33万枚の画像と、検出、セグメンテーション、画像キャプションを含む多くのタスクのための注釈が含まれています。

都市景観：人気の高い都市景観用データセットは都市環境のデータを解釈するもので、20,000の注釈と30のクラス・ラベルを含む5,000枚の画像で構成されています。

セマンティック・セグメンテーションモデル

トレーニングされたモデルが適切に機能するには、堅牢なアーキテクチャーが必要です。広く使用されているセマンティックセグメンテーションモデルをいくつか示します。

完全畳み込みネットワーク（FCN）

完全畳み込みネットワーク（FCN）は、セマンティック・セグメンテーションに使用される最先端のニューラル・ネットワーク・アーキテクチャーで、複数の接続された畳み込み層に依存するものです。従来の畳み込みニューラル・ネットワーク（CNN）アーキテクチャーが畳み込み層と単一のラベルを出力するフラット層で構成されているのに対し、FCNモデルはフラット層の一部を1:1の畳み込みブロックに置き換え、画像に関するより多くの情報をさらに抽出できます。フラットかつ高密度な層の使用を避け、畳み込み層、プーリング層、またはアップサンプリング層を優先することで、FCNネットワークのトレーニングが容易になります。

アップサンプリングとダウンサンプリング：ネットワークがより多くの畳み込み層を収集すると、画像サイズが小さくなり、ピクセルレベルの情報だけでなく空間情報も減少します。これは、ダウンサンプリングとして知られる必要なプロセスです。このプロセスの締めくくりとして、データエンジニアは、作成された特徴マップを入力画像の形状に合わせて拡張またはアップサンプリングすることにより、画像の最適化を行います。
最大値プーリング：最大値プーリングは、画像の領域から情報を抽出して分析するプロセスにおけるもう1つの重要なツールです。最大値プーリングでは、分析対象の領域内にある最大の要素が選択されるため、その出力は、過去の特徴マップから最も顕著な特徴を含む特徴マップになります。

U-Net

U-Netアーキテクチャは、2015年に導入されたオリジナルのFCNアーキテクチャを改良したもので、一貫してより良い結果を達成しています。これは、エンコーダーとデコーダーの2つの部分で構成されています。エンコーダーが画像から情報を抽出するために一貫してダウンサンプリングする畳み込み層を積み重ねる一方で、デコーダーはデコンボリューションのプロセスを用いて画像の特徴を再構築します。U-netアーキテクチャは、主に医療分野で、肺や脳の癌や非癌の腫瘍を識別するために使用されています。

スキップ接続：U-NetによってFCNに導入された重要な技術革新はスキップ接続として知られており、ある畳み込み層の出力を隣接しない別の畳み込み層に接続するために使用します。このスキップ接続プロセスにより、ダウンサンプリング中のデータ損失が軽減され、より高解像度の出力が可能になります。各畳み込み層は個別にアップサンプリングされ、最終出力が分析対象の画像を正確に表すまで、他の層の特徴と結合されます。

DeepLab

DeepLabセマンティックセグメンテーションモデルは、従来のFCNのアーキテクチャをさらに改善し、さらに正確な結果を提供するため、2015年にGoogleが開発しました。FCNモデルのレイヤーの積み重ねは画像の解像度を大幅に低下させますが、DeepLabのアーキテクチャはアトラス・コンボリューションと呼ばれるプロセスを使ってデータをアップサンプリングします。アトラス・コンボリューションプロセスを使用すると、コンボリューションカーネルが画像から情報を削除し、カーネルパラメーター間にギャップを残すことができます。

DeepLabの膨張畳み込みに対するアプローチは、同じ解像度を維持しつつ、より広い視野からデータを取り出します。その結果、特徴空間は、完全に接続された条件付き確率場アルゴリズム（CRF）を通して引き出されるため、より詳細な情報が取得でき、ピクセル単位の損失関数に利用して、より明確で正確なセグメンテーションマスクを得ることができます。

Pyramid Scene Parsing Network（PSPNet）

2017年に、画像セグメンテーションのための新たなセグメンテーションアルゴリズムが導入されました。PSPNetは、従来のバージョンよりも高い精度でコンテキスト画像データセットを収集するピラミッド解析モジュールを導入しています。PSPNetアーキテクチャは、その前身と同様、エンコーダー・デコーダーアプローチを採用していますが、DeepLabがピクセルレベルの計算にアップスケーリングを適用したのに対し、PSPNetは結果を得るために新たなピラミッドプーリングレイヤーを追加しています。PSPNetのマルチスケールプーリングは、他のモデルよりも幅広い画像情報を分析することができます。

セマンティック・セグメンテーションのユースケース

自動運転車

自動運転車はセマンティックセグメンテーションを使って周囲の世界を認識し、リアルタイムで反応します。セマンティックセグメンテーションは、車が認識しているものを、道路上の車線、他の車、交差点などの分類された視覚領域に分割します。セマンティックセグメンテーションにより自動車へ提供される知識により、自動車は安全にナビゲートをして目的地に到達することができるだけでなく、歩行者が道路を横切ったり、他の車が急ブレーキをかけたりするような予期せぬ出来事に対して重要なアクションをとることができます。

医療診断

CTスキャン、X線、MRIなどの一般的な医療処置の多くは、画像解析に依存しています。従来、この作業は医療の専門家が担当するのが一般的でしたが、現在では医療画像セグメンテーションモデルが同様の結果を上げています。画像を分析し、その中の様々な物体の周りに正確な境界線を描くことにより、セマンティックセグメンテーションを備えたAIは異常を検出し、潜在的な診断を示唆することさえ可能です。

農業

農家では、AI、自動化、セマンティックセグメンテーションを利用して、農作物における病気の感染を検出し、農薬散布の自動化に役立てています。コンピューター・ビジョンが、畑のどの部分に感染の可能性があるか、または感染しているかを農家に知らせ、自動システムで害虫を駆除するための措置を講じることができます。

写真

カメラがポートレートモードとランドスケープモードの間で切り替えたり、フィルターを追加または削除したり、エフェクト作成したりできるようにするためにセマンティック・セグメンテーションが頻繁に使用されます。InstagramやTikTok のようなアプリで人気のあるフィルターや特徴はすべて、セマンティック・セグメンテーションを使って車、建物、動物、その他のオブジェクトを識別し、選択したフィルターやエフェクトを適用できるようにしています。