ホーム
Topics
セマンティックセグメンテーション
セマンティックセグメンテーションは、ディープラーニング、深層学習(DL)アルゴリズムを使用してピクセルにクラスラベルを割り当てるコンピューター・ビジョン タスクで、コンピューターが視覚情報を理解するのに役立つ画像セグメンテーションプロセス全体における3つのサブカテゴリーのうちの1つです。セマンティックセグメンテーションは、ピクセルの集まりを識別し、さまざまな特性に従ってそれらを分類します。画像セグメンテーション以外の2つのサブカテゴリーは、インスタンスセグメンテーションとパノプティックセグメンテーションです。
画像セグメンテーションは、デジタル画像を複数のセグメントに分割し、各領域に含まれる情報を分類するエンドツーエンドの画像分析プロセスです。セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションの3種類の画像セグメンテーションタスクは、画像内の個々のピクセルにラベルを割り当てて、画像内のさまざまなオブジェクトや領域の特定の境界や形状をマークし、色、コントラスト、画像内の配置、その他の属性などの情報を使用して分類します。
セマンティックセグメンテーションでは、画像に含まれるすべてのピクセルがセマンティッククラスによってラベル付けされるのに対し、インスタンスセグメンテーションとパノプティックセグメンテーションでは、さまざまな分類タスクに使用されます。インスタンスセグメンテーションモデルは、数えられる画像に含まれるセマンティッククラス(人、動物、木、車、消火栓などのエンティティやオブジェクト)のみに焦点を当てます。個々のオブジェクトまたはインスタンスを検出し、それぞれのセグメンテーションマスクと特定の識別子タグを出力します。パノプティックセグメンテーションモデルは、セマンティックセグメンテーションを行い、個々のオブジェクトインスタンスを検出してセグメンテーションし、各画素にセマンティックラベルと(必要に応じて)一意のインスタンス識別子を割り当てることで、画像のより完全な分析を行います。
あらゆるデータを対象に、どこからでもAIワークロードを拡張する方法をご確認ください。
セマンティックセグメンテーションタスクは、機械が画像内のさまざまなオブジェクトクラスと背景領域を区別するのに役立ちます。人工知能(AI)と機械学習(ML)の台頭により、画像セグメンテーションとセグメンテーションマップの作成は、風景、人物の写真、医療画像などのデジタル画像の重要なコンテキストを認識するようコンピューターをトレーニングする上で重要な役割を果たしています。
画像セグメンテーション学習モデルにより、機械は人間の脳と同様に視覚情報を解釈できるようになります。画像セグメンテーションモデルは、オブジェクト検出モデルと共通の用途がありますが、重要な点で異なります。画像セグメンテーションモデルは、その情報を境界ボックスで近似するのではなく、ピクセルレベルで画像に含まれるさまざまなエンティティを識別するのです。基本的に、画像分類モデルは画像に何が含まれているかを判断でき(ただし、ローカライズは行わない)、オブジェクト検出モデルは画像内のどこにオブジェクトがあるかを判断できますが、画像内のエンティティの具体的な形状や境界を判断するには、画像セグメンテーションモデルが必要です。1
機械が画像をデータとして解釈できるようにする深層学習アルゴリズムの成功が進むにつれて、機械が物体を識別する能力はますます向上しています。画像分類のタスクは、機械が画像にどのような情報が含まれているかを理解するのに役立ちますが、セマンティックセグメンテーションにより、マシンはさまざまな種類の視覚情報の正確な位置と、それぞれの始まりと終わりを識別できます。
セマンティックセグメンテーションモデルは、インプット画像のセグメンテーションマップを作成します。セグメンテーションマップは本質的に、セグメンテーションマスクを作成するために各ピクセルがセマンティッククラスによって色分けされた元の画像を再構成したものです。セグメンテーションマスクは、画像の他の領域と区別された画像の一部にすぎません。たとえば、空のフィールドにある木のセグメンテーションマップには、木、地面、背景の空の3つのセグメンテーションマスクが含まれる可能性があります。
このために、セマンティックセグメンテーションモデルは、複雑なニューラル・ネットワークを使用して関連するピクセルをセグメンテーションマスクに正確にグループ化し、各ピクセルグループ(またはセグメント)の実世界のセマンティッククラスを正確に認識します。これらのディープラーニング(DL)手法では、人間の専門家によって注釈が付けられた大規模な事前ラベル付けデータセットでモデルをトレーニングし、バックプロパゲーションや勾配降下法のような機械学習技術によって重量とバイアスを調整する必要があります。
DL手法は、サポートベクターマシン(SVM)やランダムフォレストのような、他の「従来の」機械学習アルゴリズムに取って代わるようになりました。ディープニューラル・ネットワークは、トレーニングに多くの時間、データ、計算リソースが必要ですが、他の方法よりも優れたパフォーマンスを発揮したため、初期のイノベーションが成功した後まもなく、注目されるアプローチ方法となりました。
画像データを正確に分類するには、画像に含まれるさまざまなオブジェクトまたはクラスラベルのマスクを表すピクセル値で構成されるデータセットが必要です。通常、画像セグメンテーションに含まれるトレーニングデータは複雑なため、この種のデータセットは他の機械学習データセットよりも量が多く複雑です。
利用可能なオープンソースの画像セグメンテーションデータセットは多数あり、さまざまなセマンティッククラスにまたがり、それぞれに何千もの例と詳細な注釈が付けられています。例えば、歩行者、自転車、他の車など、ブレーキをかける必要があるさまざまな物体を認識するよう自動運転車のコンピュータービジョンに学習させるセグメンテーションの課題を想像してください。自動車のコンピューター・ビジョンは、それらすべてを一貫して認識するようにトレーニングする必要があります。常に車がブレーキをかけるように指示するとは限らないからです。また、そのトレーニングは非常に正確かつ精密でなければなりません。何の問題もない対象を誤って懸念の対象として分類した後、常にブレーキをかける可能性があるためです。
画像セグメンテーションおよびセマンティックセグメンテーションで使用される、最も一般的なオープンソースデータセットをいくつか示します。
Pascal Visual Object Classes(Pascal VOC):Pascal VOCデータセットは、様々なオブジェクトクラス、バウンディングボックス、堅牢なセグメンテーションマップで構成されています。
MS COCO:MS COCOには、約33万枚の画像と、検出、セグメンテーション、画像キャプションを含む多くのタスクのための注釈が含まれています。
都市景観:人気の高いcityscapesデータセットは都市環境のデータを解釈するもので、20,000の注釈と30のクラスラベルを含む5,000枚の画像で構成されています。
トレーニングされたモデルが適切に機能するには、堅牢なアーキテクチャーが必要です。広く使用されているセマンティックセグメンテーションモデルをいくつか示します。
完全畳み込みネットワーク(FCN)
完全畳み込みネットワーク(FCN)は、セマンティックセグメンテーションに使用される最先端のニューラル・ネットワークアーキテクチャで、複数の接続された畳み込み層に依存するものです。従来のCNNアーキテクチャが畳み込み層と単一のラベルを出力するフラット層で構成されているのに対し、FCNモデルはフラット層の一部を1:1の畳み込みブロックに置き換え、画像に関するより多くの情報をさらに抽出できます。フラットかつ高密度な層の使用を避け、畳み込み層、プーリング層、またはアップサンプリング層を優先することで、FCNネットワークのトレーニングが容易になります。
U-Net
U-Netアーキテクチャは、2015年に導入されたオリジナルのFCNアーキテクチャを改良したもので、一貫してより良い結果を達成しています。これは、エンコーダーとデコーダーの2つの部分で構成されています。エンコーダーが画像から情報を抽出するために一貫してダウンサンプリングする畳み込み層を積み重ねる一方で、デコーダーはデコンボリューションのプロセスを用いて画像の特徴を再構築します。U-netアーキテクチャは、主に医療分野で、肺や脳の癌や非癌の腫瘍を識別するために使用されています。
DeepLab
DeepLabセマンティックセグメンテーションモデルは、従来のFCNのアーキテクチャをさらに改善し、さらに正確な結果を提供するため、2015年にGoogleが開発しました。FCNモデルのレイヤーの積み重ねは画像の解像度を大幅に低下させますが、DeepLabのアーキテクチャはアトラス・コンボリューションと呼ばれるプロセスを使ってデータをアップサンプリングします。アトラス・コンボリューションプロセスを使用すると、コンボリューションカーネルが画像から情報を削除し、カーネルパラメーター間にギャップを残すことができます。
DeepLabの膨張畳み込みに対するアプローチは、同じ解像度を維持しつつ、より広い視野からデータを取り出します。その結果、特徴空間は、完全に接続された条件付き確率場アルゴリズム(CRF)を通して引き出されるため、より詳細な情報が取得でき、ピクセル単位の損失関数に利用して、より明確で正確なセグメンテーションマスクを得ることができます。
Pyramid Scene Parsing Network (PSPNet)
2017年に、画像セグメンテーションのための新たなセグメンテーションアルゴリズムが導入されました。PSPNetは、従来のバージョンよりも高い精度でコンテキスト画像データセットを収集するピラミッド解析モジュールを導入しています。PSPNetアーキテクチャは、その前身と同様、エンコーダー・デコーダーアプローチを採用していますが、DeepLabがピクセルレベルの計算にアップスケーリングを適用したのに対し、PSPNetは結果を得るために新たなピラミッドプーリングレイヤーを追加しています。PSPNetのマルチスケールプーリングは、他のモデルよりも幅広い画像情報を分析することができます。
自動運転車はセマンティックセグメンテーションを使って周囲の世界を認識し、リアルタイムで反応します。セマンティックセグメンテーションは、車が認識しているものを、道路上の車線、他の車、交差点などの分類された視覚領域に分割します。セマンティックセグメンテーションにより自動車へ提供される知識により、自動車は安全にナビゲートをして目的地に到達することができるだけでなく、歩行者が道路を横切ったり、他の車が急ブレーキをかけたりするような予期せぬ出来事に対して重要なアクションをとることができます。
CTスキャン、X線、MRIなどの一般的な医療処置の多くは、画像解析に依存しています。従来、この作業は医療の専門家が担当するのが一般的でしたが、現在では医療画像セグメンテーションモデルが同様の結果を上げています。画像を分析し、その中の様々な物体の周りに正確な境界線を描くことにより、セマンティックセグメンテーションを備えたAIは異常を検出し、潜在的な診断を示唆することさえ可能です。
農家では、AI、自動化、セマンティックセグメンテーションを利用して、農作物における病気の感染を検出し、農薬散布の自動化に役立てています。コンピューター・ビジョンが、畑のどの部分に感染の可能性があるか、または感染しているかを農家に知らせ、自動システムで害虫を駆除するための措置を講じることができます。
カメラがポートレートモードとランドスケープモードの間で切り替えたり、フィルターを追加または削除したり、エフェクト作成したりできるようにするためにセマンティックセグメンテーションが頻繁に使用されます。InstagramやTikTok のようなアプリで人気のあるフィルターや機能はすべて、セマンティックセグメンテーションを使って車、建物、動物、その他のオブジェクトを識別し、選択したフィルターやエフェクトを適用できるようにしています。
IBM watsonx.dataについて詳しくは、構造化データと非構造化データを簡単に統合して管理できるデータ・ストアをご覧ください。
IBM watsonx.dataが、今日の複雑なデータ環境の課題に対処し、ニーズに合わせてAIを拡張するのにどのように役立つかをご覧ください。
AIがコンピューター環境でどのように情報を整理し、成果を生み出すのか、その詳細をご覧ください。
コンピューターに視覚情報を理解させ、処理させるための重要な用語の違いについて詳しく説明します。
1「コンピュータ・ビジョンのための実践的機械学習」(ibm.com外部リンク)、Lakshmanan、Valliappa、Gorner、Martin and Gillard、Ryan、O’Reilly Media(2021年7月)