IBM Cloud Blog

Watson Studioで素早く簡単にAI/ディープラーニング!- Visual Recognitionによる画像認識 ②

記事をシェアする:

第2回 画像認識 — 最初の一歩

→ 第1回

前回は、画像認識のユースケース、および、Watson Studioのディープラーニング関連機能などについて述べました。今回は、いよいよWatson Visual Recognitionを使った画像認識を実際に行ってみます。

1. Watson Visual Recognition利用のための準備

まずWatson Studioから画像認識機能を利用できるようWatson Visual Recognitionサービスを作成します。Watson Studioにログインします(Watson Studioサービスはカタログから事前に作成しておいてください)

Home画面を下方にスクロールし、「Watson services」の項目の「New Service」をクリックします。

Watson サービスの一覧が表示されるので、Visual Recognitionの「Add」をクリックします。

プランを選択し、「Create」をクリックします。無償利用ができるLiteプランもあります。

リージョン選択画面のポップアップ画面が表示されるので、US Southを選択し(2019年4月時点で唯一の選択肢です)、「Confirm」をクリックすると、Visual Recognition サービスが作成されます。

作成が完了するとWatson Services画面が表示されますが、作成したはずのVRサービスがデフォルトではリストに表示されません。Locationsメニューを開いて「US South」にチェックを入れてください。


リストにVisual Recognitionサービスのインスタンスが表示されれば、準備は完了です。

2. Visual Recognitionサービスのオプション

前述の準備操作の最後に表示されたWatson Services画面で、リスト中のVisual Recognitionサービスの「Launch tool」をクリックします。(もし、一旦ログアウトしてしまったり別の画面に遷移してしまった場合は、左上部のプルダウン・メニューから「Watson Services」を選択してください)

Visual Recognitionの画面が表示されます。

 

以下、各オプションの説明です(カッコ内は日本語ドキュメントでの名称)。

  • Classify Images (カスタム・モデル)
    ユーザーが学習を通して独自のカスタム画像クラスのモデルを作成できます。
  • Detect Object (物体検出)*
    画像内の物体を認識し、その位置を識別するカスタム・モデルを作成します。
    *) 2019年4月時点で同機能はプライベート・ベータでの提供となっています。事前に利用申請(Request Access)が必要です。

他の4つのオプションは、学習済みの組み込みモデルを提供します。

  • General (一般モデル)
    画像を説明する様々なクラス・キーワードを生成します(詳細は後述)
  • Foods (食品モデル)
    2,000 を超える食品固有の語彙を使用して、食事、食品項目、料理などを識別します。
  • Explicit (不適切モデル)
    ここでの、Explicitは、「露骨な」とか「あからさまな」という意味で、成人向けコンテンツ等、一般に公開するには不適切な画像を判別します。
  • Text (テキスト・モデル)**
    風景画像内にある言葉を自動的に検出し、抽出します。
    **) Textは、2019年4月現在、ベータ版としての提供で英単語のみ対応です。

3. 組み込みモデルの利用

前述した学習済みの組み込みモデルを使って、画像解析を体験してみましょう。学習済みなので手元に画像さえあれば、Watson StudioのWeb UIの操作だけで直ぐに解析が行えます(もちろん、PythonやJava用のSDK、或いはREST APIを利用して本格的んアプリケーションから利用することも可能です)。ここでは、組み込みモデルのうち「一般モデル」を取り上げます。

 
一般モデルでは、数千種類の様々なクラス・キーワードから該当するものを識別します。いわゆる画像へのタグ付けです。クラス・キーワード(タグ)は、階層的にカテゴライズされていて、最上位カテゴリーとしては、動物、 人間および個人とそのアクティビティ、食品、植物、スポーツ、自然、運輸、家具、フルーツ、楽器、工具、色、装置・機器、武器、建物、構造物・人工物、衣類等々があります。
では、一般モデルでの画像解析の操作をご紹介します。Visual Recognition画面で、「General」の「テスト」をクリックし、表示されたGeneral画面で、さらに「テスト」のタブを選択します。


右側のペインに、解析したい画像をドラッグ&ドロップします。
桜の画像なので、「tree」や「plant」 などのキーワードが表示されています。各キーワードの横の数字は、確信度を示す「スコア」です。0.5以上のスコアのキーワードのみが表示されます。
さらに幾つかの画像を追加でアップロードしてみました。各画像の解析結果を並べて見ることができます。

画面左のFilterペインには、全画像のクラス・キーワードが、まとめて表示されます。キーワードの先頭にはチェック・ボックスがあり、ここにチェックを入れると、そのクラスに属する画像だけが表示されます。さらに、「Threshold」バーで、基準とするスコアを0.5から変更できます。
例えば、Filterペインでanimalにチェックを入れます。ただし、この時点では、animalのスコア値0.51である食卓の画像も残ってしまいます。

Thresholdを例えば、0.7にしてみます。すると以下のように、キジとカピバラの画像のみになりました。

このような数個程度の画像の解析なら人の目で十分扱えるレベルなので、あまり便利さの実感はないかもしれません。画像認識は、数千〜数万以上の画像にタグ付けして検索したり、瞬時に画像を分析して自動的に異常を発見したりと、人だけでは扱いきれない、あるいは膨大な人的ワークロードを要するケースでこそ威力を発揮します。

 

今回は、組み込みモデルを使って画像解析を行って見ました。Watson Studioを使うことで、簡単なUI操作で手元の画像を解析できました。
次回は、学習によって自身のカスタム・モデルを作成して画像解析を行います。

 

(参考リンク)

More IBM Cloud Blog stories

IBM Cloud上で GxP に準拠したシステムの構築: ホワイトペーパー発行のお知らせ

IBM Cloud Blog, IBM Cloud News

IBM Cloud上でGxPに準拠したシステムを構築するためのホワイトペーパーを発行しました ライフサイエンス ...続きを読む


サイバー戦隊 CIS! 6つのパワーが今、一つに

IBM Cloud Blog

#始めようCIS Webアプリケーションのセキュリティーとパフォーマンスの両方を向上させるクラウド・サービス「 ...続きを読む


IBMエッジ・コンピューティングとは

IBM Cloud Blog

エッジ・コンピューティングとは 自動車から製造機器、ATM、採掘機器に至るまで、私たちがビジネスを行うために使 ...続きを読む