概要

Speech to TextはWatsonの音声認識機能です。ディープ・ラーニングを活用し、音響的な特徴と言語知識から正確にテキストを書き起こします。クラウド上でAPIとして提供する音声認識システムであり、長い時間のストリーム音声や幅広い入力フォーマットをサポートしています。日本語のほかにもアメリカ英語やイギリス英語、フランス語、中国語など複数の言語に対応し、帯域制限された電話音声専用のモデルも提供します。Watsonは基本的な語彙をあらかじめ学習していますが、さらにカスタマイズ機能により特有の単語や言い回しを追加学習できます。そのため、クリアな音声が取得できればさまざまな使用環境で認識精度を高めることができます。世界的な記録を持つIBM Researchの研究成果に基づき、最新のアルゴリズムを順次導入します。


用途

音声による入出力やコミュニケーションが必要な場面で使用します。

  • コール・センターのオペレーターの音声をリアルタイムでテキスト化し、FAQなどのガイドをオペレーターの画面に表示する
  • 会議における発言をテキスト化し、リアルタイムにモニタリングしたり議事録として保管する
  • スマートフォンのアプリケーションやIoT家電などを音声で操作する
  • 電話の自動応答システムで,お客様の声を認識する
  • メディア・ファイル等に含まれる音声を書き起こす
  • 他のWatsonAPIの入力手段として用いる(Conversation等)

ユーザーからの入力:

  • 明瞭な話し方でストリーム化・録音した音声(※)
  • カスタマイズ辞書の学習データ(テキスト文など)

音声フォーマット:FLAC, MP3, PCM, WAV, Ogg, WebM, Mu-law/u-law
サポート言語:ブラジル・ポルトガル語、フランス語、日本語、中国語(標準)、アラビア語、スペイン語、イギリス英語、アメリカ英語
(※話者とマイクとの距離が遠い場合や、関係のない雑音の混入、非常にくだけた発話などは認識精度に影響を与えます。)

サービスからの出力:

  • テキスト化した結果
  • 確信度|Confidence
  • 言いよどみの認識|Hesitation markers
  • 話者識別結果|Speaker labels (Beta)
  • キーワード検出|Keyword spotting (Beta)
  • 代替候補|Word alternatives
  • 検出時間|Timestamps
Hello, Watson!

デモを試す

1)まずは デモサイト (英語) を使用してみましょう。初めに、音声が聞こえるように設定してください。[Voice Model]にて「Japanese」を含むいずれかを選択し、[Play Sample]をクリックしてください。

 ※ 図はクリック/タップで拡大します

2)画面下部に、テキストが入力されるのが確認できます。

3)次に、自分の音声を録音もしくはファイルアップロードし、テキスト化されることを確認してみてください。

デモを見る

活用例

みずほ銀行コールセンター業務の革新

Watsonをコールセンターのリアルタイム支援に実用導入した株式会社みずほ銀行。通話時間の短縮によるお客様満足度の向上、オペレーターの育成期間の短縮といった効果が出はじめています。


Watsonにテープ起こしさせてみた

「テープ起こし」、けっこうな手間がかかります。IBM Cloud で使える人工知能 Watson を使って、インタビューのテープ起こしをしてみました。Watson のテキストを見ながら、人がテープ起こしをすると、作業がびっくりするほど楽になりました!

Watsonにテープ起こしさせてみた

今すぐ使う

IBM Cloudライト・アカウント

これらのAPIを使ったコグニティブ・アプリ構築ができます。組み合わせたり、単体でも活用いただける製品・サービスも記載しています。

Watson API Start Dash Pack

Watsonをすぐに試したいお客様のためのAPIと技術支援をセットにしたオファリングです。価格は¥980,000(税抜)です。

その他のAPI

コグニティブ・アプリケーションを開発するための、機械学習(ディープ・ラーニング)を活用したサービスが準備されています。