Watson Speech to Textの概要

Speech to TextはWatsonの音声認識機能です。ディープ・ラーニングを活用し、音響的な特徴と言語知識から正確にテキストを書き起こします。クラウド上でAPIとして提供する音声認識システムであり、長い時間のストリーム音声や幅広い入力フォーマットをサポートしています。日本語のほかにもアメリカ英語やイギリス英語、フランス語、中国語など複数の言語に対応し、帯域制限された電話音声専用のモデルも提供します。Watsonは基本的な語彙をあらかじめ学習していますが、さらにカスタマイズ機能により特有の単語や言い回しを追加学習できます。そのため、クリアな音声が取得できればさまざまな使用環境で認識精度を高めることができます。世界的な記録を持つIBM Researchの研究成果に基づき、最新のアルゴリズムを順次導入します。

*Watson 音声認識サービスは、国立国語研究所の「日本語話し言葉コーパス」(CSJ)および「現代日本語書き言葉均衡コーパス」(BCCWJ)の成果を利用しています。

→ 関連記事:「進化を続ける音声認識」業界標準の電話会話音声認識ベンチマークで世界最高の性能を達成 (PDF, 676KB)

用途

音声による入出力やコミュニケーションが必要な場面で使用します。

  • コール・センターのオペレーターの音声をリアルタイムでテキスト化し、FAQなどのガイドをオペレーターの画面に表示する
  • 会議における発言をテキスト化し、リアルタイムにモニタリングしたり議事録として保管する
  • スマートフォンのアプリケーションやIoT家電などを音声で操作する
  • 電話の自動応答システムで,お客様の声を認識する
  • メディア・ファイル等に含まれる音声を書き起こす
  • 他のWatsonAPIの入力手段として用いる(Conversation等)

ユーザーからの入力:

  • 明瞭な話し方でストリーム化・録音した音声(※)
  • カスタマイズ辞書の学習データ(テキスト文など)

音声フォーマット:FLAC, MP3, PCM, WAV, Ogg, WebM, Mu-law/u-law

サポート言語:ブラジル・ポルトガル語、フランス語、日本語、中国語(標準)、アラビア語、スペイン語、イギリス英語、アメリカ英語

(※話者とマイクとの距離が遠い場合や、関係のない雑音の混入、非常にくだけた発話などは認識精度に影響を与えます。)

サービスからの出力:

  • テキスト化した結果
  • 確信度|Confidence
  • 言いよどみの認識|Hesitation markers
  • 話者識別結果|Speaker labels (Beta)
  • キーワード検出|Keyword spotting (Beta)
  • 代替候補|Word alternatives
  • 検出時間|Timestamps

用途

Speech to Text デモを試す

1)まずは デモサイト (英語,IBM外のWebサイトへ) を使用してみましょう。初めに、音声が聞こえるように設定してください。[Voice Model]にて「Japanese」を含むいずれかを選択し、[Play Sample]をクリックしてください。

speech-to-text-1

 

2)画面下部に、テキストが入力されるのが確認できます。

speech-to-text-2

 

3)次に、自分の音声を録音もしくはファイルアップロードし、テキスト化されることを確認してみてください。

speech-to-text-3

デモを見る

 

さて、いかがでしたか?どのように活用するかは皆さん次第です。

→ 音声認識 Speech To Text を試してみる (英語, IBM外のWebサイトへ)

→ 開発資料

開発資料

デモをより深く理解する(英語)

Speech to Text Browser Application (IBM外のWebサイトへ)

GitHubでソース・アプリケーション(Node.js版)を入手する

Watson SDK (IBM外のWebサイトへ)

Node.jsJavaPythonSwiftUnity.NET