概要

Watson Speech to Textサービスは、会話から文字を書き起こします。人工知能により、文法や言語構造に関する情報と音声信号の組成に関する知識を組み合わせて、正確に文字を書き起こします。複数の言語の音声が IBMの音声認識機能によってテキストに変換されます。音声は僅かな遅延で書き起こされます。また、より多くの音声を聞き取ることで学習して修正が加えられていきます。一連の音声からキーワードを1つ以上検出できます。サービスには、WebSocket接続またはREST API経由でアクセスします。

用途

Speech to Textサービスは、音声による双方向の対話が必要な場面で使用します。モバイル環境、メディア・ファイルの書き起こし、コール・センターでの会話の書き起こし、組み込みシステムの音声制御、音源のテキスト化による検索の実現などに活用が見込まれます。サポートされる言語には、英語(イギリス、アメリカ)、日本語、スペイン語、ブラジル・ポルトガル語、現代標準アラビア語、標準中国語があります。Speech to Textサービスは、入力ストリームで特定のキーワードやキーフレーズの有無も検出します。

入力:

  • 明瞭な話し方でストリーム化された音声
  • 明瞭な話し方の録音された音声

サービスの出力:

  • 音声から認識した単語のテキストの書き起こし

デモを試す

Speech to Textのデモをお試しください。事前に録音された音声、WAVファイルのアップロード、その場での録音(米国英語、英国英語、日本語、スペイン語、ブラジル・ポルトガル語、現代標準アラビア語、標準中国語)から選択して、サービスが実際に機能する様子をご覧ください。APIは、タイム・スタンプ、信頼度、代替単語の候補を提供するメタデータを返します。デモにはWatsonに学習させて改善するオプションも含まれます。

使用方法

価格

標準サービス

無料

毎月最初の1,000分は無料です。追加の時間は1分当たり$0.02です。

サポートされるすべての言語で広帯域モデルが使用できます。1単語当たりの信頼度スコア、1単語当たりの時間オフセット、フレーズごとの代替単語の候補も含まれます。

テレフォニー・アドオン

無料

毎月最初の1,000分は無料です。追加の時間は、標準サービスを使用するコストに加えて1分当たり$0.02です。

サポートされるすべての言語で狭帯域モデルを使用できます。電話回線は、音声を8kHzの帯域に圧縮して伝送するため、電話回線を経由した音声を処理するには狭帯域モデルが必要です。

今すぐ使う

BLUEMIX

使用開始は簡単です。今すぐBluemixでサービスをお試しください。

資料

より詳しい情報をご覧になりますか?Bluemixでサービスを使用する方法を詳しく紹介した資料が、Watsonのサービス毎に用意されています。