IBM Watson Blog

2024/1/24 追記:Watson Speech to Text 新しい日本語次世代テレフォニーモデルのリリースとすべての前世代モデルのサービス終了

記事をシェアする:

2024/1/24追記:Watson Speech to Textの日本語前世代モデルを既にご利用いただいているお客様への追加のご案内です。現在日本語次世代モデルをさらに改良したLarge Speech Modelの開発を行っております。
https://www.ibm.com/blog/ibms-new-watson-large-speech-model-brings-generative-ai-to-the-phone/

クローズドベータという位置付けで評価を進めており、正式リリースについては時期を含めて現時点では未定です。そのため既に日本語前世代モデルをご利用いただいているお客様に対するサービス終了時期につきましても現時点で未定となっており新しいモデルのリリース後に改めてご案内いたします。

 

2023/7/19 追記:Watson Speech to Text の日本語前世代モデルを既にご利用いただいているお客様につきまして、日本語前世代モデルのサービス終了予定として先にお伝えしておりました2023年12月31日以降も、日本語前世代モデルを引き続きご利用可能とさせていただくこととなりました。
これは、日本語次世代モデルの改良のために、少なくとも2024年1-3月期まで期間を必要とすることによるものです。
日本語前世代モデルを既にご利用いただいているお客様に対するサービス終了時期につきましては、改良した日本語次世代モデルをリリース後に、改めてご案内いたします。

 

2023/5/8 追記:日本語前世代モデルは2023年12月31日にサービス終了となります。

 

Watson Speech to Text  新しい日本語次世代テレフォニーモデルをリリースしました

このサービスは、日本語の次世代テレフォニー・モデル ( ja-JP_Telephony) を提供します。新しいモデルは、低遅延(Low latency)をサポートし、一般出提供されています。 また、言語モデルのカスタマイズと文法もサポートしています。 次世代モデルと低遅延について詳しくは、以下を参照してください。

 

次世代英語モデルと日本語モデルの言語モデル・カスタマイズの向上

本サービスでは、次世代の英語モデルおよび日本語モデルの言語モデル・カスタマイズが改善されました。

  • en-AU_Multimedia
  • en-AU_Telephony
  • en-IN_Telephony
  • en-GB_Multimedia
  • en-GB_Telephony
  • en-US_Multimedia
  • en-US_Telephony
  • ja-JP_Multimedia
  • ja-JP_Telephony

 

モデルに対する可視の改善: 新しいテクノロジーにより、新しい英語モデルと日本語モデルのデフォルトの動作が改善されます。 特に、新しいテクノロジーは、以下のパラメーターのデフォルトの動作を最適化します。

  • これらのモデルの新規バージョンに基づくカスタム・モデルのデフォルトの customization_weight は、 0.2 から 0.1に変更されました。
  • これらのモデルの新しいバージョンに基づくカスタム・モデルのデフォルトの character_insertion_bias0.0のままですが、モデルは音声認識のためのパラメーターをあまり必要としない方法で変更されています。

 

新しいモデルへのアップグレード: 改善されたテクノロジーを利用するには、新しいモデルに基づくすべてのカスタム言語モデルをアップグレードする必要があります。 これらの基本モデルのいずれかの新規バージョンにアップグレードするには、以下を実行します。

  1. モデルに含まれるカスタムの単語、コーパス、または文法を追加または変更して、カスタム・モデルを変更します。 変更を加えると、モデルは ready 状態に移行します。
  2. POST /v1/customizations/{customization_id}/train メソッドを使用して、モデルをリトレーニングします。 リトレーニングにより、カスタム・モデルが新しいテクノロジーにアップグレードされ、モデルが available 状態に移行します。 注: POST /v1/customizations/{customization_id}/upgrade_model メソッドを使用して、カスタム・モデルをこれらの新しい基本モデルの 1 つにアップグレードすることはできません。

 

新しいモデルの使用: 新しい基本モデルにアップグレードした後、音声認識の customization_weight パラメーターと character_insertion_bias パラメーターに特に注意して、アップグレードしたカスタム・モデルのパフォーマンスを評価することをお勧めします。 カスタム・モデルをリトレーニングする場合は、以下のようにします。

  • カスタム・モデルは、カスタム・モデルに対して新しいデフォルトの customization_weight である 0.1 を使用します。 カスタム・モデルに関連付けたデフォルト以外の customization_weight は削除されます。
  • カスタム・モデルでは、最適な音声認識のために character_insertion_bias パラメーターを使用する必要がなくなった可能性があります。

言語モデルのカスタマイズの改善により、高品質の音声認識においてこれらのパラメーターの重要性が低くなります。

  • これらのパラメーターにデフォルト値を使用する場合は、アップグレード後もデフォルト値を使用し続けます。 デフォルト値は、音声認識に最適な結果を提供し続ける可能性があります。
  • これらのパラメーターにデフォルト以外の値を指定する場合は、アップグレード後にデフォルト値を試してください。 カスタム・モデルは、デフォルト値を使用した音声認識に適している場合があります。

これらのパラメーターに異なる値を使用すると、カスタム・モデルでの音声認識が改善される可能性があると考えられる場合は、音声認識を改善するためにパラメーターが必要かどうかを段階的に変更してみてください。

注: 現時点では、言語モデルのカスタマイズの改善は、前述の次世代の英語または日本語の基本言語モデルに基づくカスタム・モデルにのみ適用されます。 時間の経過とともに、他の次世代言語モデルにも改善が提供されます。

詳細情報: アップグレードおよびこれらのパラメーターを使用した音声認識について詳しくは、以下を参照してください。

 

問題の修正: 文法ファイルで数字のストリングが正しく処理されるようになりました。

問題点の修正: 文法を使用すると、より長い数字ストリングが正しく処理されるようになりました。 以前は、認識を完了できなかったか、誤った結果が返されていました

 

重要: 前世代モデルはすべて非推奨になり、2023 年 7 月 31 日にサービスを終了します。

2023/5/8追記:日本語前世代モデルは2023年12月31日にサービス終了となります。

すべての前世代モデル(日本語モデルを含む)は非推奨になり、 2023 年 7 月 31 日にサービス終了になります。 その日に、すべての前世代モデルがサービスおよび資料から削除されます。 2023 年 7 月 31 日までに同等の次世代モデルに移行する必要があります。

注: 前世代の jp-JP_BroadbandModel がサービスから削除されると、次世代の jp-JP_Multimedia モデルが音声認識要求のデフォルト・モデルになります。

 

リリースノート:https://cloud.ibm.com/docs/speech-to-text?topic=speech-to-text-release-notes&locale=ja#speech-to-text-15february2023

More IBM Watson Blog stories

ジェネレートするAI。クリエートする人類 。 | Think Lab Tokyo 宇宙の旅(THE TRIP)

IBM Data and AI, IBM Partner Ecosystem, IBM Sustainability Software

その日、船長ジェフ・ミルズと副船長COSMIC LAB(コズミック・ラブ)は、新宿・歌舞伎町にいた。「THE TRIP -Enter The Black Hole-」(以下、「THE TRIP」)と名付けられた13度目の ...続きを読む


IBM Cloud『医療機関向けクラウドサービス対応セキュリティリファレンス (2024年度)』公開のお知らせ

IBM Cloud Blog, IBM Cloud News

このたびIBM Cloudでは総務省ならびに経済産業省が提唱する医療業界におけるクラウドサービスの利活用に関するガイドラインに対応していることを確認し、整理したリファレンス『医療機関向けクラウドサービス対応セキュリティリ ...続きを読む


イノベーションを起こす方法をイノベーションしなければならない(From IBVレポート「エコシステムとオープン・イノベーション」より)

Client Engineering, IBM Data and AI, IBM Partner Ecosystem

不確実性が増し、変化が絶え間なく続く時代には「イノベーション疲れ」に陥るリスクがある。誰もがイノベーションを起こしていると主張するならば、結局、誰もイノベーション(革新的なこと)を起こしてなどいないことになるだろう 当記 ...続きを読む