音声テキスト変換は、話された言葉をテキストの書き起こしに変換するプロセスです。音声テキスト変換とも呼ばれ、主にSoftware as a Service(SaaS)として利用できます。
通常、自動音声認識とも呼ばれる人工知能を活用した音声認識技術と文字起こしを組み合わせます。コンピューター・プログラムは、音波の振動の形で音声を拾い、言語アルゴリズムを使用して音声入力をデジタル文字、単語、フレーズに変換します。
機械学習、ディープラーニング、OpenAIの Generative Pre-Trained Transformer(GPT) などの大規模言語モデルにより、大量の音声およびテキスト・サンプルから話し言葉のパターンを収集できるため、音声テキスト変換ソフトウェアはより高度で効率的になりました。
生成 AIを音声テキスト変換ソフトウェアと統合して、電話で顧客をサポートしたり、音声対応アプリと対話したりできるアシスタントを作成できます。生成AIは、テキストをリアルで自然な音声に変換すること(テキスト読み上げとも呼ばれます)もできます。
Speech to Textソフトウェアにはいくつかのコンポーネントが含まれています。これには、次のようなものが含まれます。
音声インプット:マイクが話し言葉をキャプチャする機能
特徴抽出:コンピューターが音声の特徴的なピッチやパターンを識別する機能
デコーダー:アルゴリズムが言語モデルを通じて音声の特徴を文字や単語に一致させる機能。
文字出力:最終的なテキストは、正しい句読点と大文字小文字が使用され、人間が読める形式になります。
一般的に、音声テキスト変換プロセスは次の手順で構成されます。
音声の前処理:音声録音をキャプチャした後、認識の品質と精度を向上させるために前処理が行われます。これには、バックグラウンド・ノイズや無関係な周波数の除去、音量レベルの安定化、処理を容易にするためのクリップのセグメント化、音声ファイルの標準形式への変換が含まれます。・
音声分析と特徴抽出:音声信号は多くの場合、時間の経過に伴う周波数の視覚的表現であるスペクトログラム(ibm.com外部へのリンク)として表されます。1音声録音の関連部分は、1つの単語を別の単語と区別する音声の最小単位である音素のシーケンスに分解されます。音素の主なクラスは母音と子音です(ibm.com外部へのリンク)。2言語モデルとデコーダーは、音素を単語、そして文に一致させることができます。ディープラーニングベースの音響モデルは、コンテキストに基づいて次にどのような文字や単語が出現する可能性があるかを予測できます。
音声認識を実行する主な方法は、同期、非同期、ストリーミングの3つです。
同期認識とは、音声が即座にテキストに変換されることです。1分未満の音声ファイルのみを処理できます。これはテレビ放送のライブ・キャプションに使用されます。
ストリーミング認識では、ストリーミングされた音声がリアルタイムで処理されるため、ユーザーが話している途中で断片的なテキストが表示されることがあります。
非同期認識は、事前に録音された大きな音声ファイルが文字起こしのために送信される機能です。処理のためにキューに入れられ、後で配信される可能性があります。
Google社 3 (ibm.com外部へのリンク)、Microsoft社 4(ibm.com外部へのリンク)、Amazon社5 (ibm.com外部へのリンク)などの企業とIBM®は、クラウド経由で音声テキスト変換ソフトウェアをAPIとして提供しており、他のアプリケーション、ツール、デバイスと連携して使用できます。
Apple社のiPhoneには、iOS に組み込まれた音声テキスト変換技術を統合した ディクテーション機能(ibm.com外部へのリンク)があります。6Androidユーザーは、音声テキスト変換機能を利用するためにGboardなどのアプリをダウンロード(ibm.com外部へのリンク)できます。一部のPixelデバイスでは、アシスタントを介して音声入力が可能です。7オープンソースと独自の音声テキスト変換ソフトウェアの両方にさまざまなオプションがあります。
進化の初期段階では、音声認識ソフトウェアは限られた語彙バンクに依存していました。自動車業界からヘルスケア業界に至るまで、近年のAI導入はデータサイエンス、ディープラーニング、人工知能の進歩に支えられています。
1950年代に、著名な研究所であるBell Laboratoriesは、音声による数字を認識できる「AUDREY」と呼ばれる 最初の音声認識装置(ibm.com外部へのリンク)を開発しました。8その後、IBMは1962年に「Shoebox」を開発しました。これは数字と16種類の単語を認識できました。
この数十年間で(ibm.com外部へのリンク)、コンピューター科学者は音素認識モデルや隠れマルコフモデルなどの統計モデルを考案しました。これらは今でも音声認識の一般的なアルゴリズムとなっています。91970年代頃、カーネギーメロン大学が開発した「HARPY」と呼ばれるプログラムにより、コンピューターは1,000語を認識できるようになりました。
1980年代には、IBMの文字起こしシステム「Tangora」は統計的手法を使用して最大20,000語を認識しました。これは、オフィスワーカー向けの最初の音声起動ディクテーションに使用され、現代の音声テキスト変換ソフトウェアの基礎を築きました。このタイプのソフトウェアは、2000年代に商品化されるまで開発と改良が続けられました。
機械学習とディープラーニングのアルゴリズムが登場すると、統計モデルが置き換えられ、認識精度が向上し、アプリケーションの拡張が可能になりました。ディープラーニングはニュアンスや非公式な表現をより適切に捉えられるかもしれません。大規模言語モデル(LLM)を使用するとコンテキストを追加できます。これは、単語の選択が曖昧な場合や、発音にアクセントのバリエーションがある場合に役立ちます。仮想アシスタントやスマート・スピーカーの登場により、音声テキスト変換を大規模言語モデルや自然言語処理(NLP)、その他のクラウドベースのサービスと統合できるようになりました。
トランスフォーマーなどのエンドツーエンドのディープラーニング・モデルは、大規模言語モデルの基盤となります。音声信号と文字起こしを対応付ける方法を学習するために、音声とテキストのペアの大規模なラベルなしデータセットでトレーニングされます。
このトレーニング中に、モデルは単語の発音方法と、どのような単語が連続して現れる可能性があるかを暗黙的に学習します。このモデルは、独自に適用する文法や言語構造のルールを推測することもできます。ディープラーニングは、従来の音声テキスト変換技術の面倒な手順の一部を統合します。
Speech to Textソフトウェアにはさまざまなユースケースがあります。
音声テキスト変換ソフトウェアは、顧客とのやり取りを自動的に書き起こし、必要に応じて通話をルーティングし、顧客との対話から洞察を引き出し、感情分析を実行できます。
例:カスタマー・サービス用コールセンターでは、AI音声アシスタントが音声テキスト変換を使用して、顧客からの簡単で繰り返しの多い質問を処理し、より複雑なリクエストを人間のエージェントに転送できます。
オンライン会議やウェビナーの議事録を書き起こしたり、ビデオに字幕、キャプション、吹き替えを作成したりできます。翻訳ソフトウェアと併用して、文字起こしドキュメントを複数の言語に翻訳することもできます。特殊用途のアプリケーションを使用すると、医療、法律、教育のアプリケーションでの転記が可能になります。
例: Amazon社(ibm.com外部へのリンク)は、Speech to Textで医師と患者の会話を臨床メモに書き起こしたり、遠隔医療相談に字幕を付けたりする医療転写サービスを提供しています10
自然言語処理を通じて、音声認識は書き起こされたテキストから意味を導き出し、実行可能なコマンドを抽出して実行することができます。これにより、ユーザーは、チャットボットやAlexa、Cortana、Google Assistant、Siriなどのデジタル・アシスタントを介して、電話をかけたり、Web を検索したり、スマート・ホーム内の照明やサーモスタット、その他の接続されたデバイスを制御したりする音声コマンドを出すことができるようになります。
例: Amazon社のAlexa(ibm.com外部へのリンク)は現在、Speech to TextとText to Speechを使用して、照明をオンにしたり、特定の部屋の温度を調整したり、最近の食料品の購入に基づいてレシピを提案したりしています11
障害のある人は、これらのアプリを使用すると、物理的に入力することなくコンピューターやスマートフォンを操作し、代わりに、テキスト・メッセージ、メモ、Eメールなどを口述することができます。
例:失読症の学生や最近腕を負傷した学生でも、 Microsoft社製コンピューターで音声を使用してメモを入力できます(ibm.com外部へのリンク)12この機能はAzure Speechサービスにより実現しています。
AIは、ビデオや音声クリップのトランスクリプトを調べて不適切なコンテンツをスキャンし、人間のレビューのために疑わしい素材にフラグを立てるモデレーターとして機能することができる。
例: Vatis Tech社(ibm.com外部へのリンク)は、マーケティングにおけるSNSモニタリングにSpeech to Textを使用するツールを提供しており、ブランドがトレンドになっている時期や顧客とのやり取りの背後にある意図を特定するのに役立ちます13
1. From Sound to Images, Part 1: A deep dive on spectrogram creation (ibm.com外部へのリンク)、Cornell Lab Macaulay Library、2021年7月19日
2. Lecture 12: An Overview of Speech Recognition(ibm.com外部へのリンク)、ロチェスター大学コンピューター・サイエンス学部
3. Turn speech into text using Google AI(ibm.com外部へのリンク)、Google Cloud
4.Speech to Text REST API(ibm.com外部へのリンク)Microsoft社
5. Amazon Transcribe APIリファレンス(ibm.com外部へのリンク)AWS社
6. iPhone User Guide(ibm.com外部へのリンク)、Apple社
7. Type with your voice(ibm.com外部へのリンク)、Google Support
8. Audrey, Alexa, Hal, and more(ibm.com外部へのリンク)、Computer History Museum、2021年6月9日
9. Speech Recognition: Past, Present, Future(ibm.com外部へのリンク)、カーネギーメロン大学コンピューター・サイエンス学部
10. Amazon Transcribe Medical (ibm.com外部へのリンク)、AWS社
11. Alexa unveils new speech recognition, text-to-speech technologies (ibm.com外部へのリンク)、Amazon社、2023年9月20日
12. Use voice typing to talk instead of type on your PC (ibm.com外部へのリンク)、Microsoft社
13. Media Monitoring Intelligence - Turn any Audio to Insights (ibm.com外部へのリンク)、Vatis Tech社