音声認識は、自動音声認識(ASR)、コンピューター音声認識、または音声テキスト化とも呼ばれ、プログラムが人間の音声を文書形式に変換できるようにする機能です。 話者認識とよく混同されますが、音声認識は発話を音声形式からテキスト形式に変換することに焦点を当て、話者認識は単に個々のユーザーの声を識別しようとするものです。
IBMは、 「Shoebox」 の開発を開始し、1962年にリリースして以来、音声認識において大きな役割を果たしてきました。 このシステムは、1950年代からのベル研究所の最初の研究を進展させた、16の異なる単語を認識する機能を備えていました。 しかしIBMはそこで止まることなく、長年にわたって変革を継続し、1996年に VoiceType Simply Speaking アプリケーションを立ち上げました。 この音声認識ソフトウェアには、4万2000語の語彙、英語とスペイン語のサポート、10万語のスペリング辞書が搭載されていました。 初期の音声技術の語彙は限られたものでしたが、現在は自動車、テクノロジー、ヘルスケアなど、多数の業界で利用されています。 近年では、ディープ・ラーニングやビッグデータの進歩により、音声認識の採用は急速な拡大を続けています。 調査 (ibm.com外部へのリンク)によると、この市場の価値は2025年までに249億ドルに達すると予測されています。
IBM Watson Speech to Text
IBM Watson Text to Speech
多くの音声認識アプリケーションやデバイスが利用可能ですが、より高度なソリューションではAIや機械学習が使用されています。 AIと機械学習では、人間の発話を理解し、処理するために、文法、構文、構造、音響/音声信号構成が統合されます。 実行しながら学習する、つまりそれぞれの相互作用によって対応を進化させるというのが理想的です。
また、最良のシステムでは、組織がそれぞれの固有の要件(発話の言語とニュアンスからブランド認知までのあらゆるもの)に合わせて、テクノロジーをカスタマイズして適合させることもできます。 例えば、以下のようなものがあります。
同時に、音声認識は進化を続けています。 IBMなどの企業がいくつもの分野に進出して、人間と機械の相互作用を向上させようとしています。
人間の発話は予測できないものであるため、音声認識の開発は難しいものでした。 これは言語学、数学、統計学が関与する、コンピューター・サイエンスの最も複雑な分野の1つと考えられています。 音声認識機能は、音声入力、特徴の抽出、特徴のベクトル、デコーダー、単語出力などの、いくつかのコンポーネントで構成されています。 デコーダーは音響モデル、発音辞書、言語モデルを活用して、適切な出力を判断します。
音声認識技術は、精度、つまりワード・エラー率(WER)と、速度によって評価されます。 発音、アクセント、ピッチ、音量、バックグラウンド・ノイズなど、多数の要因がワード・エラー率に影響を与えます。 「人間と同等」の達成、つまり2人の人間が話しているのと同レベルのエラー率にすることが、音声認識システムの長年の目標です。 Lippmann氏による調査(英語)(ibm.com外のリンク)(PDF、352 KB)では、ワード・エラー率を4パーセント前後と見積もっていますが、この資料からの結果を再現することは困難です。
IBMがこの点についてどのように進歩を遂げ、音声認識の分野での業界の記録を達成したか、詳細 をお読みください。
音声を認識してテキスト化し、トランスクリプションの正確度を向上させるために、さまざまなアルゴリズムと計算技法が使用されています。 最も一般的に使用される方法のうちいくつかを、以下で簡単に説明します。
現在、音声テクノロジーのさまざまなアプリケーションが多くの業界で活用されており、企業や消費者の時間の節約、さらには救命にも役立っています。 以下のような例があります。
自動車:音声認識機能により、音声起動型のナビゲーション・システムや車載ラジオの検索機能を実現することで、ドライバーの安全性が向上します。
テクノロジー:特にモバイル・デバイスにおいて、仮想エージェントが日常生活の中に組み込まれる場面が増えています。 たとえば、Google AssistantやAppleのSiriによるスマートフォンでの音声検索などのタスクや、スピーカーを使ったAmazonのAlexaやMicrosoftのCortanaによる音楽再生のために、音声コマンドを使用して仮想アシスタントにアクセスできます。 仮想アシスタントは今後も日常生活で使用される各種製品に組み込まれていき、「モノのインターネット」をさらに促進するでしょう。
ヘルスケア:医師や看護師は口述筆記アプリケーションを活用して、患者の診断や処置に関する覚書を収集し、記録しています。
販売:音声認識テクノロジーには、販売に関するアプリケーションがいくつかあります。 コール・センターでは、音声認識テクノロジーを活用して、顧客と担当員の間の数千件の通話のトランスクリプションを作成して、共通する通話のパターンや問題を特定することができます。 また、AIチャットボットは、Webページを介して人々と話すことで、問い合わせセンターの担当員が対応可能になるのを待つことなく、一般的な質問に回答し、基本的な要求を解決することができます。 どちらの例でも音声認識システムが、消費者の問題の解決にかかる時間を短縮するために役立っています。
セキュリティー:テクノロジーが日常生活に組み込まれるにつれて、セキュリティー・プロトコルの優先度がますます高くなります。 音声ベースの認証を取り入れることで、実行可能なセキュリティー水準を強化することができます。
AIを活用した音声認識とトランスクリプションで、音声をテキストに変換します。
テキストを多様な言語と声で自然な響きの音声に変換します。
AI搭載のハイブリッドクラウド・ソフトウェアです。
カスタマー・セルフサービス、エージェント・アシスタンス、スピーチ分析などのさまざまなユースケースにおいて、複数言語のスピーチ・トランスクリプションを実現します。
Lingmo社は、より少ないデータで音声認識とモデルのトレーニングを強化しています。
イノベーションを加速し、お客様の進化し続ける期待に応えるために、クラウド、AI、自動化などのテクノロジーの使用法について、どう対応し、またどう再検討していくのかについて説明します。