音声認識とは

音声認識は、自動音声認識（ASR）、コンピューター音声認識、または音声テキスト化とも呼ばれ、プログラムが人間の音声を文書形式に変換できるようにする機能です。話者認識とよく混同されますが、音声認識は発話を音声形式からテキスト形式に変換することに焦点を当て、話者認識は単に個々のユーザーの声を識別しようとするものです。

IBMは、「Shoebox」の開発を開始し、1962年にリリースして以来、音声認識において大きな役割を果たしてきました。このシステムは、1950年代からのベル研究所の最初の研究を進展させた、16の異なる単語を認識する機能を備えていました。しかしIBMはそこで止まることなく、長年にわたって変革を継続し、1996年に VoiceType Simply Speaking アプリケーションを立ち上げました。この音声認識ソフトウェアには、4万2000語の語彙、英語とスペイン語のサポート、10万語のスペリング辞書が搭載されていました。初期の音声技術の語彙は限られたものでしたが、現在は自動車、テクノロジー、ヘルスケアなど、多数の業界で利用されています。近年では、ディープ・ラーニングやビッグデータの進歩により、音声認識の採用は急速な拡大を続けています。調査（ibm.com外部へのリンク）によると、この市場の価値は2025年までに249億ドルに達すると予測されています。

主な製品

IBM Watson Speech to Text

IBM Watson Text to Speech

効果的な音声認識の主な機能

多くの音声認識アプリケーションやデバイスが利用可能ですが、より高度なソリューションではAIや機械学習が使用されています。 AIと機械学習では、人間の発話を理解し、処理するために、文法、構文、構造、音響/音声信号構成が統合されます。実行しながら学習する、つまりそれぞれの相互作用によって対応を進化させるというのが理想的です。

また、最良のシステムでは、組織がそれぞれの固有の要件（発話の言語とニュアンスからブランド認知までのあらゆるもの）に合わせて、テクノロジーをカスタマイズして適合させることもできます。例えば、以下のようなものがあります。

言語の重み付け：基本の語彙に既にある用語だけでなく、頻繁に話される特定の語（製品名や業界用語など）に重み付けすることによって、精度を向上させます。
話者のラベル付け：参加者が複数いる会話で、各話者の発言を列挙あるいはタグ付けしたトランスクリプションを出力します。
音響トレーニング：ビジネスの音響に関連する側面に対応します。音響環境（コール・センターの周囲の雑音など）や話者のスタイル（音声のピッチ、音量、ペースなど）に適応するようにシステムをトレーニングします。
不適切表現のフィルタリング：フィルターを使用して特定の語または句を特定し、音声出力から不適切な表現を除去します。

同時に、音声認識は進化を続けています。 IBMなどの企業がいくつもの分野に進出して、人間と機械の相互作用を向上させようとしています。

音声認識アルゴリズム

人間の発話は予測できないものであるため、音声認識の開発は難しいものでした。これは言語学、数学、統計学が関与する、コンピューター・サイエンスの最も複雑な分野の1つと考えられています。音声認識機能は、音声入力、特徴の抽出、特徴のベクトル、デコーダー、単語出力などの、いくつかのコンポーネントで構成されています。デコーダーは音響モデル、発音辞書、言語モデルを活用して、適切な出力を判断します。

音声認識技術は、精度、つまりワード・エラー率（WER）と、速度によって評価されます。発音、アクセント、ピッチ、音量、バックグラウンド・ノイズなど、多数の要因がワード・エラー率に影響を与えます。「人間と同等」の達成、つまり2人の人間が話しているのと同レベルのエラー率にすることが、音声認識システムの長年の目標です。 Lippmann氏による調査（英語）（ibm.com外のリンク）（PDF、352 KB）では、ワード・エラー率を4パーセント前後と見積もっていますが、この資料からの結果を再現することは困難です。

IBMがこの点についてどのように進歩を遂げ、音声認識の分野での業界の記録を達成したか、詳細 をお読みください。

音声を認識してテキスト化し、トランスクリプションの正確度を向上させるために、さまざまなアルゴリズムと計算技法が使用されています。最も一般的に使用される方法のうちいくつかを、以下で簡単に説明します。

自然言語処理（NLP）：NLPは必ずしも音声認識で使用される特有のアルゴリズムではありませんが、音声とテキストによる言語を通じて人間と機械の相互作用に焦点を当てる、人工知能の領域です。多くのモバイル・デバイスは音声認識がそのシステムに組み込まれており、音声検索（Siriなど）を行ったり、テキスト化に関連したより高度なアクセシビリティーを提供したりします。
隠れマルコフ・モデル（HMM）：隠れマルコフ・モデルは、マルコフ連鎖モデル上に構築され、所定の状態の確率は、以前の状態ではなく現在の状態に依存します。マルコフ連鎖モデルは、テキスト入力のような観察可能なイベントに有用ですが、隠れマルコフ・モデルでは、品詞タグのような隠れイベントを確率モデルに組み込むことができます。隠れマルコフ・モデルは、音声認識におけるシーケンス・モデルとして利用され、シーケンス内の各ユニット（つまり単語、音節、文など）にラベルを割り当てます。これらのラベルは、提供された入力とのマッピングを作成し、最も適切なラベル・シーケンスを判別できるようにします。
N-grams：これは、最も単純なタイプの言語モデル（LM）で、確率を文または句に割り当てます。 N-gramはN個の単語のシーケンスです。例えば、「order the pizza」はtrigramつまり3-gramで、「please order the pizza」は4-gramです。文法と特定の単語シーケンスの確率が、認識と正確性を向上させるために使用されます。
ニューラル・ネットワーク：ニューラル・ネットワークは、主にディープ・ラーニングのアルゴリズムで活用され、ノードの層を通して人間の脳の相互接続性を模倣することによって、トレーニング・データを処理します。各ノードは、入力、重み付け、バイアス（またはしきい値）、出力で構成されます。その出力値が所定のしきい値を超えた場合は、その出力値がノードを「点火」つまり活動化させ、ネットワーク内の次の層にデータを渡します。ニューラル・ネットワークは、教師あり学習によってこのマッピング機能を学習し、勾配下降のプロセスを通じて損失関数に基づいて調整を行います。ニューラル・ネットワークは、より正確になる傾向があり、より多くのデータを受け入れることができますが、従来型の言語モデルと比較してトレーニング速度が遅くなりがちなので、パフォーマンス効率を犠牲にすることになります。
話者ダイアライゼーション（SD）：話者ダイアライゼーション・アルゴリズムは、話者のIDによって発話を識別してセグメント化します。話者ダイアライゼーションは、プログラムが会話の中で個人をより適切に識別するために役立ち、コール・センターでの顧客と販売担当員の区別に頻繁に利用されています。

音声認識のユースケース

現在、音声テクノロジーのさまざまなアプリケーションが多くの業界で活用されており、企業や消費者の時間の節約、さらには救命にも役立っています。以下のような例があります。

自動車：音声認識機能により、音声起動型のナビゲーション・システムや車載ラジオの検索機能を実現することで、ドライバーの安全性が向上します。

テクノロジー：特にモバイル・デバイスにおいて、仮想エージェントが日常生活の中に組み込まれる場面が増えています。たとえば、Google AssistantやAppleのSiriによるスマートフォンでの音声検索などのタスクや、スピーカーを使ったAmazonのAlexaやMicrosoftのCortanaによる音楽再生のために、音声コマンドを使用して仮想アシスタントにアクセスできます。仮想アシスタントは今後も日常生活で使用される各種製品に組み込まれていき、「モノのインターネット」をさらに促進するでしょう。

ヘルスケア：医師や看護師は口述筆記アプリケーションを活用して、患者の診断や処置に関する覚書を収集し、記録しています。

販売：音声認識テクノロジーには、販売に関するアプリケーションがいくつかあります。コール・センターでは、音声認識テクノロジーを活用して、顧客と担当員の間の数千件の通話のトランスクリプションを作成して、共通する通話のパターンや問題を特定することができます。また、AIチャットボットは、Webページを介して人々と話すことで、問い合わせセンターの担当員が対応可能になるのを待つことなく、一般的な質問に回答し、基本的な要求を解決することができます。どちらの例でも音声認識システムが、消費者の問題の解決にかかる時間を短縮するために役立っています。

セキュリティー：テクノロジーが日常生活に組み込まれるにつれて、セキュリティー・プロトコルの優先度がますます高くなります。音声ベースの認証を取り入れることで、実行可能なセキュリティー水準を強化することができます。