音声認識とは| IBM

音声認識とは

音声認識（Speech Recognition）（自動音声認識（ASR）、コンピューター音声認識、音声テキスト変換とも呼ばれる）は、プログラムで人間の音声を文字形式に変換できるようにする機能です。

音声認識（Speech Recognition）は一般に音声認識（Voice Recognition）と混同されますが、前者は音声を口頭形式からテキスト形式に変換することに重点を置いているのに対し、後者は個々のユーザーの音声を識別することだけを目的としています。

IBMは、1962年に「Shoebox」をリリースしたのを皮切りに、音声認識でな主要な役割を担ってきています。異なった16語を認識する能力を備えたこの機械は、ベル研究所による1950年代の初期の成果を前進させたものです。しかし、IBMはそこにとどまらず、長年にわたり革新をし続け、1996年にVoiceType Simply Speakerアプリケーションを発売しました。この音声認識ソフトウェアは語彙が42,000語、英語とスペイン語をサポートし、100,000語のスペリング辞書も内蔵していました。

音声技術は、初めの頃は語彙が限られていたものの、今日では自動車、テクノロジー、ヘルスケアといった多くのさまざまな業種・業務で活用されています。ディープラーニングとビッグデータが高度化してきたため、近年は採用が急がれる一方です。調査niよれば、この市場は2025年までに249億米ドルの価値に達すると予想されています。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

効果的な音声認識の主な特徴

音声認識アプリケーションやデバイスは数多くありますが、より高度なソリューションでは人工知能（AI）と機械学習が使用されています。音声と音声信号の文法、構文、構造、構成を統合して人間の音声を理解し、処理します。理想的には、経験しながら学習し、やり取りをする度に反応を進化させます。

最高級のシステムがある組織は、テクノロジーを特定の要件に合わせてカスタマイズし適応させることもできます。言語や音声のニュアンスからブランド認識に至るまで。例：

言語の重み付け：商品名や業界用語など、基本的語彙（ごい）には含まれていないがよく使われる特定の単語に重み付けをすることで、精度を向上させます。
話者のラベリング：多数の参加者による対話での各話者の発言を引用またはタグ付けした文字起こしをアウトプットします。
音響トレーニング：ビジネスの音響面に対処します。音響環境（コールセンターの周囲の騒音など）や話者のスタイル（声のピッチ、声量、ペースなど）に適応するようシステムをトレーニングします。
不適切な表現のフィルタリング：フィルターを使用して特定のワードやフレーズを識別し、音声アウトプットをサニタイズします。

こうしている間にも、音声認識は進歩し続けています。IBMのような企業は、人間と機械の相互作用を改善する方がよいとして、いくつかの分野に参入しています。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

音声認識アルゴリズム

開発が難しいのは、人間の話し言葉にばらつきがあるためです。これは、言語学、数学、統計学が関与するコンピューター科学の中で、最も複雑な分野の1つであると考えられています。音声認識装置は、音声入力、特徴抽出、特徴ベクトル、デコーダー、単語出力など、いくつかのコンポーネントで構成されています。デコーダーは、音響モデル、発音辞書、および言語モデルを活用して、適切な出力を決定します。

音声認識技術はその正確性、つまり単語誤り率（WER）と速度で評価されます。発音、アクセント、ピッチ、音量、背景雑音など、多くの要因が単語誤り率に影響を与える可能性があります。人間と同レベル、つまり2人の人間が話す際と同等のエラー率を達成することは、音声認識システムにおいて長年の目標でした。おぶLippmannの研究（では、単語誤り率は約4パーセントと推定されていますが、この論文の結果を再現することは困難です。

音声を認識してテキスト化し、文字起こしの正確性を向上させるため、さまざまなアルゴリズムと計算技術が利用されています。次に、最もよく利用される方法のうちいくつかを手短に説明します。

自然言語処理（NLP）：NLPは必ずしも音声認識に特有のアルゴリズムではありませんが、音声と文章を介した言語による人間と機械の相互作用に重点を置いた人工知能の領域です。多くのモバイル・デバイスは、Siriなどの音声検索を実行したり、テキストメッセージのアクセシビリティを向上させるために、Siri — またはテキストメッセージに関するアクセシビリティを向上させます。
隠れマルコフモデル（HMM）：隠れマルコフモデルは、マルコフ連鎖モデルに基づいています。これは、ある状態の確率は以前の状態ではなく現在の状態に依存すると規定するものです。マルコフ連鎖モデルがテキスト入力などの観察可能なイベントで有用なのに対し、隠れマルコフモデルでは品詞タグなどの隠れたイベントを確率モデルに組み込むことができます。音声認識のシーケンスモデルとして活用されるものであり、ラベルをユニットごとに割り当てます。ここでのユニットとは、ワード、音節、文などのことであり、出現順に割り当てられます。それらのラベルでは、インプットされた内容からマッピングを作成して、最適なラベルシーケンスが判断されるようにします。
Nグラム： これは最も単純な種類の言語モデル（LM）であり、確率を文やフレーズに割り当てるものです。Nグラムとは、Nワードのシーケンスです。たとえば、「order the pizza」はトリグラムあるいは3グラム、「please order the pizza」は4グラムです。文法と、特定のワードのシーケンスの確率を利用して、認識度と正確性を向上させます。
ニューラル・ネットワーク：主にディープラーニング・アルゴリズムで活用されるニューラル・ネットワークは、ノードの層を介して人間の脳の相互接続を模倣することによって、トレーニング・データを処理するものです。各ノードは、入力、重み、（しきい値に対する）バイアスと出力で構成されます。アウトプットの値が特定のしきい値を超えると、ノードが「起動」またはアクティブ化され、データがネットワークの次の層へ渡されます。ニューラル・ネットワークでは、このマッピング機能を教師付き学習によって学習し、勾配降下法によるプロセスを通じて、損失関数に基づいた調整をします。ニューラル・ネットワークには、より正確で、より多くのデータを受け付けることができる傾向がありますが、従来の言語モデルと比較してトレーニングが遅くなる傾向もあるため、性能効率性によるコストがかかります。
話者ダイアライゼーション（SD）：話者ダイアライゼーション・アルゴリズムは、話者ごとの音声を識別して発言を区切ります。これにより、会話をしている人を判別するプログラムの精度が上がるので、コールセンターで顧客と販売員を区別するために頻繁に適用されます。

音声認識のユースケース

現在、多くの業種・業務で音声テクノロジーのさまざまなアプリケーションが利用されており、企業にも消費者にも時間の節約、さらには命の節約になっています。例としては、次のようなものがあります。

自動車：音声認識装置によって車内ラジオの音声作動ナビゲーション・システムや検索機能が可能になり、ドライバーの安全性が向上します。

テクノロジー：バーチャル・アシスタントは、特にモバイルデバイスで、以前にも増して私たちの日常生活に統合されるようになっています。私たちは、音声検索などのタスクを実行するためにGoogleアシスタントやAppleのSiriなどにスマートフォンからアクセスしたり、AmazonのAlexaやMicrosoftのCortanaで音楽を再生するためにスピーカーからアクセスしたりして、音声コマンドを利用します。これからも私たちが使用する日常製品に組み込まれていき、「モノのインターネット」ムーブメントは促進されます。

ヘルスケア：医師や看護師はディクテーションアプリケーションを活用して、患者についての診断内容を把握し治療メモを記録しています。

セールス：音声認識テクノロジーには、セールスでの応用分野がいくつかあります。コールセンターでは、顧客とエージェントとの間の何千件もの通話を文字に起こすことで、よくある通話パターンや問題を特定するのを支援します。コンタクトセンターのエージェントが対応可能になるのを待たなくても、AIチャットボットがWebページで顧客に話しかけて、よくある問い合わせに答えたり、基本的な要求を解決したりできます。いずれの場合も、音声認識システムは消費者にとっての問題を解決するまでの時間を短縮するのに役立っています。

セキュリティ：テクノロジーが私たちの日常生活に溶け込むにつれ、セキュリティプロトコルの優先順位も高まっています。音声ベースで認証できると、セキュリティの実行可能レベルも上がります。

貴社では生成AIを活用する準備ができていますか

組織が生成AIを効果的に導入する際の課題に対処するのに役立つ5つの主要なオーケストレーション機能について説明します。

音声認識とは