音声認識(Speech Recognition)(自動音声認識(ASR)、コンピューター音声認識、音声テキスト変換とも呼ばれる)は、プログラムで人間の音声を文字形式に変換できるようにする機能です。
音声認識(Speech Recognition)は一般に音声認識(Voice Recognition)と混同されますが、前者は音声を口頭形式からテキスト形式に変換することに重点を置いているのに対し、後者は個々のユーザーの音声を識別することだけを目的としています。
IBMは、1962年に「Shoebox」をリリースしたのを皮切りに、音声認識でな主要な役割を担ってきています。異なった16語を認識する能力を備えたこの機械は、ベル研究所による1950年代の初期の成果を前進させたものです。しかし、IBMはそこにとどまらず、長年にわたり革新をし続け、1996年にVoiceType Simply Speakerアプリケーションを発売しました。この音声認識ソフトウェアは語彙が42,000語、英語とスペイン語をサポートし、100,000語のスペリング辞書も内蔵していました。
音声技術は、初めの頃は語彙が限られていたものの、今日では自動車、テクノロジー、ヘルスケアといった多くのさまざまな業種・業務で活用されています。ディープラーニングとビッグデータが高度化してきたため、近年は採用が急がれる一方です。 調査 (リンクは ibm.com外にあります)の結果、この市場の価値は2025年には249億米ドルになると予想されています。
音声認識アプリケーションやデバイスは数多くありますが、より高度なソリューションではAIと機械学習が使用されています。音声と音声信号の文法、構文、構造、構成を統合して人間の音声を理解し、処理します。理想的には、経験しながら学習し、やり取りをする度に反応を進化させます。
最高級のシステムがある組織は、テクノロジーを特定の要件に合わせてカスタマイズし適応させることもできます。言語や音声のニュアンスからブランド認識に至るまで。たとえば、次のようになります。
こうしている間にも、音声認識は進歩し続けています。IBMのような企業は、人間と機械の相互作用を改善する方がよいとして、いくつかの分野に参入しています。
開発が難しいのは、人間の話し言葉にばらつきがあるためです。これは、言語学、数学、統計学が関与するコンピューター科学の中で、最も複雑な分野の1つであると考えられています。音声認識装置は、音声入力、特徴抽出、特徴ベクトル、デコーダー、単語出力など、いくつかのコンポーネントで構成されています。デコーダーは、音響モデル、発音辞書、および言語モデルを活用して、適切な出力を決定します。
音声認識技術はその正確性、つまり単語誤り率(WER)と速度で評価されます。発音、アクセント、ピッチ、音量、背景雑音など、多くの要因が単語誤り率に影響を与える可能性があります。人間と同レベル、つまり2人の人間が話す際と同等のエラー率を達成することは、音声認識システムにおいて長年の目標でした。Lippmann氏の研究(リンクはibm.com外部)では、単語誤り率は約4パーセントと推定されていますが、この論文の結果を再現することは困難です。
音声を認識してテキスト化し、文字起こしの正確性を向上させるため、さまざまなアルゴリズムと計算技術が利用されています。次に、最もよく利用される方法のうちいくつかを手短に説明します。
現在、多くの業種・業務で音声テクノロジーのさまざまなアプリケーションが利用されており、企業にも消費者にも時間の節約、さらには命の節約になっています。例としては、次のようなものがあります。
自動車:音声認識装置によって車内ラジオの音声作動ナビゲーション・システムや検索機能が可能になり、ドライバーの安全性が向上します。
テクノロジー:バーチャル・アシスタントは、特にモバイルデバイスで、以前にも増して私たちの日常生活に統合されるようになっています。私たちは、音声検索などのタスクを実行するためにGoogleアシスタントやAppleのSiriなどにスマートフォンからアクセスしたり、AmazonのAlexaやMicrosoftのCortanaで音楽を再生するためにスピーカーからアクセスしたりして、音声コマンドを利用します。これからも私たちが使用する日常製品に組み込まれていき、「モノのインターネット」ムーブメントは促進されます。
ヘルスケア:医師や看護師はディクテーションアプリケーションを活用して、患者についての診断内容を把握し治療メモを記録しています。
セールス:音声認識テクノロジーには、セールスでの応用分野がいくつかあります。コールセンターでは、顧客とエージェントとの間の何千件もの通話を文字に起こすことで、よくある通話パターンや問題を特定するのを支援します。コンタクトセンターのエージェントが対応可能になるのを待たなくても、AIチャットボットがWebページで顧客に話しかけて、よくある問い合わせに答えたり、基本的な要求を解決したりできます。いずれの場合も、音声認識システムは消費者にとっての問題を解決するまでの時間を短縮するのに役立っています。
セキュリティ:テクノロジーが私たちの日常生活に溶け込むにつれ、セキュリティプロトコルの優先順位も高まっています。音声ベースで認証できると、セキュリティの実行可能レベルも上がります。
AIを活用した音声認識と文字起こしを使用して音声をテキストに変換します。
テキストをさまざまな言語や音声で自然な音声に変換します。
AI搭載のハイブリッドクラウドソフトウェアです。