以下の雲、円グラフ、グラフのピクトグラムのコラージュを使用したイラスト
音声認識とは

音声認識(Speech Recognition)(自動音声認識(ASR)、コンピューター音声認識、音声テキスト変換とも呼ばれる)は、プログラムで人間の音声を文字形式に変換できるようにする機能です。

音声認識(Speech Recognition)は一般に音声認識(Voice Recognition)と混同されますが、前者は音声を口頭形式からテキスト形式に変換することに重点を置いているのに対し、後者は個々のユーザーの音声を識別することだけを目的としています。

IBMは、1962年に「Shoebox」をリリースしたのを皮切りに、音声認識でな主要な役割を担ってきています。異なった16語を認識する能力を備えたこの機械は、ベル研究所による1950年代の初期の成果を前進させたものです。しかし、IBMはそこにとどまらず、長年にわたり革新をし続け、1996年にVoiceType Simply Speakerアプリケーションを発売しました。この音声認識ソフトウェアは語彙が42,000語、英語とスペイン語をサポートし、100,000語のスペリング辞書も内蔵していました。

音声技術は、初めの頃は語彙が限られていたものの、今日では自動車、テクノロジー、ヘルスケアといった多くのさまざまな業種・業務で活用されています。ディープラーニングとビッグデータが高度化してきたため、近年は採用が急がれる一方です。 調査 (リンクは ibm.com外にあります)の結果、この市場の価値は2025年には249億米ドルになると予想されています。

効果的な音声認識の主な特徴

音声認識アプリケーションやデバイスは数多くありますが、より高度なソリューションではAI機械学習が使用されています。音声と音声信号の文法、構文、構造、構成を統合して人間の音声を理解し、処理します。理想的には、経験しながら学習し、やり取りをする度に反応を進化させます。

最高級のシステムがある組織は、テクノロジーを特定の要件に合わせてカスタマイズし適応させることもできます。言語や音声のニュアンスからブランド認識に至るまで。たとえば、次のようになります。

  • 言語の重み付け:商品名や業界用語など、基本的語彙(ごい)には含まれていないがよく使われる特定の単語に重み付けをすることで、精度を向上させます。
  • 話者のラベリング:多数の参加者による対話での各話者の発言を引用またはタグ付けした文字起こしをアウトプットします。
  • 音響トレーニング:ビジネスの音響面に対処します。音響環境(コールセンターの周囲の騒音など)や話者のスタイル(声のピッチ、声量、ペースなど)に適応するようシステムをトレーニングします。
  • 不適切な表現のフィルタリング:フィルターを使用して特定のワードやフレーズを識別し、音声アウトプットをサニタイズします。

こうしている間にも、音声認識は進歩し続けています。IBMのような企業は、人間と機械の相互作用を改善する方がよいとして、いくつかの分野に参入しています。

 

音声認識アルゴリズム

開発が難しいのは、人間の話し言葉にばらつきがあるためです。これは、言語学、数学、統計学が関与するコンピューター科学の中で、最も複雑な分野の1つであると考えられています。音声認識装置は、音声入力、特徴抽出、特徴ベクトル、デコーダー、単語出力など、いくつかのコンポーネントで構成されています。デコーダーは、音響モデル、発音辞書、および言語モデルを活用して、適切な出力を決定します。

音声認識技術はその正確性、つまり単語誤り率(WER)と速度で評価されます。発音、アクセント、ピッチ、音量、背景雑音など、多くの要因が単語誤り率に影響を与える可能性があります。人間と同レベル、つまり2人の人間が話す際と同等のエラー率を達成することは、音声認識システムにおいて長年の目標でした。Lippmann氏の研究(リンクはibm.com外部)では、単語誤り率は約4パーセントと推定されていますが、この論文の結果を再現することは困難です。

音声を認識してテキスト化し、文字起こしの正確性を向上させるため、さまざまなアルゴリズムと計算技術が利用されています。次に、最もよく利用される方法のうちいくつかを手短に説明します。

  • 自然言語処理(NLP):NLPは必ずしも音声認識に特有のアルゴリズムではありませんが、音声と文章を介した言語による人間と機械の相互作用に重点を置いた人工知能の領域です。多くのモバイル・デバイスは、Siriなどの音声検索を実行したり、テキストメッセージのアクセシビリティーを向上させるために、音声認識を組み込んでいます。
  • 隠れマルコフモデル(HMM):隠れマルコフモデルは、マルコフ連鎖モデルに基づいています。これは、ある状態の確率は以前の状態ではなく現在の状態に依存すると規定するものです。マルコフ連鎖モデルがテキスト入力などの観察可能なイベントで有用なのに対し、隠れマルコフモデルでは品詞タグなどの隠れたイベントを確率モデルに組み込むことができます。音声認識のシーケンスモデルとして活用されるものであり、ラベルをユニットごとに割り当てます。ここでのユニットとは、ワード、音節、文などのことであり、出現順に割り当てられます。それらのラベルでは、インプットされた内容からマッピングを作成して、最適なラベルシーケンスが判断されるようにします。
  • Nグラム: これは最も単純な種類の言語モデル(LM)であり、確率を文やフレーズに割り当てるものです。Nグラムとは、Nワードのシーケンスです。たとえば、「order the pizza」はトリグラムあるいは3グラム、「please order the pizza」は4グラムです。文法と、特定のワードのシーケンスの確率を利用して、認識度と正確性を向上させます。
  • ニューラル・ネットワーク:主にディープラーニングアルゴリズムで活用されるニューラル・ネットワークは、ノードの層を介して人間の脳の相互接続を模倣することによって、トレーニングデータを処理するものです。各ノードは、インプット、重み、バイアス(しきい値)とアウトプットで構成されます。アウトプットの値が特定のしきい値を超えると、ノードが「起動」またはアクティブ化され、データがネットワークの次の層へ渡されます。ニューラル・ネットワークでは、このマッピング機能を教師付き学習によって学習し、勾配降下法によるプロセスを通じて、損失関数に基づいた調整をします。ニューラル・ネットワークには、より正確で、より多くのデータを受け付けることができる傾向がありますが、従来の言語モデルと比較してトレーニングが遅くなる傾向もあるため、性能効率性によるコストがかかります。
  • 話者ダイアライゼーション(SD):話者ダイアライゼーション・アルゴリズムは、話者ごとの音声を識別して発言を区切ります。これにより、会話をしている人を判別するプログラムの精度が上がるので、コールセンターで顧客と販売員を区別するために頻繁に適用されます。
音声認識のユースケース

現在、多くの業種・業務で音声テクノロジーのさまざまなアプリケーションが利用されており、企業にも消費者にも時間の節約、さらには命の節約になっています。例としては、次のようなものがあります。

自動車:音声認識装置によって車内ラジオの音声作動ナビゲーション・システムや検索機能が可能になり、ドライバーの安全性が向上します。

テクノロジー:バーチャル・アシスタントは、特にモバイルデバイスで、以前にも増して私たちの日常生活に統合されるようになっています。私たちは、音声検索などのタスクを実行するためにGoogleアシスタントやAppleのSiriなどにスマートフォンからアクセスしたり、AmazonのAlexaやMicrosoftのCortanaで音楽を再生するためにスピーカーからアクセスしたりして、音声コマンドを利用します。これからも私たちが使用する日常製品に組み込まれていき、「モノのインターネット」ムーブメントは促進されます。

ヘルスケア:医師や看護師はディクテーションアプリケーションを活用して、患者についての診断内容を把握し治療メモを記録しています。

セールス:音声認識テクノロジーには、セールスでの応用分野がいくつかあります。コールセンターでは、顧客とエージェントとの間の何千件もの通話を文字に起こすことで、よくある通話パターンや問題を特定するのを支援します。コンタクトセンターのエージェントが対応可能になるのを待たなくても、AIチャットボットがWebページで顧客に話しかけて、よくある問い合わせに答えたり、基本的な要求を解決したりできます。いずれの場合も、音声認識システムは消費者にとっての問題を解決するまでの時間を短縮するのに役立っています。

セキュリティ:テクノロジーが私たちの日常生活に溶け込むにつれ、セキュリティプロトコルの優先順位も高まっています。音声ベースで認証できると、セキュリティの実行可能レベルも上がります。

関連ソリューション
IBM Watson Speech to Text

AIを活用した音声認識と文字起こしを使用して音声をテキストに変換します。

IBM Watson Speech to Textはこちら
IBM Watson Text to Speech

テキストをさまざまな言語や音声で自然な音声に変換します。

IBM Watson Text to Speechの詳細はこちら
IBM Cloud Pak®ソリューション

AI搭載のハイブリッドクラウドソフトウェアです。

Cloud Pakソリューションはこちら
次のステップ

IBM watsonx Assistantは、企業がAIチャットボットを使用して、より優れた顧客体験を提供できるよう支援します。AIチャットボットは、ビジネスの言語を理解し、既存のカスタマー・ケア・システムに接続し、エンタープライズ・セキュリティーと拡張性でどこにでも展開できます。watsonx Assistant は、反復作業を自動化し、機械学習を使用して、カスタマー・サポートの問題を迅速かつ効率的に解決します。

IBM watsonx Assistantを研究する デモを予約