語音辨識

menu icon

語音辨識

瞭解語音辨識的歷史及其在當今世界的各種應用

何謂語音辨識?

語音辨識也稱為自動語音辨識別 (ASR)、電腦語音辨識或語音轉文字,是一種可讓程式以書面形式處理人類語音的功能力。 雖然語音辨識常會和聲音辨識搞混,但語音辨識著重於從口語形式轉換為文字形式,而聲音辨識則試圖識別個別使用者的聲音。

IBM 自 1962 年初次發表 Shoebox 以來,在語音辨識方面就一直扮演要角。這台機器有能力辨識 16 個不同的字詞,將 1950 年代貝爾實驗室的初步工作往前推進。 不過, IBM 並未停止在那裡,而是持續多年不斷創新,並 於 1996 年推出 VoiceType Simply Speaking 應用程式。 此語音辨識軟體擁有 42,000 個詞彙,支援英文和西班牙文,另外還包含 10 萬字的拼字詞典。雖然早期的語音技術詞彙有限,但當今的許多行業都廣泛使用它,例如汽車、科技、醫療等行業。直到近年發展深度學習和大數據,才開始迅速予以採用。研究 (IBM 外部鏈結)顯示,此市場預計到 2025 年將達到 249 億美元。

有效語音辨識的主要功能

雖有許多的語音辨識應用程式和裝置可用,但較先進的解決方案都使用人工智慧機器學習。它們整合文法、語法、結構,以及語音和聲音訊號的組成,以理解與處理人類說話。在理想的情況下,它們會一直保持學習,隨著每一個互動發展回應。

最好的系統還能讓組織根據其特定需求,從語言、語音細微差異到品牌辨識的所有一切,自訂與調整技術。 例如:

  • 語言加權:藉由將常講的特定詞彙(例如產品名稱或產業術語)進行加權來提高精準度,超越基本詞彙當中的既有詞彙。
  • 說話者標記:將引用或標註每位說話者之貢獻的轉錄輸出到多參與者交談中。
  • 聲學訓練:關注公司營運的聲學層面。 訓練系統適應聲學環境(例如客服中心的環境噪音)和說話者樣態(例如音高、音量及速度)。
  • 不雅內容過濾:使用過濾器來識別某些字詞或片語,並消毒語音輸出。

同時,語音辨識仍在持續進步中。 像 IBM 之類的企業,已在數個領域取得進展,能夠更充分地改善人機互動。

語音辨識演算法

人類話語變幻莫測,這使得發展充滿挑戰。 它被認為是電腦科學中最複雜的領域之一,因為涉及語言學、數學和統計學。 語音辨識器由幾個元件組成,例如語音輸入、特徵提取、特徵向量、解碼器和單詞輸出。 該解碼器利用聲學模型、發音字典和語言模型來判斷適當輸出。

語音識別技術是根據其正確率,即字錯率 (WER) 和速度進行評估。 有多種因素可影響字錯率,例如發音、腔調、音高、音量和背景噪音。 達到匹配人類,意指出錯率與兩個人類說話差不多,長期以來一直是語音辨識系統的目標。 Lippmann 的研究(IBM 外部鏈結) (PDF, 344 KB) 估計字錯率大約為 4%,但要重現這份報告的結果很困難。

進一步閱讀關於 IBM 如何在這方面取得長足進步,在語音辨識領域創造業界記錄。

運用各種演算法和計算技術來辨識語音並轉為文字,同時提高轉錄的準確性。 以下是一些常用方法的簡要說明:

  • 自然語言處理 (NLP):雖然 NLP 未必一定是語音辨識中所使用的特定演算法,但它屬於人工智慧的領域,它透過語音和文字聚焦人類與機器之間的語言互動。 許多行動裝置將語音辨識納入其系統中,以利進行語音搜尋,例如 Siri,或提供更多的文字相關協助工具。
  • 隱藏式馬可夫模型 (HMM):「隱藏式馬可夫模型」建基於馬可夫鏈模型,其中規定指定狀態的機率取決於現行狀態而非其先前狀態。 雖然馬可夫鏈模型對於可觀察的事件,例如文字輸入很有用,但隱藏式馬可夫模型可讓我們將隱藏事件,例如詞類標註納入機率模型中。 它們在語音辨識中用作序列模型,將標籤分配給序列中的每個單元,即字詞、音節、句子等。 這些標籤會在其與所提供的輸入之間建立對映,以便它判斷最適當的標籤序列。
  • N 元語法:這是最簡單的語言模型 (LM) 類型,它會指派機率給句子或片語。 N 元語法是 N 字的序列。 例如:order the pizza 是三元語法或 3 元語法,而 please order the pizza 是 4 元語法。文法和特定字詞序列機率被用來加強辨識和準確性。
  • 神經網路:主要用於深度學習演算法,神經網路透過節點層模擬人類大腦的交互連接,藉此處理訓練資料。每一個節點都由輸入、加權、偏差(或臨界值)及輸出所組成。 如果該輸出值超出指定臨界值,則它會「激發」或啟動節點,將資料傳遞至網路中的下一層。 神經網路透過監督學習來學習此對映功能,並在梯度下降過程中根據損失函數進行調整。雖然神經網路往往更準確,而且可以接受更多資料,但這會帶來效能效率成本,因為它們的訓練速度比傳統語言模型來得慢。
  • 說話者分辨 (SD):說話者分辨演算法藉由說話者身分來辨識與區隔話語。這有助於程式對交談中的個人做出更好的區辨,客服中心經常使用它來區辨客戶和銷售代表。

閱讀 Watson 部落格上的內容,以瞭解 IBM 如何在其「語音轉文字」服務中運用 SD 模型。

語音辨識使用案例

現在有為數眾多的產業開始利用不同的語音技術應用,以協助企業和消費者節省時間甚至拯救生命。 部分範例包括:

汽車業:語音辨識器在汽車收音機中啟用語音啟動的導航系統和搜尋功能,藉此提升駕駛者安全。

科技業:虛擬助理正日益融入我們日常生活中,尤其是在我們的行動裝置上。 我們透過智慧型手機使用語音指令來存取它們,例如透過 Google 助理或 Apple 的 Siri 來執行語音搜尋之類的作業,或透過亞馬遜 Alexa 或微軟的 Cortana 在我們的喇叭上播放音樂。 它們只會持續不斷地融入我們的日常使用產品,從而助長「物聯網」的發展。

醫療保健業:醫師與護理師運用聽寫應用程式來擷取與記錄病患診斷和治療注意事項。

銷售:語音辨識技術在銷售方面已有一些應用。 它可以協助客服中心轉錄客戶與客服人員之間數以千計的電話通話,以識別常見的來電模式和問題。 認知機器人還可以透過網頁與人們交談,回答一般查詢並解決基本要求,完全無需等待客服人員有空接聽。 這兩個實例都說明語音辨識系統有助於縮短幫消費者解決問題的時間。

安全性:隨著科技融入我們的日常生活中,安全協定的優先性不斷提高。 以語音為基礎的鑑別提供一個可行的安全層級。

在我們下列位置的部落格上進一步瞭解公司(例如 Audioburst)如何利用語音識別軟體來即時檢索廣播電台及播客的音訊:這裡。

語音辨識與 IBM

IBM 率先開發「語音辨識」工具與服務,以便組織自動執行其複雜的商業流程,同時獲得重要的商業洞察。

  • IBM Watson Speech to Text 是一種雲端原生解決方案,其中運用深度學習 AI 演算法,以套用有關文法、語言結構和影音訊號組成的知識,為最佳文字轉錄建立可自訂的語音辨識。
  • IBM Watson Text to Speech 從書面文字產生擬人音訊,藉由改善各種語言和互動方式之間的無障礙性來提高客戶的參與度和滿意度。

如何開始使用語音辨識技術的相關詳細資訊,請瀏覽 IBM Watson Speech to TextIBM Watson Text to Speech

註冊 IBM ID,並建立您的 IBM Cloud 帳戶。