包含云朵、饼图、象征符号图形的拼贴插图
什么是语音识别?

语音识别,也称为自动语音识别 (ASR)、计算机语音识别或语音转文本,是一种支持程序将人类语音处理成书面格式的功能。

虽然语音识别通常与语音识别混淆,但语音识别侧重于将语音从口头格式转换为文本格式,而语音识别仅旨在识别单个用户的声音。

自 1962 年发布“Shoebox”以来,IBM 在语音识别领域一直发挥着重要作用。这台机器能够识别 16 个不同的单词,它推动了贝尔实验室自上世纪 50 年代在语音识别方面的初步研究。然而,IBM 并未就此止步,经过多年来不断创新,于 1996 年推出了 VoiceType Simply Speaking 应用程序。这款语音识别软件的词汇量达到 42,000 个单词,支持英语和西班牙语,还自带包含 100,000 个单词的拼写词典。

虽然语音技术早期的词汇量有限,但如今已广泛应用于汽车、技术和医疗保健等行业。由于深度学习和大数据的进步,其采用近年来才得以继续加速。研究(链接位于 ibm.com 站外)表明,到 2025 年,此市场的价值预计将达到 249 亿美元。

有效语音识别的关键功能

可以使用的语音识别应用程序和设备有很多,但更高级的解决方案采用 AI机器学习。它们整合了语法、句法、结构以及音频和语音信号的构成,以理解和处理人类语音。理想情况下,它们可在实践中学习,每次互动都会不断改进反应。

最好的系统还支持组织根据其特定需求定制和调整技术,这包括从语言和语音细微差别到品牌识别。例如:

  • 语言加权:除了基础词汇中已有的术语外,还可对经常出现的特定词汇(如产品名称或行业术语)进行加权,从而提高精确度。
  • 说话者标记:输出引用或标记每位说话者在多人对话中的贡献的转录。
  • 声学训练:关注业务的声学方面。训练系统以适应声学环境(如客户服务中心的环境噪音)和说话者的风格(如语音音调、音量和语速)。
  • 亵渎语言过滤:使用过滤器识别某些词汇或短语,并对语音输出进行过滤。

同时,语音识别继续发展。诸如 IBM 之类的公司正在多个领域取得进展,以更好地改善人机交互。

 

语音识别算法

人类语言的瞬息万变给发展带来了挑战。这被视为是计算机科学最复杂的领域之一 - 涉及语言学、数学和统计学。语音识别器由多个组件构成,例如语音输入、特征提取、特征向量、解码器和词汇输出。解码器利用声学模型、发音词典和语言模型来确定合适的输出。

评估语音识别技术的准确率,即词汇错误率 (WER) 和速度。许多因素会影响词汇错误率,例如发音、口音、音高、音量和背景噪音。达到与人类同等的水平(即错误率与两个人说话时的错误率相当)一直是语音识别系统的目标。Lippmann 的研究(链接位于 ibm.com 站外)估计,词汇错误率约为 4%,但很难复制本文的结果。

各种算法和计算技术已用于将语音识别为文本,并提高转录的准确性。下面简要介绍几种最常用的方法:

  • 自然语言处理 (NLP):虽然 NLP 不一定是用于语音识别的特定算法,但它属于人工智能范畴,专注于通过语音和文本进行的人机交互。许多移动设备将语音识别集成到其系统中,用于执行语音搜索(如 Siri),或者提供更方便的短信服务。
  • 隐马尔可夫模型 (HMM):隐马尔可夫模型以马尔可夫链模型为基础,规定给定状态的概率取决于当前状态,而非其先前状态。虽然马尔可夫链模型对于可观察事件(例如文本输入)很有用,但隐马尔可夫模型可支持我们将隐藏事件(例如词性标签)合并到概率模型中。它们被用作语音识别中的序列模型,为序列中的每个单元分配标签,即单词、音节、句子等。这些标签使用提供的输入创建映射,使其能够确定最合适的标签序列。
  • N-grams:这是最简单的语言模型 (LM) 类型,为句子或短语分配概率。N-gram 是 N 个单词的序列。例如,“order the pizza” 是三元语法或 3 元语法,而 “please order the pizza” 是 4 元语法。语法和某些单词序列的概率可用于改进识别和准确性。
  • 神经网络: 主要用于深度学习算法,通过节点层模拟人脑的互连来处理训练数据。每个节点由输入、权重、偏置(或阈值)和输出组成。如果该输出值超过给定阈值,将“触发”或激活节点,并将数据传递到网络中的下一层。神经网络通过监督学习来学习此映射函数,并通过梯度下降过程,基于损失函数进行调整。虽然神经网络往往更准确,可以接受更多的数据,但这会以性能效率为代价,因为与传统语言模型相比,其训练速度往往较慢。
  • 声纹分割聚类 (SD):声纹分割聚类算法根据说话者身份来识别和分割语音。这有助于程序更好地区分对话中的个人,并经常应用于客户服务中心,以区分客户和销售代理。
语音识别用例

如今,许多行业都在利用语音技术的不同应用,帮助企业和消费者节省时间,甚至挽救生命。其中部分示例包括:

汽车:语音识别器可在汽车收音机中启用声控导航系统和搜索功能,从而提高驾驶安全性。

技术:虚拟代理越来越多地融入我们的日常生活中,尤其是在我们的移动设备中。我们使用语音命令,通过智能手机访问虚拟代理,例如通过 Google Assistant 或 Apple 的 Siri 来执行语音搜索等任务,或者通过扬声器、Amazon 的 Alexa 或 Microsoft 的 Cortana 来播放音乐。虚拟代理只会继续集成到我们使用的日常产品中,从而推动“物联网”运动。

医疗保健:医护人员利用口述记录应用程序捕捉和记录病人的诊断和治疗记录。

销售:语音识别技术在销售领域的应用多样。它可以帮助客户服务中心转录客户和代理之间的数千次通话,以识别常见的通话模式和问题。AI 聊天机器人还可以通过网页与人沟通、回答常见问题并解决基本请求,而无需等待客服中心代理空闲。在这两个实例中,语音识别系统都有助于缩短解决消费者问题的时间。

安全:随着技术融入我们的日常生活,安全协议日益受到重视。基于语音的身份验证增加了可行的安全级别。

相关解决方案
IBM® Watson Speech to Text

使用 AI 语音识别和转录功能将语音转换为文本。

深入了解 IBM Watson Speech to Text
IBM Watson Text to Speech

将文本转换为多种语言和声音的自然语音。

深入了解 IBM Watson Text to Speech
IBM® Cloud Pak 解决方案

AI 驱动型混合云软件。

深入了解 Cloud Pak 解决方案
采取后续步骤

IBM watsonx Assistant 帮助企业通过 AI 聊天机器人提供更好的客户体验,该聊天机器人能够理解业务语言,连接到现有的客户服务系统,并可在任何地方部署,具有企业级的安全性和可扩展性。watsonx Assistant 可自动执行重复性任务,并利用机器学习快速高效地解决客户支持问题。

深入了解 watsonx Assistant 预约实时演示