语音识别

menu icon

语音识别

了解语音识别的历史及其在当今世界的各种应用

什么是语音识别?

语音识别也称为自动语音识别 (ASR)、计算机语音识别或语音转文本,它是一种将人类语音处理为书面格式的功能。 人们通常会将语音识别与声音识别混淆,但语音识别侧重于将语音从口头格式转换为文本格式,而声音识别只是试图识别单个用户的声音。

自 1962 年发布“Shoebox”以来,IBM 在语音识别领域一直扮演着重要角色。 这款语音识别机器能够识别 16 个不同的单词,它推动了贝尔实验室从上世纪 50 年代开始在语音识别方面的研究。 然而,IBM 并没有就此止步,而是多年来不断创新,于 1996 年推出了 VoiceType Simply Speaking 应用程序。 这款语音识别软件的词汇量达到 42,000 单词,支持英语和西班牙语,还有一个包含 100,000 单词的拼写词典。 虽然语音技术在早期的词汇量有限,但如今已广泛应用于汽车、科技和医疗保健等众多行业。 由于深度学习和大数据技术的进步,才在最近几年又加快了语音技术的采用。 研究(链接位于 IBM 外部)表明,到 2025 年,这个市场的价值预计将达到 249 亿美元。

有效语音识别的主要功能

目前市场上存在许多语音识别应用程序和设备,但更高级的解决方案都使用了 AI机器学习。 它们整合了音频和语音信号的语法、句法、结构和组成,以便能够理解和处理人类语音。 理想情况下,它们“边走边学”,即随着每次互动来不断完善响应。

最好的系统还允许组织根据他们的具体要求来定制和调整技术 - 从语言和语音细微差别到品牌识别。 例如:

  • 语言加权:通过对超出基本词汇表范畴但经常使用的特定词(例如产品名称或行业术语)进行权重来提高精确度。
  • 发言人标注:输出一个转录,其中提及或标记了每个发言人对多参与者对话的贡献。
  • 声学训练:关注业务的声学方面。 训练系统以使其适应声学环境(如呼叫中心的环境噪声)和扬声器风格(如音调、音量和语速)。
  • 脏话过滤:使用过滤器来识别某些单词或短语并净化语音输出。

与此同时,语音识别也在不断进步。 IBM 等公司正在多个领域取得进展,以求进一步改善人机交互。

语音识别算法

人类语音的变幻莫测给语音识别技术的发展带来了挑战。 它被认为是计算机科学中最复杂的领域之一,因为它涉及到语言学、数学和统计学。 语音识别器由几个组件(例如,语音输入、特征提取、特征向量、解码器和单词输出)组成。 解码器利用声学模型、发音词典和语言模型来确定适当的输出。

评估语音识别技术的准确率,即单词错误率 (WER) 和速度。 许多因素都会影响单词错误率,例如发音、口音、音调、音量和背景噪音。 达到人类同等水平(即交谈的双方的错误率相当)长期以来一直是语音识别系统的目标。 Lippmann 的研究(链接位于 IBM 外部) (PDF, 344 KB) 估计单词错误率约为 4%,但很难重现此研究报告的结果。

阅读更多信息: IBM 如何在这方面取得长足进步并在语音识别领域创造新的行业记录。

使用多种算法和计算技术将语音识别为文本并提高转录的准确性。 下面简要介绍了一些最常用的方法:

  • 自然语言处理 (NLP): 虽然 NLP 不一定是用于语音识别的特定算法,但它应用于人工智能领域,专注于通过语音和文本进行的人机交互。 许多移动设备将语音识别结合到系统中以进行语音搜索,例如: Siri,或提供有关文本的更多辅助功能。
  • 隐马尔可夫模型 (HMM):隐马尔可夫模型建立在马尔可夫链模型的基础之上,该模型规定给定状态的概率取决于当前状态,而不是其先前状态。 虽然马尔可夫链模型对于可观察事件(例如文本输入)很有用,但隐马尔可夫模型允许我们将隐藏事件(例如词性标签)合并到概率模型中。 它们将用作语音识别中的序列模型,用于为序列中的每个单元(即单词、音节、句子等)分配标签。 这些标签使用提供的输入来创建映射,以便能够确定最合适的标签序列。
  • N-Grams 模型:这是最简单的语言模型 (LM),可以为句子或短语分配概率。 N-gram 是由 N 个单词组成的序列。 例如,“order the pizza”是一个 3-gram,而“please order the pizza”是一个 4-gram。 将使用语法和某些单词序列的概率来提高识别率和准确性。
  • 神经网络:主要用于深度学习算法,神经网络通过节点层模仿人脑的互连性来处理训练数据。 每个节点由输入、权重、偏差(或阈值)和输出组成。 如果该输出值超过给定的阈值,它会“触发”或激活节点,并将数据传递到网络中的下一层。 神经网络通过监督式学习来学习这个映射函数,并通过梯度下降过程根据损失函数进行调整。虽然神经网络往往更准确并且可以接受更多数据,但代价是性能下降,因为与传统语言模型相比,它们的训练速度往往更慢。
  • 说话人分类 (SD):说话人分类算法通过说话人身份来识别语音并对其进行分段。 它可帮助程序更好地区分对话中的个人,呼叫中心经常运用此算法来区分客户与销售代理。

阅读 Watson 博客:IBM 如何在 Speech to Text 服务中使用 SD 模型。

语音识别用例

如今,许多行业都在运用语音技术来帮助企业和消费者节省时间,甚至是挽救生命。 下面是一些示例:

汽车:语音识别器通过在车载收音机中启用声控导航系统和搜索功能来改善驾驶员安全性。

科技:虚拟助手越来越多地融入到我们的日常生活当中,尤其是在我们的移动设备上。 我们可以在智能手机上(例如通过 Google Assistant 或 Apple Siri)使用语音命令来访问虚拟助手以及执行语音搜索等任务,或者通过我们的扬声器、Amazon Alexa 或 Microsoft Cortana 来播放音乐。 它们只会继续融入到我们日常使用的产品中,从而推动“物联网”的发展。

医疗保健:医生和护士利用听写应用程序来捕获和记录患者的诊断和治疗记录。

销售:在销售中有多个地方会用到语音识别技术。 它可以帮助呼叫中心转录客户与销售代理之间的数千个电话,从而确定常见的呼叫模式和问题。 认知机器人还可以通过网页与客户交谈,回答常见查询并解决基本请求,而无需等待联络中心代理来处理。 在这两种情况下,语音识别系统都可以帮助缩短解决消费者问题的时间。

安全:随着技术融入我们的日常生活,安全协议变得越来越重要。 基于语音的认证可增加一个可行的安全层。

在我们的博客上详细了解 Audioburst 等公司如何利用语音识别软件实时地对来自广播电台和播客的音频建立索引(此处)

语音识别和 IBM

IBM 率先开发了一些语音识别工具和服务,让组织能够自动执行复杂的业务流程并获得重要的业务洞察。

  • IBM Watson Speech to Text 是一种云原生解决方案,它使用深度学习 AI 算法来应用语法、语言结构和音频/语音信号组合方面的相关知识来创建可定制的语音识别功能,从而实现最佳的文本转录。
  • IBM Watson Text to Speech 通过书面文本生成类似人类的音频,通过改进跨语言和交互方式的可访问性来提高客户参与度和满意度。

有关如何开始使用语音识别技术的更多信息,请探索 IBM Watson Speech to TextIBM Watson Text to Speech

注册一个 IBMid 并创建 IBM Cloud 帐户。