语音识别,也称为自动语音识别 (ASR)、计算机语音识别或语音转文本,是一种支持程序将人类语音处理成书面格式的功能。
虽然语音识别通常与语音识别混淆,但语音识别侧重于将语音从口头格式转换为文本格式,而语音识别仅旨在识别单个用户的声音。
自 1962 年发布“Shoebox”以来,IBM 在语音识别领域一直发挥着重要作用。这台机器能够识别 16 个不同的单词,它推动了贝尔实验室自上世纪 50 年代在语音识别方面的初步研究。然而,IBM 并未就此止步,经过多年来不断创新,于 1996 年推出了 VoiceType Simply Speaking 应用程序。这款语音识别软件的词汇量达到 42,000 个单词,支持英语和西班牙语,还自带包含 100,000 个单词的拼写词典。
虽然语音技术早期的词汇量有限,但如今已广泛应用于汽车、技术和医疗保健等行业。由于深度学习和大数据的进步,其采用近年来才得以继续加速。研究(链接位于 ibm.com 站外)表明,到 2025 年,此市场的价值预计将达到 249 亿美元。
可以使用的语音识别应用程序和设备有很多,但更高级的解决方案采用 AI 和机器学习。它们整合了语法、句法、结构以及音频和语音信号的构成,以理解和处理人类语音。理想情况下,它们可在实践中学习,每次互动都会不断改进反应。
最好的系统还支持组织根据其特定需求定制和调整技术,这包括从语言和语音细微差别到品牌识别。例如:
同时,语音识别继续发展。诸如 IBM 之类的公司正在多个领域取得进展,以更好地改善人机交互。
人类语言的瞬息万变给发展带来了挑战。这被视为是计算机科学最复杂的领域之一 - 涉及语言学、数学和统计学。语音识别器由多个组件构成,例如语音输入、特征提取、特征向量、解码器和词汇输出。解码器利用声学模型、发音词典和语言模型来确定合适的输出。
评估语音识别技术的准确率,即词汇错误率 (WER) 和速度。许多因素会影响词汇错误率,例如发音、口音、音高、音量和背景噪音。达到与人类同等的水平(即错误率与两个人说话时的错误率相当)一直是语音识别系统的目标。Lippmann 的研究(链接位于 ibm.com 站外)估计,词汇错误率约为 4%,但很难复制本文的结果。
各种算法和计算技术已用于将语音识别为文本,并提高转录的准确性。下面简要介绍几种最常用的方法:
如今,许多行业都在利用语音技术的不同应用,帮助企业和消费者节省时间,甚至挽救生命。其中部分示例包括:
汽车:语音识别器可在汽车收音机中启用声控导航系统和搜索功能,从而提高驾驶安全性。
技术:虚拟代理越来越多地融入我们的日常生活中,尤其是在我们的移动设备中。我们使用语音命令,通过智能手机访问虚拟代理,例如通过 Google Assistant 或 Apple 的 Siri 来执行语音搜索等任务,或者通过扬声器、Amazon 的 Alexa 或 Microsoft 的 Cortana 来播放音乐。虚拟代理只会继续集成到我们使用的日常产品中,从而推动“物联网”运动。
医疗保健:医护人员利用口述记录应用程序捕捉和记录病人的诊断和治疗记录。
销售:语音识别技术在销售领域的应用多样。它可以帮助客户服务中心转录客户和代理之间的数千次通话,以识别常见的通话模式和问题。AI 聊天机器人还可以通过网页与人沟通、回答常见问题并解决基本请求,而无需等待客服中心代理空闲。在这两个实例中,语音识别系统都有助于缩短解决消费者问题的时间。
安全:随着技术融入我们的日常生活,安全协议日益受到重视。基于语音的身份验证增加了可行的安全级别。
使用 AI 语音识别和转录功能将语音转换为文本。
将文本转换为多种语言和声音的自然语音。
AI 驱动型混合云软件。