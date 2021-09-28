语音识别，也称为自动语音识别 (ASR)、计算机语音识别或语音转文本，是一种支持程序将人类语音处理成书面格式的功能。
虽然语音识别通常与语音识别混淆，但语音识别侧重于将语音从口头格式转换为文本格式，而语音识别仅旨在识别单个用户的声音。
自 1962 年发布“Shoebox”以来，IBM 在语音识别领域一直发挥着重要作用。这台机器能够识别 16 个不同的单词，它推动了贝尔实验室自上世纪 50 年代在语音识别方面的初步研究。然而，IBM 并未就此止步，经过多年来不断创新，于 1996 年推出了 VoiceType Simply Speaking 应用程序。这款语音识别软件的词汇量达到 42,000 个单词，支持英语和西班牙语，还自带包含 100,000 个单词的拼写词典。
虽然语音技术早期的词汇量有限，但如今已广泛应用于汽车、技术和医疗保健等行业。由于深度学习和大数据的进步，其采用近年来才得以继续加速。研究（链接位于 ibm.com 站外）表明，到 2025 年，此市场的价值预计将达到 249 亿美元。
可以使用的语音识别应用程序和设备有很多，但更高级的解决方案采用 AI 和机器学习。它们整合了语法、句法、结构以及音频和语音信号的构成，以理解和处理人类语音。理想情况下，它们可在实践中学习，每次互动都会不断改进反应。
最好的系统还支持组织根据其特定需求定制和调整技术，这包括从语言和语音细微差别到品牌识别。例如：
同时，语音识别继续发展。诸如 IBM 之类的公司正在多个领域取得进展，以更好地改善人机交互。
人类语言的瞬息万变给发展带来了挑战。这被视为是计算机科学最复杂的领域之一 - 涉及语言学、数学和统计学。语音识别器由多个组件构成，例如语音输入、特征提取、特征向量、解码器和词汇输出。解码器利用声学模型、发音词典和语言模型来确定合适的输出。
评估语音识别技术的准确率，即词汇错误率 (WER) 和速度。许多因素会影响词汇错误率，例如发音、口音、音高、音量和背景噪音。达到与人类同等的水平（即错误率与两个人说话时的错误率相当）一直是语音识别系统的目标。Lippmann 的研究（链接位于 ibm.com 站外）估计，词汇错误率约为 4％，但很难复制本文的结果。
各种算法和计算技术已用于将语音识别为文本，并提高转录的准确性。下面简要介绍几种最常用的方法：
如今，许多行业都在利用语音技术的不同应用，帮助企业和消费者节省时间，甚至挽救生命。其中部分示例包括：
汽车：语音识别器可在汽车收音机中启用声控导航系统和搜索功能，从而提高驾驶安全性。
技术：虚拟代理越来越多地融入我们的日常生活中，尤其是在我们的移动设备中。我们使用语音命令，通过智能手机访问虚拟代理，例如通过 Google Assistant 或 Apple 的 Siri 来执行语音搜索等任务，或者通过扬声器、Amazon 的 Alexa 或 Microsoft 的 Cortana 来播放音乐。虚拟代理只会继续集成到我们使用的日常产品中，从而推动“物联网”运动。
医疗保健：医护人员利用口述记录应用程序捕捉和记录病人的诊断和治疗记录。
销售：语音识别技术在销售领域的应用多样。它可以帮助客户服务中心转录客户和代理之间的数千次通话，以识别常见的通话模式和问题。AI 聊天机器人还可以通过网页与人沟通、回答常见问题并解决基本请求，而无需等待客服中心代理空闲。在这两个实例中，语音识别系统都有助于缩短解决消费者问题的时间。
安全：随着技术融入我们的日常生活，安全协议日益受到重视。基于语音的身份验证增加了可行的安全级别。
使用 AI 语音识别和转录功能将语音转换为文本。
将文本转换为多种语言和声音的自然语音。
AI 驱动型混合云软件。
IBM watsonx Assistant 帮助企业通过 AI 聊天机器人提供更好的客户体验，该聊天机器人能够理解业务语言，连接到现有的客户服务系统，并可在任何地方部署，具有企业级的安全性和可扩展性。watsonx Assistant 可自动执行重复性任务，并利用机器学习快速高效地解决客户支持问题。