“语音转文本”是将口述内容转换为文本记录的流程。它有时也被称为“声音转文本”,且主要作为一项基于软件的服务 (SaaS) 来提供。
它通常会将由人工智能提供支持的语音识别技术(也称为自动语音识别)与转录相结合。计算机程序会以声波振动的形式接收音频,并使用语言算法将音频输入转换为数字字符、单词和短语。
机器学习、深度学习和大型语言模型(例如 OpenAI 的生成式预训练转换器 (GPT))使得语音转文本软件更为先进和高效,因为它们可从大量音频样本和文本样本中收集口语模式。
生成式 AI 可与语音转文本软件相集成以创建助手,从而通过电话通话来帮助客户或与支持语音的应用程序进行交互。此外,生成式 AI 还能以逼真、自然的声音效果将文本转换回语音(即,所谓的文本转语音)。
语音转文本软件包含多个组件。其中包括:
语音输入:由麦克风捕捉口述内容
特征提取:由计算机识别语音中独特的音调和模式
解码器:由算法通过语言模型将语音特征与字符和单词进行匹配
文本输出:最终文本使用正确的标点符号和大小写进行格式设置,以便人类阅读
一般来说,语音转文本流程包括以下步骤:
音频预处理:采集音频记录后,对其进行预处理以提高识别的质量和准确性。其中包括消除背景噪音和不相关的频率、稳定音量水平、对片段进行分段以便于处理,以及将音频文件转换为标准格式。
声音分析和特征提取:声音信号通常被描述为频谱图(ibm.com 外部链接),而这种图谱是频率随时间变化的可视化表示。1音频记录的相关部分会被分解为一系列音素,而音素是区分一个单词与其他单词的最小语音单位。音素的主要类别为元音和辅音(ibm.com 外部链接)。2语言模型和解码器可将音素与单词和句子依次进行匹配。基于深度学习的声学模型可根据情境来预测后续可能会出现的字符和单词。
执行语音识别主要有三种方法:同步、异步与流式识别。
同步识别是指立即执行语音转文本。它只能处理不超过一分钟的音频文件。它可用于广播电视的实时字幕制作。
流式识别是指实时处理流式音频,因此当用户仍在说话时可能会出现断续的文本。
异步识别是指提交大型预录音频文件以便进行转录。此操作可能会排队等待处理,并稍后交付。
Google3(ibm.com 外部链接)、Microsoft4(ibm.com 外部链接)、Amazon5(ibm.com 外部链接)和 IBM 等公司通过云端并以 API 形式提供语音转文本软件,以便这些软件能与其他应用程序、工具和设备协同使用。
Apple iPhone 具备听写功能(ibm.com 外部链接),而该功可将语音转文本技术融入其 iOS 系统。6安卓用户可下载 Gboard(ibm.com 外部链接)等应用程序,以实现语音转文本功能。某些像素设备允许用户通过此助手进行语音输入。7开源与专有语音转文本软件均有多种对应选项。
在其早期发展历程中,语音识别软件依赖于有限的词汇库。得益于数据科学、深度学习和人工智能领域的进步,汽车、医疗保健等行业最近已纷纷采用该软件。
20 世纪 50 年代,贝尔实验室提出了名为 AUDREY 的首个语音识别装置(ibm.com 外部链接),它可识别口述的数字。8随后,IBM 于 1962 年发明了 Shoebox,而它可识别数字和 16 个不同的单词。
在这几十年中(ibm.com 外部链接),计算机科学家提出了音素识别模型和统计模型(例如,隐马尔可夫模型),而这些模型仍是语音识别的主流算法。9约在 20 世纪 70 年代,卡内基梅隆大学研发的一个名为 HARPY 的卡内基梅隆大学程序可让计算机识别 1,000 个单词。
20 世纪 80 年代,IBM 的转录系统 Tangora 便使用统计方法识别出多达 20,000 个单词。它被用于面向办公人员的首次声控听写任务,并为现代的语音转文本软件奠定了基础。此后,此类软件继续得到发展和改进,但直到 2000 年代才实现商业化。
当机器学习与深度学习算法出现时,它们取代了统计模型并提高了识别准确性,同时还实现了相关应用的扩展。深度学习或许能更好地捕捉细微差别和非正式表达。大型语言模型 (LLM) 则可用于添加情境;当词汇选择较为模糊或发音存在重音变化时,该模型便可提供帮助。随着虚拟助手和智能扬声器的出现,它们可将语音转文本功能与大型语言模型、自然语言处理 (NLP) 和其他基于云的服务相集成。
端到端深度学习模型(如各种转换器)是大型语言模型的基础。它们会在未标记的大型音频-文本对数据集的基础上进行训练,以学习如何将音频信号与转录对应起来。
在训练过程中,此模型会隐性地学习单词的发音以及哪些单词可能会以序列形式共同出现。此模型还可自行推断语法与语言结构规则,以便自行应用。深度学习可对传统语音转文本技术的某些较为繁琐的步骤进行整合。
语音转文本软件有多种用例:
语音转文本软件可自动转录客户互动、按需转接通话、从客户对话中获取洞察信息以及执行情感分析。
示例:对于客户服务中心,AI 语音助手可使用语音转文本功能来处理客户提出的更简单、重复性更高的问题,并将更复杂的请求转给人工代理。
它可转录在线会议或网络研讨会的会议记录,并为视频创建字幕、标题或配音。此外,它还可与翻译软件一起使用,以便将文档转录为多种语言。特殊用途的应用程序则可实现针对医疗保健、法律与教育应用的转录。
示例:Amazon(ibm.com 外部链接)可提供医疗转录服务;该服务使用语音转文本功能来转录医生与患者的谈话,从而获取临床笔记并为远程医疗咨询创建字幕。10
通过自然语言处理,语音识别可从转录的文本中获取含义,并提取出可操作的命令,继而执行它们。此功能可帮助用户通过聊天机器人或 Alexa、Cortana、Google Assistant 和 Siri 等数字助理发出语音命令,例如拨打电话、搜索网络或控制智能家居环境下的灯具、恒温器和其他已连接设备。
示例:Amazon 的 Alexa(ibm.com 外部链接)现在会使用语音转文本与文本转语音功能来打开灯具、调节特定房间的温度或根据您最近的食品购买情况来推荐食谱。11
残障人士可使用这些应用程序与电脑和智能手机进行交互,而无需亲自打字。此类应用程序可对短信、笔记、电子邮件等内容进行听写。
示例:患有阅读障碍或近期手臂受伤的学生仍可在 Microsoft 计算机(ibm.com 外部链接)上使用自己的语音来输入笔记。12此功能由 Azure Speech 服务提供支持。
AI 可梳理视频与音频剪辑的转录,以便扫描是否存在不适当的内容;同时,它还可充当调解人,以标记存在问题的材料,以供人工审查。
示例:Vatis Tech(ibm.com 外部链接)提供了一种工具,它可使用语音转文本功能在市场营销中进行社交媒体监控,从而帮助品牌识别它们在何种情况下会符合趋势,以及客户互动背后的意图。13
1. 从声音到图像,第 1 部分:深入了解频谱图创建(ibm.com 外部链接),Cornell Lab Macaulay Library,2021 年 7 月 19 日
2. 第 12 讲:语音识别概述(ibm.com 外部链接),罗切斯特大学计算机科学系
3. 使用 Google AI 将语音转换为文本(ibm.com 外部链接),Google Cloud
4. 语音转文本 REST API(ibm.com 外部链接),Microsoft
5. Amazon Transcribe API 参考(ibm.com 外部链接),AWS
6. iPhone 用户指南(ibm.com 外部链接),Apple
7. 利用语音进行输入(ibm.com 外部链接),Google 支持
8. Audrey、Alexa、Hal 等(ibm.com 外部链接),计算机历史博物馆,2021 年 6 月 9 日
9. 语音识别:过去、现在、未来(ibm.com 外部链接),卡内基梅隆大学计算机科学系
10. Amazon Transcribe Medical(ibm.com 外部链接),AWS
11. Alexa 推出新的语音识别、文本转语音技术(ibm.com 外部链接),Amazon,2023 年 9 月 20 日
12. 使用语音输入来交谈,而非在电脑上打字(ibm.com 外部链接),Microsoft
13. 媒体监控情报 - 将任意音频转化为洞察信息(ibm.com 外部链接),Vatis Tech