大语言模型在理解人类语言方面的表现愈发惊人——但如果它们也在模仿大脑本身的运作方式呢？
在《自然・人类行为》期刊发表的一项新研究中，科学家发现 OpenAI 的 Whisper 模型处理语言的方式，与真实神经元在自然对话中的反应惊人相似。首席研究员 Ariel Goldstein 向 IBM Think 透露，他和团队分析了超过 100 小时的脑部记录，这些记录来自参与即兴对话的受试者。通过将这些记录与 Whisper 的内部运作机制对比，他们发现该模型的分层表征，与大脑处理语音的过程（从原始声音到语义理解）高度契合。
Goldstein 表示，这些发现可能具有显著的商业价值。未来，企业或许能设计出像大脑一样灵活高效的 AI 语音工具，用于解码语音，不仅能缩短训练时间、提升转录精度，甚至可能助力下一代神经假体的研发。
“语言产生于复杂的社交场景中，而非无菌的实验室环境，”Goldstein 强调。“我们的研究表明，人类认知与 AI 模型可能共享一套更深层、更灵活的对话处理机制。”
这些脑部记录通过脑皮层电图 (ECoG) 技术获取，该技术会将电极直接置于大脑表面。尽管具有侵入性，但这项技术能高保真呈现神经活动。Goldstein 的团队记录了正在接受癫痫手术监测患者的脑部活动，捕捉到的是他们自发的日常对话，而非孤立的单词提示或人为设计的提示。
大脑与 AI 的关联为 IBM Research 带来了创新灵感，科学家们已研发出 NorthPole 等芯片，这类芯片通过打破传统存储 - 计算瓶颈，来模拟神经架构。IBM 的原型产品已展现出卓越效率，在大型 AI 模型上执行推理任务时，速度比领先 GPU 快达 46.9 倍。
研究发现，神经信号与 Whisper 的模型嵌入呈现出高度线性契合，这表明大脑并非在严格独立的阶段处理语言，而是在灵活重叠的层级中进行，与深度学习系统的运作方式一致。声学、语义和语法信息并非局限于大脑或 AI 模型的孤立区域，而是融合在同一层级中，这暗示着它们共享一套语义优化机制。
“我们拥有一个针对特定任务优化的系统，它能归纳出与心理语言学概念相关但不完全等同的表征，这种观点为理解大脑处理信息的方式提供了新思路，”Goldstein 解释道。
他指出，与早期将大脑语言功能划分为独立模块（部分负责声音、部分负责语法、部分负责语义）的观点不同，其团队的发现表明，大脑可能在整合区域中同时处理所有这些语言要素，就像经过端到端任务训练的深度学习模型一样。
之所以选择 OpenAI 开发的 Whisper，是因为其架构与大脑的核心任务具有相似性——将声学输入转化为连贯语言。“大脑接收的不是文字，而是声音，”Goldstein 表示。“Whisper 正是通过将原始音频逐层转换为文本来模仿这一过程。”
此外，研究团队发现，有时在一个人实际开口说话前，就能检测到语义信号。这表明大脑可能会在发声前预先编码意图或语义，进而进一步模糊思维与表达之间的界限。
Goldstein 指出，这一突破有望增强实时转录效果、改进语音助手，并为企业打造更智能的 AI 客户服务智能体。其理念是，将 AI 模型与人脑信号更紧密地对齐，尤其是在嘈杂的现实环境中，或许能在无需耗费数十万小时训练的情况下提升模型性能。
“如果我们利用神经信号或人类神经表征来约束未来的语音转文本模型，有可能会提升这些模型的性能，”Goldstein 表示。“但这只是推测，我们并未直接进行相关测试。”
试想未来的语音助手，不仅基于文本记录训练，还能接受类脑语义表征的训练。这或许能减少训练数据需求，并在呼叫中心、驾驶辅助系统等不可预测环境中提升模型的鲁棒性。
这项研究也为辅助技术带来了新希望。解码内在语言信号，有望帮助患有退行性疾病或丧失语言能力的人恢复沟通功能。大语言模型可作为支撑框架，助力将粗略的神经意图转化为语法连贯的语言。
“如果问题不在于认知层面，而在于肌肉控制，那么是的，我们最终可能会研发出能从大脑中解码语义、帮助人们沟通的设备，” 他说。“但我们在这项研究中使用的是侵入性方法。如果要开发实用设备，就必须采用非侵入性方式，而这类信号的噪声会更大。”
还有一个具有推测性的前沿方向：读心术。Goldstein 对此持谨慎态度。“说话本身就是形成想法的过程之一，” 他指出。“我们并非先在脑海中完全形成所有想法，再按下‘发送键’。我们或许能在概念层面捕捉到一些信息，但未必能获取精细的内心独白。”
尽管如此，该研究的早期证据显示，在人们开口说话前，大脑信号中就已存在语义内容的痕迹。这意味着，只要具备足够的分辨率和上下文信息，机器或许能预测出人想要表达的内容。
Goldstein 强调，如今的 Whisper、GPT 等语言模型本质上都是前馈架构，数据是单向流动的，而大脑则具有递归性和反馈驱动特性。“大脑的最终状态会成为下一个输入，” 他说。“这是一个持续自我修正的循环。这是两者的核心区别。”
他建议，未来的 AI 系统可通过引入类似的反馈循环来提升效能，让输出实时为后续输入提供参考。这一点不仅适用于语言领域，对任何通过交互学习的系统（如机器人或自主智能体）都具有重要意义。
该研究还为新型跨学科合作打开了大门。Goldstein 的实验室目前正探索如何将多模态输入（视觉、声音、动作）整合到 AI 系统中，使其更贴合人类感知世界的方式运行。
“如果我们能采用人类所依赖的感知模态——身体感知、视觉、听觉，并构建以类似方式训练的模型，或许能更接近对大脑的模拟，” 他说。
展望未来，Goldstein 关注着一个更静谧的研究方向：不是社交闲聊或回应式言语，而是内省。
“人类可以自言自语、描述内心状态——这正是我下一步想要探索的领域，” 他说。“不是社交互动，而是内心深处的静默声音。”
他认为，对内心对话（我们最私密的交流）进行建模，能为理解意识与认知提供深刻洞察。但这在伦理层面也充满争议。当机器能够窃听我们的想法时（即便并不完美），会引发怎样的后果？
“我们需要认真思考监控、行为操纵以及各类意外后果，” 他警告说。“我个人并不恐慌，但我们必须做好准备。我们需要投入资源，去了解这类技术可能会如何发展。”
Goldstein 反对耸人听闻的表述。大脑不是计算机，AI 也不是大脑。但两者之间的相似之处，或许不仅仅是表面的隐喻。
“这是向前迈出的一步，” 他说，“但我们的大脑即兴组织语言的方式，依然充满了不可思议的魔力。”
了解 IBM® Granite™，我们的开放式、性能出色和值得信赖的 AI 模型系列，专门为企业量身定制，并经过优化，可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和防护措施选项。
深入了解 watsonx 组合中基础模型库，从容自信地为您的业务扩展生成式 AI。
借助 IBM 业界领先的人工智能专业知识和解决方案组合，让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营，最大限度提升体验、实时决策和商业价值。