这个想法并非突然诞生。它在深夜的 Slack 线程和走廊谈话中逐渐浮现,是对机器推理方式的一次悄然反思。在提示的混沌和自动化的愿景之间,一个新的概念逐渐形成。它不仅可能重新定义人工智能,还可能重新定义软件本身。
前提很大胆:如果我们不再将大语言模型当作神秘的聊天机器人,而是将其视为可编程的基础设施会怎么样?IBM 将这门新兴学科称为生成式计算,这是其研究人员开发的术语和框架,用于定义处理 AI 模型的新方法。它关乎重新设计 AI 模型集成到系统中的方式,不再像不可预测的神谕,而是作为受控的模块化软件组件。如果成功,这可能标志着 AI 开发、软件设计和企业科技的转折点。
IBM Research 总监 David Cox 在接受 IBM Think 采访时表示,他创造生成式计算这个术语是为了描述他所看到的 AI 发展中正在发生的转变。它既不是品牌,也不是产品。它是一种转变,一种将大型语言模型视为可编程元素而非聪明聊天伙伴的运动。忘掉那些“魔术”吧。这是软件工程。
“这并不是说 LLM 正在取代编程,”他说,“而是它们正在成为一种新的编程原语。”
如今,与大语言模型的交互常常像是召唤变幻莫测的神谕。只要稍微改变提示中的句子,输出就会偏离正轨。写一篇类似文章长度的提示,然后希望、祈祷、劝诱。它的艺术性与占星术如出一辙,难以捉摸、具有解释性,偶尔也很深刻。但对于银行、医院和政府来说,神秘主义无法规模化。
IBM Research 首席科学家 Ruchir Puri 在接受 IBM Think 采访时表示:“输入一些内容时,不同的措辞方式会得到不同的答案,”“这就像早期的搜索一样。我们仍处于一个逗号就能改变输出结果的时代。不能以这种方式经营企业。”
Puri 认为,企业不仅受困于幻觉,还要应对模型处理边缘情况时缺乏可靠性的问题。“我们经常谈论幻觉,”他说,“但更深层次的问题是,这些模型并不保证遵循指令。”在提示中更改一个单词,就不知道会看到什么结果。”他认为,这正是工程学的对立面。
需要明确的是,没有人否定现代模型的力量。Cox 说,问题在于我们使用它们的方式。“提示工程不是工程。而是摆弄。我们需要一个系统,在这个系统中,我们不必希望模型按我们的意思行事,我们可以通过编程让它达到我们的目的。”
生成式计算背后的前提很简单:将模型视为一个函数。开发人员不会将指令埋藏在冗长的文章中,而是使用运行时——一个编排层,将提示拆分成原子部分,对它们进行路由,检查条件并重写失败的情况。逻辑不仅是隐含的,还是被强制执行的。控制变得明确。结构得以回归。
“想想互联网,”Cox说,“你不会将原始数据通过电线直接发送出去,然后指望它能出现。”你需要协议、重试和路由。这就是我们要为 AI 添加的内容。”在实践中,这意味着构建分层系统,将复杂任务拆解成更小、更易于管理的指令,并在继续执行之前逐一验证。“你可能需要向模型提供二十个重点突出的简短提示,而不是一个冗长而复杂的提示,”Puri 说,“但现在你可以记录每一个提示。可以重试,可以构建备用方案,这正是企业所需要的。”
这种结构也为测试和验证打开了大门,而这两项是生成式 AI 中长期缺失的原则。Cox 说:“你可以像编写代码一样编写关于 LLM 行为的断言。”“如果没有获得所需的行为,可以要求模型重试,或路由到不同的子程序。”
当这一理念应用到安全领域时,就变得尤为有力。Puri 说,他经常听到 CTO 们表示看好 AI 智能体的潜力,但又对其不可预测性感到担忧。“他们害怕让其自主完成任何事情。如果出现幻觉怎么办?如果发送错误信息或批准错误交易怎么办?”
为此,生成式计算引入了幻觉检测、上下文验证和合规感知处理等工具。Cox 说:“借助我们的运行时,你可以插入一个监护模型,用于检查主模型的输出。”如果有可疑之处,它可以进行标记或要求重试。”
这种分层机制带来了当今提示工程无法提供的可复现性和置信度。开发者可以将传统代码与 LLM 响应结合,将输出嵌入到更大的系统中,同时不失去控制权。
“它不是聊天机器人,”Cox 说,“它是软件堆栈的一部分。测试方法和其他模块一样。”
Cox 说,当前时刻可类比计算机史上的早期阶段。1980 年代,模型-视图-控制器 (MVC) 等软件设计模式的引入,让开发人员能够将逻辑与界面分离,为构建应用程序奠定了模块化、可重用的基础。他认为,生成式计算代表了一个类似的转折点。
“我们要找到模式,”他说,“就像 MVC 在用户界面开发中变得无处不在一样,我们将看到用于编排 LLM 的框架。这是软件堆栈新层次的开端。”
这种结构愿景是生成式计算运动的基础。开发者不再试图理解大语言模型中的每个神经元,而是构建与企业约束相符的防护措施。“我们建立了问责制。”Puri 说。
Cox 指出,透明度并不一定意味着简易性。“汽车的发动机很复杂,”他说,“但它建在安全外壳内。出现故障时,有相应的处理程序。这就是我们对 AI 的期望。不是神秘,而是工程。”
从技术角度来说,这意味着揭示模型决策的中间步骤。生成式计算中使用的运行时可以在每一步生成日志、附加元数据并执行验证。
“解释是一种功能,”Cox 说,“而不是事后添加。”
IBM 的 Granite 模型已经过调整,可以支持这种模块化编排。它们经过优化,可以进行快速、内存高效的推理,能够用多个小型查询代替一个大型提示。这使得它们非常适合运行时驱动的方法。
Puri 表示:“可以将它们视为构建块。不同于试图一次完成所有任务,我们会针对特定的子任务多次调用。这样更快、更经济、更可靠。”
优势不仅在于技术方面,还在于组织方面。在一个试点项目中,一家企业客户使用生成式计算来构建文档分类管道。他们不再依赖单一提示来总结法律简报,而是将任务分为九个阶段:分类、细分、提取、验证、风险评估、摘要、格式化、审查和批准。
“每个阶段都独立进行并受到监控,”Cox 说,“如果某个环节出了问题,可以重试或纠正。仅靠单一提示是无法做到的。”
Puri 相信这种结构将成为常态。他说:“我们将不再视 LLM 为端到端的魔法,而是开始将其看作基础设施。”“这不是为了取代开发人员。而是为他们提供新工具。”
Cox 指出,其中一种工具是 LLM intrinsic,这是一个新概念,将特殊模型功能直接暴露给运行时,从而实现更深层次的整合和实时适配。他说:“你可以连接一个适配器来改变模型的行为方式。”“由此可以改变语气、降低风险,甚至在运行中检测幻觉。”
这些进步可能会改变软件的编写方式。Cox 设想的 IDE 包括适用于 LLM 的运行时编排模板、用于验证提示的单元测试以及跟踪模型行为的版本控制系统。
“软件工程师必须学习新技能,”他说,“但基本要素仍然存在:输入、输出、正确性、可观测性。我们并非放弃软件工程。而是在对其进行升级。”
研究人员预计,生成式计算将超越其当前的利基用例。随着该领域的成熟,将涌现出新的抽象层次、新的标准和新的工作角色。
他稍作停顿。“我们花了十年时间研究如何让这些系统变得智能,”他说,“现在我们必须教它们如何规范行事。”
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。