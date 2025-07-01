生成式 AI 热潮已催生了一切，从风靡一时的聊天机器人到数百亿美元的估值。但其底层的伦理基础却依然薄弱，这令人担忧。
短短一个月内，OpenAI 在联邦法院赢得又输掉了商标案件 ，而 Anthropic 则悄然撤下了由其自家 Claude 模型生成的一篇博客文章，原因是用户批评该文章内容模糊且具有误导性。随着 AI 系统在各行业和界面中扩展，关于责任、安全与诚信的问题已不再是理论探讨。它们已成为亟待解决的实际问题。
能力与可信度之间的差距，正是 AI 世界内部日益增长的伦理审视的核心所在。伦理通常被视为一种叠加层，而非结构性层面。然而，在 IBM 内部，一些团队正试图扭转这一模式，通过将伦理约束直接纳入系统的训练、营销与部署过程。
植根于开源工具和产品布道的开发者社区资深人士 PJ Hagerty，是参与这项工作的人员之一。作为 IBM 的 AI 倡导负责人，他的工作是帮助开发者更有效、更负责任地使用 AI。然而在实践中，这意味着更广泛的含义：挑战炒作、澄清限制并设定切合实际的期望。 “我们不是在构建思想，”他告诉我。“我们是在构建工具。让我们依此而行。”
当前 AI 领域的关注点大多集中在输出上，即模型生成什么、其准确性或说服力如何、在基准测试中的表现怎样。但对 Hagerty 而言，真正的伦理张力出现得更早，始于基础模型层面。这就是现代 AI 的原始基础设施——基于从网络抓取的海量数据训练的机器学习基础层。正是它驱动着 ChatGPT 和 Claude 这类大语言模型 (LLM)。
“基础层才是关键所在，”Hagerty 告诉我。“这是系统最先学习的东西，如果其中充斥垃圾，那些垃圾就不会消失。”
这些基础模型被设计为通用型。Hagerty 指出，正是这一点使其既强大又危险。因为它们并非针对特定任务或约束而构建，往往会吸收一切——从有价值的语义结构到网络上的有害糟粕。而一旦完成训练，这些模型便难以审计。即使是它们的创造者，也往往无法确切说出模型知道什么，或者它将如何响应特定的提示词。
Hagerty 将之比作给摩天大楼浇筑一个有缺陷的水泥地基。如果从一开始配料就不对，您可能不会立即看到裂缝。但随着时间的推移，建筑结构会变得不稳定。在 AI 领域，相应的后果便是系统部署后出现脆弱行为、意外偏见或灾难性误用。如果早期没有经过精心塑造，模型就会将其训练阶段吸收的风险带入每一个下游应用。
他并非唯一有这种担忧的人。斯坦福大学基础模型研究中心的研究人员已多次警告大规模训练带来的新兴风险，包括偏见传播、知识幻觉、数据污染以及难以定位故障。这些问题可缓解但无法根除，因此早期的设计选择（如数据筛选、过滤与治理）就显得尤为关键。
在 Hagerty 看来，取得实质性进展的最大伦理障碍之一，是企业提及“AI”时其含义的极度模糊。若询问五个产品团队“AI 驱动”具体指什么，您很可能会得到五种不同的答案。Hagerty 将这种定义的模糊性视作当前时代核心的伦理缺失之一。
“大多数时候，人们所说的 AI，其实指的是自动化。或是决策树。或者是 if/else 语句，”他说。
术语缺乏清晰度并非学术上的咬文嚼字。当企业将确定性软件包装为智能推理时，用户往往会信任它。当初创公司将基本的搜索与过滤工具吹嘘为生成式模型时，投资者便将资金投向海市蜃楼。Hagerty 称这种现象为“炒作外溢”，并视其为日益增长的混淆与声誉损害的根源。
在金融或医疗等受监管的行业，后果可能更为严重。如果用户被误导，以为系统具备比实际更深刻的认知能力，他们可能会将本应由人类做出的决策委托给系统。工具与智能体之间的界限变得模糊，责任的界定也随之模糊。
这一问题也导致了精力的浪费。Hagerty 引用了近期关于滥用 LLM 进行时间序列预测（一种基于历史数据预测未来值的统计方法）的研究，指出在此类任务上，经典方法反而更准确高效。然而，一些公司仍继续使用 LLM，追求新颖性或彰显创新。
“你是在燃烧 GPU 来获取糟糕的答案，”他说。“更糟的是，你还称之为进步。”
伦理问题不仅是低效。更是一种失实陈述。团队围绕他们几乎不了解的技术构建产品，添加夸大其能力的营销宣传，并将其部署给无法评估其使用内容的用户。
公众对 AI 的焦虑多集中在可能的大规模失业上。AI 会取代律师、教师、程序员和作家吗？在 Hagerty 看来，这个问题不仅提得过早，其本身也有失严谨。
他说：“大多数这类工具并非取代人。”“它们取代的是任务——而且仅仅是那些非常繁琐的任务。”
他列举了诸如 watsonx Code Assistant、GitHub Copilot 等代码助手，以及 Cursor、Amazon CodeWhisperer 等工具。这些系统并非从零开始编写整个应用程序。它们所做的是填充可预测的代码块、建议样板代码、减少编写重复逻辑的开销。其带来的并非创造力，而是速度。
Hagerty 相信这总体上是件好事。初级开发者可以更快上手。高级工程师可以专注于架构而非语法。入门门槛降低了，维护的痛苦也减少了。但他警告，不要以为这已是已解决的问题。
“这些模型是在开放网络上训练的，”他说。“而这些数据集中含有大量垃圾信息，其中也包括我本人的。”
这些垃圾信息包括不安全的代码、已过时的实践做法以及特定情境下的临时解决方案。此外还包含抄袭、违反许可证的行为以及可能重新出现在生成输出中的隐藏缺陷。因此，尽管模型可能节省时间，但它也冒着重新引入其本应减少的问题的风险。被放大的不是质量；而是模型所接触到的任何内容。
正是在这一点上，Hagerty 认为人工审查仍然至关重要。工具可以提供协助，但责任仍在于开发人员。
AI 安全性方面最臭名昭著的失败案例之一发生在近十年前，当时 Tay 聊天机器人在 Twitter 上发布。几小时内，它就被劫持并开始发布攻击性内容和阴谋论。其创造者将其下线并发布了道歉声明。但这一事件成为开发人员发布没有防护措施的系统时会发生什么的持久象征。
如今，大多数公司已学会为其生成模型包裹上审核层。过滤器、分类器、提示词净化器和强化调优虽能有所帮助，但并非万无一失。在 Hagerty 看来，这些措施往往侧重于表面问题，例如语言语气或粗俗用语，而非更深层的漏洞，如提示词注入或恶意滥用。相反，他将安全性视为一个更广泛的设计问题。“这个模型会被误用吗？它会被断章取义地使用吗？其输出是否会在本不应被信任时得到信任？”他说。“如果你没有深入思考过这些问题，那么你就没有完成。你还没有达到生产就绪状态。”
Hagerty 以能够操纵或生成媒体的工具为例，例如图像生成器、视频编辑器和语音克隆技术。这些系统不仅产生内容，还会改变认知。他指出，当输出足够逼真时，它们就会开始影响记忆、判断和归属认定。
在这些情况下，安全性并非关乎技术正确性，而是语境意识。一旦输出离开您的界面，会发生什么？谁会看到它？他们会如何理解？
这些问题很少有一个确切的答案。但 Hagerty 表示，完全忽视它们是一个错误。
在快速发展的技术环境中，治理有时会让人感觉是一种阻力。它会减缓发布速度。增加文书工作。引入不确定性。但在 Hagerty 看来，这种看法并未抓住要点。
“你不会发布未经测试的代码，”他说。“那你为何要发布未经审计的模型？”
他将像 IBM 的 watsonx.governance 这样的工具视为必要的基础设施，而非可选附加项。这些系统使团队能够追踪训练数据、监控模型变化并及时标记偏差。它们帮助组织遵守新出台的法规，但更重要的是，它们能建立机构记忆。它们让团队看清自己做了什么、如何做的以及为何这样做。
这不仅对合规性至关重要，对质量亦然。如果模型在下个月表现不同，您需要知道发生了什么变化。如果它在生产环境中开始产生幻觉，您需要一种方法将问题追溯至根源。良好的治理对于 AI 而言，就如同版本控制。
其意义远不止于模型。Hagerty 指出，人们对“机器遗忘”的兴趣日益增长，即能够精准移除有问题的数据或行为，而无需从头开始重新训练。这种方法虽然仍处于早期阶段，但反映了一种更广泛的思维转变。目标并非构建更智能的模型，而是构建能够适应、纠正并承担责任感的模型。
这一切都不要求完美。Hagerty 很快承认偏见将持续存在，安全措施会失效，工具会被误用。但可接受的失败与疏忽造成的伤害之间的区别，归根结底在于流程。
“不要过度宣称。不要过度信任。尽早提出更好的问题，”他说。
他建议将伦理审查纳入规划周期，而不仅仅是发布检查清单。使用如 IBM 的 AI Fairness 360、Granite Guardian 以及 ARX 等工具来发现明显问题。进行红队测试以先于用户发现边缘案例。最重要的是，构建易于中途修正的系统。
他认为，这项工作并非是为了防止伤害。而是为了塑造影响力。
“你无法构建一个完美的系统，”他说。“但你可以构建一个失败得更慢、失败方式你能理解的系统。”
在这种观点下，伦理并非一种限制，而是一种设计原则。它是一种制作更优质软件、构建更可预测系统、设定更明确期望——并最终创造更多价值的方式。
当被问及什么让他抱有希望时，Hagerty 没有谈论对齐问题、通用人工智能 (AGI) 或政策框架。他谈的是代码助手。
“它们有效，”他说。“它们减少了阻力。它们不假装能做超出能力范围的事。这才是应遵循的范式。”
他希望 AI 变得“乏味”。有用。专注。坦诚地说明其功能和运作方式。这并不意味着限制野心；而是意味着将其明晰化。为可靠性而构建，而非追求惊艳。设计那些不仅在演示中，更在部署中表现良好的系统。
AI 不会消失。工具将持续进化，人们的期望也会随之提高。Hagerty 相信，成功的团队将是那些将技术实力与伦理自律相匹配的团队。因为这行之有效。
