AI 智能体带来新的伦理风险？研究人员正在调查此案

作者

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

若 AI 系统发生异常，后果不堪设想。机密信息泄露、攻击性信息，甚至曾有将致命氯气便于制作的配方泄露的情况，这都被归咎于聊天机器人出了问题。¹

这种情况促使人们更加重视 AI 对齐，也就是将人类价值观和伦理道德原则编码到 AI 模型中的做法。但是，AI 研究人员并没有止步于解决当今机器学习技术的伦理道德影响。他们还致力于解决未来的道德问题，特别是由智能体式人工智能引起的问题。

IBM Research 的 IBM 院士 Kush Varshney 表示，智能体式 AI 也称为 AI 智能体，是一种自主 AI 技术，与传统 AI 模型相比，它会带来更多的伦理道德困境。

“由于 AI 智能体可以在没有人类监督的情况下采取行动，因此存在很多额外的信任问题，”Varshney 说。“其功能将会发生演变，但也会出现意想不到的后果。从安全角度来看，您不会想处理前先等等看。随着科技的发展，您希望不断加强保障措施。”

行业时事通讯

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。

AI 智能体到底是什么？

在深入了解 AI 智能体安全保障措施之前，有必要准确了解 AI 智能体究竟是什么：它是可以代表人类或代表另一个系统自主执行任务的智能系统或程序。尽管它们具有大型语言模型 (LLM) 功能，例如自然语言处理，但这些自主系统还可以做出决策、解决问题、执行操作并与外部环境交互。

借助这些功能，AI 智能体不仅可以对用户提示给予文本响应，还可以实际完成现实世界中的任务。

例如，外部交互通过工具调用（也称为函数调用）进行，这是一个接口，允许智能体处理需要实时信息的任务；这些信息 LLM 无法以其他方式获得。因此，部署在供应链生态系统中的 AI 智能体可以根据需要通过改变生产计划和向供应商订购来自主优化库存水平。

AI 智能体

5 种类型的 AI 智能体：自主功能与现实世界的应用

了解目标驱动和基于效用的 AI 如何适应工作流和复杂环境。

构建、部署和监控 AI 智能体

更大的 AI 自主权有多危险？

当谈到智能体式 AI 等先进人工智能技术时，多大程度的自主权算过分？要回答这个问题，我们可以参考“回形针最大化情景”。哲学家 Nick Bostrom 的这个著名思想实验以超人工智能或 ASI 这个仍属假设的概念为中心；ASI 是指智能程度超过人类智能的 AI 系统。Bolstrom 考虑了如果这样的系统将回形针制造置于所有其他目标之上，会发生什么。

在设想的情景中，该系统最终将地球的所有资源都用于制作回形针 - 当生命所依赖的不仅仅是无穷无尽的这种微型金属办公用品时，这是一个不道德的结果。回到我们最初的问题，我们显然可以得出结论，在这个假想的情况下，有问题的 AI 系统具有太多的自主性。

好消息是，今天的智能体式 AI 不是 ASI，因此由具有灾难性缺陷的机器伦理导致的回形针反乌托邦仍然不太可能出现。“我们更近了一些，但仍相距甚远。”Varshney 说道。

但是，AI 自动化带来的其他风险更迫在眉睫。Varshney 说，此类可能性包括人工智能体发送不恰当的电子邮件，以及以用户意想不到的方式停止和启动机器。对自主 AI 行为的担忧非常严重，以至于美国国土安全部 (DHS) 在 2024 年 4 月的一份关于 AI 安全和防护指导方针的报告中将“自主性”列入了通信、金融服务和医疗保健等关键基础设施系统的风险清单。²

不断发展的解决方案，支持道德智能体行为

现有的 AI 治理解决方案可以帮助支持 AI 智能体的道德规范，因为现有的软件工具已经让组织能够监控、评估和解决可能会扭曲决策过程的偏见（来自训练数据集和算法）。这些工具还可以帮助开发人员和公司确保他们使用的 AI 工具符合各个公司和政府广泛采用的当前值得信赖的 AI 标准、可解释性目标以及负责任的 AI 原则。

但随着公司越来越多地将智能体式 AI 纳入工作流中，研究人员也在研究新的合乎道德的 AI 解决方案和战略，以遏制自主智能体的不当行为并提高 AI 技术的可持续性。以下是一些值得关注的方面：

一种新颖的 AI 对齐方法

如今，预训练的 AI 模型需要经过微调才能针对特定领域的数据进行训练。在 AI 开发的微调阶段，模型可能会与道德价值观和伦理考量保持一致，但经常会出现这样的问题：哪些规范价值观应该保持一致。毕竟，价值观和道德框架因公司、国家或地区、利益相关者等而异。

Varshney 和一组 IBM 研究人员提出了一种更加明确针对具体情况的科技驱动方法，称为 Alignment Studio，它将大型语言模型与自然语言政策文件中所描述的规则和价值观（例如政府法规或公司自己的道德准则）相结合。

2024 年 9 月 IEEE Internet Computing 杂志上发表的一篇论文详细介绍了这种方法，其中包括连续的开发周期，这样，模型不仅可以从政策文档中学习政策相关词汇，而且实际上会采用所需的行为来更好地实现价值观对齐。³

函数调用幻觉检测

AI 智能体相关不当行为的原因包括用户缺乏具体指示或智能体误解了用户的指示。这种“误解”可能导致智能体选择错误的工具，或以不恰当或破坏性的方式使用这些工具，这就是所谓的函数调用幻觉。

幸运的是，改进函数调用已成为各方竞相投入的工作，并且已经创建有数个基准来衡量 LLM 调用 API 的能力。最新的改进来自 IBM Granite Guardian 最新发布的 Granite Guardian 3.1 中的一项新功能；它是 IBM 专为企业设计的 Granite 语言模型系列的一部分。该模型可以在意外后果发生之前检测到智能体的函数调用幻觉。“检测器会检查各种错误，从人类语言描述到调用的函数。”Varshney 解释道。

检测 AI 生成的文本和虚假信息

恶意行为者已经使用生成式 AI 通过深度伪造渗透社交媒体；深度伪造是 AI 生成的逼真音频、视频或图像，可以重新创建一个人的高仿形象。与此同时，诈骗者利用 AI 生成的文本来发送更复杂的网络钓鱼电子邮件。而智能体式 AI 的力量可能会助长这些危险的趋势。

Google DeepMind 的研究人员在 2024 年 4 月的一份报告中警告说：“越来越多的证据表明，AI 生成的输出和人类的论证一样有说服力。”他们说，未来，恶意行为者可以使用自主 AI“通过利用用户的情绪和弱点，以超精确的方式为用户定制不实信息内容”。⁴

迄今为止，旨在检测人工智能驱动的欺骗行为的工具性能参差不齐。但是，研究人员继续迎接挑战，改进 AI 检测，最新一代 AI 文本检测器取得了一些最有希望的结果。⁵

例如，由香港中文大学和 IBM 研究院的研究人员创建的名为 RADAR 的新框架使用两个独立的可调语言模型之间的对抗性学习来训练 AI 文本检测器，与旧的 AI 文本检测解决方案相比，性能更好。⁶

随着 AI 检测技术的持续发展，IBM、Microsoft 和 OpenAI 等科技公司也呼吁政策制定者通过法律，打击深度伪造内容的传播，并追究不良行为者的责任。⁷

维护人类劳动者的尊严

虽然智能体式 AI 引发的许多伦理问题与不当行为有关，但即使自主式 AI 技术按预期运行，也会出现其他伦理问题。例如，很多讨论都集中在 OpenAI 的 ChatGPT 等 AI 应用程序会取代人类劳动并消除人们谋生手段这一问题。

但是，即使部署 AI 来增强（而不是取代）人类劳动，员工也可能面临心理后果。Varshney 解释说，如果人类工人认为 AI 智能体比他们更擅长工作，他们的自尊可能会受创。他说：“如果对你而言，你所有的专业知识似乎都不再有用了，其或多或少逊于 AI 智能体，你可能会觉得丧失尊严。”在一些 AI 伦理问题的讨论中，这种尊严丧失感被认为是侵犯人权的。⁸

在 2024 年 8 月的一篇研究论文中，Varshney 和几位大学研究人员提出了一种解决尊严问题的组织方法：对抗性合作。在他们的模型下，人类仍然需要负责提供最终建议，而 AI 系统则被部署来审查人类的工作。

研究人员在报告中写道：“最终的决定是由人做出的，算法的目的不是为了竞争这个角色，而是为了询问人工客服的建议，并予以改进。”⁹Varshney 说，这种对抗性合作“是一种可以维护人类尊严的组织方式”。

2025 年主要战略技术趋势：AI智能体

下载这份 Gartner 研究报告，了解agentic AI 对 IT 领导者的潜在机遇和风险，以及如何为这一新一轮 AI 创新做好准备。

AI 智能体带来新的伦理风险？研究人员正在调查

作者