开源即敞险:不受监管的生成式 AI 危险与日俱增

两位白人商务同事在走廊上边走边谈,一小群同事在工作站讨论工作。

主流生成式 AI 模型内置安全屏障,而开源替代方案则没有此类限制。这对网络犯罪意味着什么?

毫无疑问,开源是软件的未来。根据《2024 年开源状况报告》》,超过三分之二的企业表示过去一年开源软件的使用有所增加。

生成式 AI 也不例外。参与 GitHub 和其他平台上的开源项目的开发人员数量正在激增。各大组织正在积极投资生成式 AI,金额高达数十亿美元,应用范围十分广泛,涵盖从客户服务聊天机器人到代码生成等各种用例。很多企业或从头开始,或在开源项目的基础上构建专有 AI 模型。

但投资生成式 AI 的并非只有合法企业。对恶意行为者而言,它更是一座不折不扣的金矿,从一心想在对手阵营散布错误信息的流氓国家,到开发恶意代码或策划定向网络钓鱼诈骗的网络犯罪分子,均可从中牟利。

拆除护栏

目前,阻止恶意行为者的工具很少,其中一个就是开发人员设置的防护措施,以保护其 AI 模型免遭滥用。ChatGPT 不会故意生成网络钓鱼电子邮件,Midjourney 也不会创建侮辱性图像。但是,这些模型属于完全闭源的生态系统,它们背后的开发人员有权决定模型的用途和禁用范围。

从公开发布起,仅两个月时间,ChatGPT 就获得了 1 亿用户。从那以后,无数用户试图破坏护栏,实施“越狱”,以期随心所欲地使用模型。此类尝试的成功概率参差不齐。

无论如何,开源模型的兴起势不可挡,此类防护措施将会过时。虽然性能通常落后于闭源模型,但毫无疑问,开源模型的性能会不断提升。原因很简单,因为开发人员可以使用他们喜欢的任何数据来训练模型。积极的一面是,这可以提高透明度和竞争能力,同时推动 AI 民主化,而不是让 AI 完全掌控在大型企业和监管机构手中。

然而,如果没有防护措施,生成式 AI 将成为网络犯罪的下一个前沿阵地。像 FraudGPT 和 WormGPT 这样的恶意 AI 工具在暗网市场广泛流通。两者均基于 EleutherAI 于 2021 年开发的开源大语言模型 (LLM) GPT-J。

恶意行为者还使用 Stable Diffusion 等开源图像合成器来构建能够生成侮辱性内容的专用模型。AI 生成的视频内容指日可待。其能力目前仅受限于高性能开源模型的可用性以及运行这些模型所需的巨大算力。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。每份时事通讯都包含取消订阅链接。您可以在此管理您的订阅或取消订阅。更多相关信息,请参阅我们的 IBM 隐私声明

这对企业意味着什么?

人们可能很容易将这些问题视为外部威胁,认为任何训练有素的团队都应该具备足够的能力来处理这些问题。但是随着越来越多组织投资于构建专有的生成式 AI 模型,他们也面临内部攻击面扩大的风险。

训练过程本身就是模型开发中最大的威胁来源之一。例如,如果训练数据集中存在任何机密、受版权保护或错误的数据,这些数据可能会在后续响应提示的过程中再次出现。这可能是开发团队的疏忽,或是恶意行为者蓄意发动的数据投毒攻击。

提示注入攻击是另一个风险来源,它涉及诱骗或”越狱“模型,使其生成违反供应商使用条款的内容。这是每个生成式 AI 模型都面临的风险,但在缺乏充分监督的开源环境中,风险自然更大。AI 工具一旦开源,其开发组织就失去了对其后续开发和使用的控制权。

要了解不受监管的 AI 所带来的威胁,最简单的方法就是让闭源 AI 违规。在大多数情况下,它们会拒绝合作,但正如许多案例所证明的那样,通常只需要一些创造性的提示和试错就行。不过,如果使用 Stability AI、EleutherAI 或 Hugging Face 等组织开发的开源 AI 系统,或者您为此而在内部构建的专有系统,则不会遇到任何此类限制。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

威胁与重要工具

归根结底,开源 AI 模型的威胁在于它们对滥用的开放程度。虽然推动模型开发中的民主化本身是一个崇高的目标,但威胁只会不断演变并加剧,企业不能指望监管机构能跟上步伐。这就是为什么 AI 本身也成为网络安全专业人员武器库中的重要工具。如需了解原因,请阅读我们的 AI 网络安全指南