净化 AI：通过 HAP 过滤有害内容

作者

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

万维网促进了连接，加速了业务增长，并将几个世纪以来积累的知识放在了我们的指尖。

但尽管它有诸多优点，但也可能成为仇恨语言和有害内容的污水池。这个污水池又流入了更大的互联网数据海洋，海洋中的数据被用来训练当今的许多基础模型，例如大型语言模型 (LLM) 及其自然语言处理 (NLP) 功能。

这种攻击性语言的渗透威胁着这些人工智能 (AI) 模型的完整性和可用性。这是为什么？因为如果 LLM 在包含人类仇恨行为的数据集上进行训练，那么它们就可能产生有害的结果。更重要的是，这些有害内容还会在微调、通过检索增强生成 (RAG) 进行优化或当 LLM 与用户交互时进入 AI 模型。

过滤和删除攻击性内容对于确保 AI 模型的安全性、包容性和无偏倚至关重要，可以为用户提供积极体验。其中一种解决方案是由模型驱动的系统化仇恨、辱骂和亵渎内容 (HAP) 过滤，即 HAP 过滤。

什么是 HAP 筛选？

HAP 过滤是一种使用分类模型来检测并删除 LLM 输入和输出文本中的仇恨言论、辱骂性语言和亵渎性词汇的系统。

什么是分类模型？

要完全了解 HAP 筛选，了解分类模型会很有帮助。分类模型这种机器学习模型可将数据点划分为称为类的预定义组。其从输入数据中学习类特征，然后根据这些学习到的特征将可能的类分配给新数据。例如，垃圾邮件过滤器使用分类算法。HAP 过滤分类模型也可以更具体地称为句子分类器，或者更简单地称为 HAP 过滤器或 HAP 检测器。

什么被认为是 HAP 内容？

仇恨言论、辱骂性语言和亵渎性内容可定义如下：

仇恨言论：基于种族、宗教、民族出身、性取向、残疾或性别等属性对个人或群体表达仇恨的言论。仇恨言论表明有意伤害、羞辱或侮辱某个群体的成员，或宣扬暴力或社会混乱。
辱骂性语言：旨在欺凌、贬低或贬损某人或某事的粗鲁或伤害性语言。
亵渎性话语：有害的词语，例如诽谤、侮辱或露骨的色情语言。

HAP 过滤是如何工作的？

在实践中，HAP 过滤语句分类器会评估模型输入或输出文本中的每个单词，以确定其是否包含 HAP 内容。然后，它会分配一个分数来表示 HAP 内容存在的可能性，可能是从 0 到 1 的范围。在这种情况下，分数越接近 1，则表示含 HAP 内容的可能性越高。根据用户为 HAP 内容设置的阈值（如“得分大于 0.5 = HAP”），模型将为每个句子分配一个标签，标明该句子是否包含 HAP。

最后，如果 HAP 内容存在于预训练数据中，则可以将其标记并删除。或者，如果 HAP 内容是输出，则可以用护栏消息替换它，指示输出包含已被删除的有害文本。

AI 学院

AI 领域的信任、透明度和治理

AI 信任可以说是 AI 领域最重要的话题。这个话题会让人不知所措，也是情理之中的事情。我们将解析幻觉、偏见和风险等问题，并分享以合乎道德、负责且公平的方式采用 AI 的步骤。

转到视频集

HAP 过滤器的用例

根据 IBM® Research 的研究，HAP 过滤器目前有三个主要用例：

过滤 LLM 训练数据
使用强化学习对齐模型
控制生成式 AI 输出

过滤 LLM 训练数据

LLM 通常使用一系列数据源进行训练，其中一些数据源可能包含仇恨或不当内容。HAP 过滤可以帮助防止 LLM 从此类内容中学习。它通常发生在数据预处理期间，当仍有大量原始数据时。

使用强化学习对齐模型

在对齐过程中也使用 HAP 模型。例如，通过强化学习进行对齐会根据输出与预期目标的对齐程度来奖励输出。如果奖励使用 HAP 过滤器评分，则奖励可能是“非 HAP”分数，然后模型经过训练以使之最大化。

控制生成式 AI 输出

HAP 模型可以帮助控制生成式 AI 模型输出，而无需重新训练原始模型。这种控制需要修改生成流程，以使用原始评分方法和 HAP 评分对模型预测进行评分，从而确保内容可接受、无仇恨。

值得注意的是，除了 HAP 过滤外，通常还会采取其他数据清理、数据质量和对齐步骤，以减少不正确、不当或有偏倚的数据进入或离开模型的情况。

IBM 的下一代 HAP 过滤器：开源和攻击性跨度

与许多 AI 周边技术一样，HAP 过滤领域的创新发展迅速。IBM 研究人员确定了两种改进 HAP 过滤器的方法：通过更小的开源模型和攻击跨度识别工具。

更小的开源 HAP 过滤器

在理想的情况下，HAP 过滤会发生在 LLM 生命周期的每个阶段。但是，这种应用程度需要速度，而当今大多数 HAP 过滤器由于体积庞大，都不具备这种速度。

这促使 IBM 推出更快、更新的 HAP 过滤器：Granite-Guardian-HAP-38m。这个 3800 万参数的编码器模型比其 1.25 亿参数的前身 (Granite-Guardian-HAP-125m) 要小。因此，它在中央处理器 (CPU) 上的运行速度提高了 8 倍，在图形处理单元 (GPU) 上的运行速度提高了 2 倍（智能手机和 PC 中都有），以便在 LLM 生命周期的每个阶段快速筛选数据。

这两种 HAP 过滤模型的变体均可在 watsonx.ai 中找到。但为了继续鼓励值得信赖的 AI 生态系统，IBM 在 Hugging Face 上开源了这两个 HAP 过滤器。

单击阅读更多关于 IBM 开源 HAP 过滤器的信息

攻击跨度识别

为了在 HAP 过滤器中引入更大的粒度和语言多元性，IBM 研究人员开发了一种名为 MUTED 的 HAP 可视化工具，意为多语言定向演示 (MUltilingual Targeted Demonstration)。

超越句子级注释，MUTED 将句子分为“目标”和“攻击性跨度”（或攻击性论点）。例如，在句子“那些人是可怕的司机”中，目标是“那些人”，攻击性跨度是“可怕的司机”。MUTED 的想法是识别攻击性跨度，使用热图对其强度进行排序，然后如果它们被认为有害，则将其隐藏起来。¹

脚注

¹ “Muted：多语言定向攻击言论识别和可视化”，Association for Computational Linguistics，2023 年 12 月。

AI 监管缺口

《2025 年数据泄露成本报告》揭示了“即时可用”的 AI 技术正以超过安全与治理效能的速度迅速普及。

净化 AI：HAP 过滤有害内容

作者

最新的 AI 新闻 + 洞察分析