万维网促进了连接,加速了业务增长,并将几个世纪以来积累的知识放在了我们的指尖。
但尽管它有诸多优点,但也可能成为仇恨语言和有害内容的污水池。这个污水池又流入了更大的互联网数据海洋,海洋中的数据被用来训练当今的许多基础模型,例如大型语言模型 (LLM) 及其自然语言处理 (NLP) 功能。
这种攻击性语言的渗透威胁着这些人工智能 (AI) 模型的完整性和可用性。这是为什么?因为如果 LLM 在包含人类仇恨行为的数据集上进行训练,那么它们就可能产生有害的结果。更重要的是,这些有害内容还会在微调、通过检索增强生成 (RAG) 进行优化或当 LLM 与用户交互时进入 AI 模型。
过滤和删除攻击性内容对于确保 AI 模型的安全性、包容性和无偏倚至关重要,可以为用户提供积极体验。其中一种解决方案是由模型驱动的系统化仇恨、辱骂和亵渎内容 (HAP) 过滤,即 HAP 过滤。
HAP 过滤是一种使用分类模型来检测并删除 LLM 输入和输出文本中的仇恨言论、辱骂性语言和亵渎性词汇的系统。
仇恨言论、辱骂性语言和亵渎性内容可定义如下:
在实践中,HAP 过滤语句分类器会评估模型输入或输出文本中的每个单词,以确定其是否包含 HAP 内容。然后,它会分配一个分数来表示 HAP 内容存在的可能性,可能是从 0 到 1 的范围。在这种情况下,分数越接近 1,则表示含 HAP 内容的可能性越高。根据用户为 HAP 内容设置的阈值(如“得分大于 0.5 = HAP”),模型将为每个句子分配一个标签,标明该句子是否包含 HAP。
最后,如果 HAP 内容存在于预训练数据中,则可以将其标记并删除。或者,如果 HAP 内容是输出,则可以用护栏消息替换它,指示输出包含已被删除的有害文本。
根据 IBM® Research 的研究,HAP 过滤器目前有三个主要用例:
LLM 通常使用一系列数据源进行训练,其中一些数据源可能包含仇恨或不当内容。HAP 过滤可以帮助防止 LLM 从此类内容中学习。它通常发生在数据预处理期间,当仍有大量原始数据时。
HAP 模型可以帮助控制生成式 AI 模型输出,而无需重新训练原始模型。这种控制需要修改生成流程,以使用原始评分方法和 HAP 评分对模型预测进行评分,从而确保内容可接受、无仇恨。
与许多 AI 周边技术一样,HAP 过滤领域的创新发展迅速。IBM 研究人员确定了两种改进 HAP 过滤器的方法:通过更小的开源模型和攻击跨度识别工具。
在理想的情况下,HAP 过滤会发生在 LLM 生命周期的每个阶段。但是,这种应用程度需要速度,而当今大多数 HAP 过滤器由于体积庞大,都不具备这种速度。
这促使 IBM 推出更快、更新的 HAP 过滤器:Granite-Guardian-HAP-38m。这个 3800 万参数的编码器模型比其 1.25 亿参数的前身 (Granite-Guardian-HAP-125m) 要小。因此,它在中央处理器 (CPU) 上的运行速度提高了 8 倍,在图形处理单元 (GPU) 上的运行速度提高了 2 倍(智能手机和 PC 中都有),以便在 LLM 生命周期的每个阶段快速筛选数据。
这两种 HAP 过滤模型的变体均可在 watsonx.ai 中找到。但为了继续鼓励值得信赖的 AI 生态系统,IBM 在 Hugging Face 上开源了这两个 HAP 过滤器。
为了在 HAP 过滤器中引入更大的粒度和语言多元性,IBM 研究人员开发了一种名为 MUTED 的 HAP 可视化工具,意为多语言定向演示 (MUltilingual Targeted Demonstration)。
超越句子级注释,MUTED 将句子分为“目标”和“攻击性跨度”(或攻击性论点)。例如,在句子“那些人是可怕的司机”中,目标是“那些人”,攻击性跨度是“可怕的司机”。MUTED 的想法是识别攻击性跨度,使用热图对其强度进行排序,然后如果它们被认为有害,则将其隐藏起来。1
1 “Muted:多语言定向攻击言论识别和可视化”,Association for Computational Linguistics,2023 年 12 月。
我们推出第三代 AI语言模型现已推出。这些企业级模型适合特定用途并采用开源模式,可根据安全基准提供卓越的性能,且适用于多种企业任务,包括网络安全、RAG 等。
深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。
释放 AI 的全部潜力,了解人工智能治理如何能协助增强员工对 AI 的信心、加速其采用和创新,并提高客户信任度。