从模型输入和输出中除去有害语言

AI 护栏从基础模型输出和输入中移除潜在的有害内容,例如仇恨言论,虐待和脏话。

Prompt Lab 中的AI护栏功能由AI提供支持,它对基础模型输入和输出文本进行分类。 句子分类器也被称为仇恨、辱骂和亵渎(HAP)检测器HAP过滤器 ,它是由 IBM Research构建的Slate系列纯编码器NLP模型的大型语言模型微调而来。

分类器将模型输入和输出文本分解为句子,然后复审每个句子以查找和标记有害内容。 分类器评估每个词,词之间的关系以及句子的上下文,以确定句子是否包含有害语言。 然后,分类器会分配一个表示存在不当内容的可能性的分数。

Prompt Lab 中的人工智能(AI)护栏可检测并标记以下几种语言:

  • 仇恨言论: 基于种族,宗教,族裔,性取向,残疾或性别等属性表达对个人或群体的仇恨。 仇恨言论显示出伤害,羞辱或侮辱一个群体的成员或促进暴力或社会乱象的意图。

  • Abusive language: 旨在欺负,贬低或贬低某人或某事的鲁德或伤人的语言。

  • 脏话: 有毒的词,例如,呼词,侮辱或性明确的语言。

当您推断自然语言基础模型时,支持 AI 护栏功能,并且只能检测英语文本中的有害内容。 AI 护栏不适用于程序语言基础模型。

从输入和输出中删除有害语言 Prompt Lab

当您使用 Prompt Lab 中的基础模型时,若要删除有害内容,请将人工智能防护栏切换开关设置为“开启 ”。

针对所有自然语言基础模型的英语自动启用 AI 护栏功能。

启用该功能后,当您单击 生成时,过滤器将检查所有模型输入和输出文本。 通过以下方式处理不适当的文本:

  • 标记为不当的输入文本不会提交到基础模型。 将显示以下消息,而不是显示模型输出:

    [The input was rejected as inappropriate]

  • 标记为不当的模型输出文本将替换为以下消息:

    [Potentially harmful text removed]

从输入和输出中删除个人身份信息 Prompt Lab

您可以应用PII过滤器来标记可能包含个人身份信息的内容。

PII 过滤器使用自然语言处理人工智能模型来识别和标记提及的个人身份信息 (PII) 信息,如电话号码和电子邮件地址。

有关标记的实体类型的完整列表,请参阅 基于规则的一般实体提取

要启用PII过滤器,请完成以下步骤:

  1. 从 Prompt Lab ,将人工智能护栏切换开关设置为 “开启 ”。

  2. 点击 AI护栏设置图标 人工智能护栏设置图标

  3. 在输入和输出部分,将 PII切换器设置为“开启” 以启用PII滤波器。

PII滤波器阈值设置为 0.8 ,无法更改。

配置人工智能防护栏

您可以控制是否应用仇恨、辱骂和亵渎 (HAP) 过滤器,并可单独更改用户输入和基础模型输出的 HAP 过滤器灵敏度。 您无法更改PII滤波器的灵敏度。

要配置人工智能护栏,请完成以下步骤:

  1. 启用人工智能防撞栏后,点击人工智能防撞栏设置图标 人工智能护栏设置图标

  2. 要禁用仅用于用户输入或基础模型输出的人工智能防护栏,请将用户输入或模型输出的 HAP 滑块设置为 "1

  3. 要更改护栏的灵敏度,请移动 HAP 滑块。

    滑块值表示 HAP 分类器的评分必须达到一定的阈值,内容才会被视为有害。 分数阈值范围从 "0.0到 "1.0。

    较低的值,如 "0.1或 "0.2,更安全,因为阈值更低。 当较低的分数可以触发过滤器时,有害内容更容易被识别。 不过,当内容安全时,分类器也可能被触发。

    接近 1 的值,如 "0.8或 "0.9,风险更大,因为分数阈值更高。 如果需要更高的分数才能触发过滤器,则可能会漏掉有害内容。 不过,被标记为有害的内容更有可能是有害的。

    尝试调整滑块,找到最适合自己的设置。

  4. 单击保存

方案备选方案

使用 API 提示基础模型时,可以使用 moderations 字段将过滤器应用于基础模型输入和输出。 有关更多信息,请参阅 watsonx.ai API 参考。 有关如何使用 Python 库调整过滤器的更多信息,请参阅 以编程方式初始化基础模型

了解更多

Parent topic: Prompt Lab