从模型输入和输出中除去有害语言

AI 护栏从基础模型输出和输入中移除潜在的有害内容，例如仇恨言论，虐待和脏话。

Prompt Lab 中的AI护栏功能由AI提供支持，它对基础模型输入和输出文本进行分类。句子分类器也被称为仇恨、辱骂和亵渎（HAP）检测器或 HAP过滤器 ，它是由 IBM Research构建的Slate系列纯编码器NLP模型的大型语言模型微调而来。

分类器将模型输入和输出文本分解为句子，然后复审每个句子以查找和标记有害内容。分类器评估每个词，词之间的关系以及句子的上下文，以确定句子是否包含有害语言。然后，分类器会分配一个表示存在不当内容的可能性的分数。

Prompt Lab 中的人工智能（AI）护栏可检测并标记以下几种语言：

仇恨言论: 基于种族，宗教，族裔，性取向，残疾或性别等属性表达对个人或群体的仇恨。仇恨言论显示出伤害，羞辱或侮辱一个群体的成员或促进暴力或社会乱象的意图。
Abusive language: 旨在欺负，贬低或贬低某人或某事的鲁德或伤人的语言。
脏话: 有毒的词，例如，呼词，侮辱或性明确的语言。

当您推断自然语言基础模型时，支持 AI 护栏功能，并且只能检测英语文本中的有害内容。 AI 护栏不适用于程序语言基础模型。

从输入和输出中删除有害语言 Prompt Lab

当您使用 Prompt Lab 中的基础模型时，若要删除有害内容，请将人工智能防护栏切换开关设置为“开启 ”。

针对所有自然语言基础模型的英语自动启用 AI 护栏功能。

启用该功能后，当您单击生成时，过滤器将检查所有模型输入和输出文本。通过以下方式处理不适当的文本:

标记为不当的输入文本不会提交到基础模型。将显示以下消息，而不是显示模型输出:

[The input was rejected as inappropriate]
标记为不当的模型输出文本将替换为以下消息:

[Potentially harmful text removed]

您可以应用PII过滤器来标记可能包含个人身份信息的内容。

PII 过滤器使用自然语言处理人工智能模型来识别和标记提及的个人身份信息 (PII) 信息，如电话号码和电子邮件地址。

有关标记的实体类型的完整列表，请参阅基于规则的一般实体提取。

要启用PII过滤器，请完成以下步骤：

PII滤波器阈值设置为 0.8 ，无法更改。

您可以控制是否应用仇恨、辱骂和亵渎 (HAP) 过滤器，并可单独更改用户输入和基础模型输出的 HAP 过滤器灵敏度。您无法更改PII滤波器的灵敏度。

要配置人工智能护栏，请完成以下步骤：

使用 API 提示基础模型时，可以使用 moderations 字段将过滤器应用于基础模型输入和输出。有关更多信息，请参阅 watsonx.ai API 参考。有关如何使用 Python 库调整过滤器的更多信息，请参阅以编程方式初始化基础模型。

Parent topic: Prompt Lab