评估多种语言的人工智能生成结果
您可以使用 watsonx.governance 中的生成式人工智能质量监控器评估多种语言的生成式人工智能输出。 您可以在配置评估时选择要计算质量指标的语言。
进行多语言评估:
在运行时使用 API 或 SDK,请参阅运行时多语言支持笔记本。
在设计时使用 SDK 或自定义标记符,请参阅设计时多语言支持笔记本。
支持的语言
- 阿拉伯语 (ar)
- 丹麦语 (da)
- 英语 (en)
- 法语 (fr)
- 德语 (de)
- 意大利语 (it)
- 日语 (ja)
- 韩语 (ko)
- 葡萄牙语 (pt)
- 西班牙语 (es)
注意: 为获得最准确的结果,提示指令、输入数据和生成的输出结果应使用相同的语言。 如果使用不同的语言,仍然可以计算评价指标,但结果的可靠性可能会降低。
按任务类型支持的指标
- 汇总
- 红宝石得分
- 余弦相似性
- Jaccard 相似性
- 归一化精度
- 归一化召回率
- 归一化 F1 分数
- SARI
- METEOR
- HAP 评分
- PII 检测
- 代次
- 红宝石得分
- 归一化精度
- 归一化召回率
- 归一化 F1 分数
- METEOR
- HAP 评分
- PII 检测
- 抽取
- 精确匹配
- 红宝石得分
- 问题解答 (QA)
- 精确匹配
- 红宝石得分
- HAP 评分
- PII 检测
- 检索-增强生成(RAG)
- 红宝石得分
- 精确匹配
- HAP 评分
- PII 检测
从用户界面运行评估
- 创建项目:选择 New Asset 并在项目中创建一个新的 Prompt Template Asset ,然后选择 Chat 并使用 Prompt Lab 构建具有基础模型的提示。

- 创建并保存您的 " 提示模板资产"(Prompt Template Asset ),并将数据保存为您要评估提示的语言。 添加输入变量和输入示例。
- 下面是一个日本汽车保险的索赔摘要提示模板示例。


- 使用正确的任务类型保存提示模板资产。


- 您可以从页面上选择 " 评估 "按钮开始评估。 Prompt Lab 页面上选择 "评估 "按钮,即可开始评估。

- 选择要评估指标的语言,然后单击下一步。
- 选择语言后就不能更改了。 您必须为另一种语言创建新的提示模板资产。
- 不支持的指标无法在用户界面中进行评估。


- 上传所选语言的测试数据集,并选择列映射。 然后,选择 " 下一步 "进入 " 审查和评估 "部分,在这里您可以验证所选的语言。
注意: 语言字段仍可通过返回 "选择尺寸 "部分进行更改。

- 单击 " 评估 "可更准确地评估所选语言的选定指标。 评估完成后,您还可以在 " 模型摘要 "中看到所选语言。
