宏 F1 评分评估指标
宏观 F1 评分指标衡量的是每个级别单独计算的 F1 评分的平均值。
度量详细信息
Macro F1 score是一种多标签/多类生成式人工智能质量评估指标,用于衡量生成式人工智能资产在多标签/多类预测中的实体提取任务表现。
作用域
宏观指标 F1 仅评估生成式人工智能资产。
- 人工智能资产的类型 :即时模板
- 生成人工智能任务 :实体提取
- 支持的语言 :英语
分数和数值
宏观指标 F1 得分表示每个级别单独计算的 F1 得分的平均值。 分数越高,表明预测越准确。
- 价值范围 : 0.0-1.0
- 最佳成绩 : 1.0
设置
- 门槛:
- 下限: 0.8
- 上限:1