宏 F1 评分评估指标

宏观 F1 评分指标衡量的是每个级别单独计算的 F1 评分的平均值。

度量详细信息

Macro F1 score是一种多标签/多类生成式人工智能质量评估指标,用于衡量生成式人工智能资产在多标签/多类预测中的实体提取任务表现。

作用域

宏观指标 F1 仅评估生成式人工智能资产。

  • 人工智能资产的类型 :即时模板
  • 生成人工智能任务 :实体提取
  • 支持的语言 :英语

分数和数值

宏观指标 F1 得分表示每个级别单独计算的 F1 得分的平均值。 分数越高,表明预测越准确。

  • 价值范围 : 0.0-1.0
  • 最佳成绩 : 1.0

设置

  • 门槛:
    • 下限: 0.8
    • 上限:1