在高等数学和科学研究等专业领域，确保可靠的 AI 自我评估更具挑战性。这意味着通常需要人类专家来验证结果，以确保 AI 系统的可靠性与正确方向。

”要实现这一点需要很多技巧，比如打乱多选题的答案顺序，“Varshney 说道。

QueryPal 创始人兼 CEO Dev Nag 表示，Meta 的 Self-Taught Evaluator 旨在放大并扩展人类判断力，而非将人类完全排除在循环之外。

”可以把它想象成类似于教师根据其对答案优劣的理解来编制练习题的过程，“Nag 说道，”正如 AlphaGo 在自我对弈前以围棋规则为基础一样，Self-Taught Evaluator 也是在人类建立的质量标准基础上，生成隐含嵌入人类判断的合成训练示例。“

Arrive AI 董事长兼首席执行官 Dan O'Toole 表示，即使是具备自我监控能力的 AI，定期审计也能发现隐藏的偏见或问题。

“采用多个 AI 模型独立执行相同评估，或将它们按序串联，可以减少错误并凸显潜在问题，”他说道。可解释性也至关重要。“思维链是实现透明度、增加可信度的重要一步。”

O'Toole 强调，对于高等数学和科学研究等领域，专业化的评估指标至关重要。他举例说，Meta 曾使用 MT-Bench 和 RewardBench 进行通用评估，但像 GSM8K 这样的基准测试更适合数学问题解决。CRUXEval 可辅助代码推理，而 FactKB、PubMed 和 SciBench 等特定领域基准测试则有助于确保模型满足特定需求。

Nag 强调，衡量性能并确保可靠性至关重要，尤其是在专业领域。他认为，最终的基准应该是结果与该领域人类专家评估的吻合程度。

“Self-Taught Evaluator 在 RewardBench 上与人类判断 88.7% 的一致性是一个强有力的基准，但追踪其他因素，如一致性、可解释性以及系统识别边缘案例的能力，也同样重要”，他说道，”正如 AlphaGo 的自我对弈通过其与人类冠军的对决表现得到验证一样，评估系统也应定期接受领域专家小组的测试。“

EisnerAmper 咨询与技术服务总监 Jen Clark 强调，AI 发展需要结构化框架，以确保安全与有效进步。

”随着 AI 不断进步，依靠那些支撑人类研究的方法论至关重要，例如科学方法、强大的社区和协作网络，“她说道，”集中精力于此，对于众包 AI 安全以及管理 AI 发展的速度和规模都至关重要。“