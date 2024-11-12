AI 模型正越来越多地被要求进行自我评估，这引发了一个关键问题：谁来监督监督者？
AI 公司正在开发用于评估其他 AI 系统的模型，这标志着从传统以人为中心的评估方法发生了转变。例如，Meta 的新模型无需人工介入即可评估 AI 性能。这引发了研究人员对自动化测试的准确性与局限性的热烈讨论。
Self-Taught Evaluator 利用 AI 生成的训练数据和思维链技术，来评估科学、编程和数学问题的回答。目标是实现透明度，但这伴随着风险。“这是一个大问题——如何验证验证者本身，”IBM 院士 Kush Varshney 表示。AI 自我评估有望提高效率，但也蕴含着重大风险。Varshney 及其在 IBM 的团队正在为 LLM 即评判者模型——即能够评估其他 AI 输出的 LLM——开发评估指标。然而，正如 Varshney 所言，“这很大程度上仍是一个开放的研究难题。”
核心关切在于，我们能否信任 AI 模型进行自我改进，抑或其是否会放大自身错误的风险。
“想象一下将麦克风靠近扬声器的情景，”Varshney 说道，“在任何反馈系统中，错误或噪音都会被放大。”
Meta 的 Self-Taught Evaluator 尝试通过提供推理路径来缓解这些风险，其方式类似于人类解释自己的思维过程。但是，依赖合成数据与自我改进引发了一个问题：模型的判断是否公正无偏？当 AI 系统的输出反映出不公平或有失偏颇的假设时，便产生了偏见，这通常是数据或算法存在偏见的结果。
“我们的目标是确保 LLM 评判的公正性，因此我们需要评估其偏见，”Varshney 说。方法之一是打乱多选题的答案顺序，以判断模型是否表现出位置偏见，即偏爱某个固定位置的答案。除了冗长性偏见和自我增强偏见，位置偏见也可能会扭曲评估结果。Varshney 表示：“管理这些风险是 AI 发展的一部分。”负责任的 AI 进步需要识别和缓解偏见。
在高等数学和科学研究等专业领域，确保可靠的 AI 自我评估更具挑战性。这意味着通常需要人类专家来验证结果，以确保 AI 系统的可靠性与正确方向。
”要实现这一点需要很多技巧，比如打乱多选题的答案顺序，“Varshney 说道。
QueryPal 创始人兼 CEO Dev Nag 表示，Meta 的 Self-Taught Evaluator 旨在放大并扩展人类判断力，而非将人类完全排除在循环之外。
”可以把它想象成类似于教师根据其对答案优劣的理解来编制练习题的过程，“Nag 说道，”正如 AlphaGo 在自我对弈前以围棋规则为基础一样，Self-Taught Evaluator 也是在人类建立的质量标准基础上，生成隐含嵌入人类判断的合成训练示例。“
Arrive AI 董事长兼首席执行官 Dan O'Toole 表示，即使是具备自我监控能力的 AI，定期审计也能发现隐藏的偏见或问题。
“采用多个 AI 模型独立执行相同评估，或将它们按序串联，可以减少错误并凸显潜在问题，”他说道。可解释性也至关重要。“思维链是实现透明度、增加可信度的重要一步。”
O'Toole 强调，对于高等数学和科学研究等领域，专业化的评估指标至关重要。他举例说，Meta 曾使用 MT-Bench 和 RewardBench 进行通用评估，但像 GSM8K 这样的基准测试更适合数学问题解决。CRUXEval 可辅助代码推理，而 FactKB、PubMed 和 SciBench 等特定领域基准测试则有助于确保模型满足特定需求。
Nag 强调，衡量性能并确保可靠性至关重要，尤其是在专业领域。他认为，最终的基准应该是结果与该领域人类专家评估的吻合程度。
“Self-Taught Evaluator 在 RewardBench 上与人类判断 88.7% 的一致性是一个强有力的基准，但追踪其他因素，如一致性、可解释性以及系统识别边缘案例的能力，也同样重要”，他说道，”正如 AlphaGo 的自我对弈通过其与人类冠军的对决表现得到验证一样，评估系统也应定期接受领域专家小组的测试。“
EisnerAmper 咨询与技术服务总监 Jen Clark 强调，AI 发展需要结构化框架，以确保安全与有效进步。
”随着 AI 不断进步，依靠那些支撑人类研究的方法论至关重要，例如科学方法、强大的社区和协作网络，“她说道，”集中精力于此，对于众包 AI 安全以及管理 AI 发展的速度和规模都至关重要。“
