LLM 基准测试是用于评估大型语言模型 (LLM) 性能的标准化框架。这些基准测试由样本数据、一组用于测试 LLM 特定技能的问题或任务、评估性能的指标和评分机制组成。
LLM 基准测试的工作原理非常简单。它们提供 LLM 必须完成的任务,根据某个指标评估模型性能,并根据该指标得出分数。以下是每个步骤的详细工作原理:
LLM 基准测试已经准备好样本数据 - 编码挑战、大型文档、数学问题、现实世界对话、科学问题。一系列任务也已准备就绪,包括常识推理、解决问题、回答问题、生成摘要和翻译。这些都会在测试开始时提供到模型中。
测试完成后,LLM 基准测试会计算模型的输出与预期解决方案或标准答案的相似程度,然后生成 0 到 100 之间的分数。
基准测试应用不同的指标来评估 LLM 的性能。以下是一些常见的风险和挑战:
准确度或精确度可计算正确预测的百分比。
召回率也称灵敏率,可量化真阳性(实际正确的预测)的数量。
F1 分数将准确性和召回率融为一个指标。它将这两种衡量标准视为同等权重,以平衡任何误报或假阴性。F1 分数范围为 0 到 1,其中 1 表示出色的召回率和精确度。
完全匹配是 LLM 与预测完全匹配的比例,是翻译和问题解答的重要评价标准。
复杂度可衡量模型的预测能力。LLM 的复杂度分数越低,它理解任务的能力就越好。
双语评估辅助研究 (BLEU) 通过计算 LLM 的预测翻译和人工翻译之间匹配的 n 元语法(由 n 个相邻的文本符号组成的序列)来评估机器翻译。
以回忆为导向的摘要评估 (ROUGE) 可对文本摘要进行评估,并有多种类型。例如,ROUGE-N 执行与 BLEU 类似的摘要计算,而 ROUGE-L 则计算预测摘要和人工生成摘要之间的最长公共子序列。
通常会将一个或多个量化指标结合起来,以进行更全面、更稳健的评估。
同时,人工评估涉及连贯性、相关性和语义等定性指标。由人工评估员对 LLM 进行审查和评分可以让评估更加细致入微,但这可能需要大量人力,主观且耗时。因此,需要平衡定量和定性指标。
虽然基准测试是 LLM 性能的可靠指标,但它无法预测模型在现实世界中的运行情况。以下是 LLM 基准测试的一些限制因素:
一旦模型达到某个基准的最高分数,就需要更新该基准测试,以执行更困难的任务,使其成为有用的衡量标准。
由于 LLM 基准测试使用的样本数据主要来自广泛的主题和任务,因此它可能不适合边缘场景、专业领域或特定用例。
LLM 基准测试只能测试模型当前的技能。但随着 LLM 的进步和新能力的出现,必须创建新的基准。
如果使用与基准测试相同的数据集来训练 LLM,则可能会导致过拟合,即模型在测试数据上可能表现良好,但在真实数据上表现不佳。这会导致分数无法反映 LLM 的实际能力。
LLM 排行榜根据各种基准测试发布 LLM 排名。排行榜可提供一种跟踪无数 LLM 并比较其性能的方法。LLM 排行榜在决定使用哪些模型时很有帮助。
每个基准测试通常都有自己的排行榜,但也存在独立的 LLM 排行榜。例如,Hugging Face 有一系列的排行榜,其中一个是开放式 LLM 排行榜,根据 ARC、HellaSwag、MMLU、GSM8K、TruthfulQA 和 Winogrande 基准对多个开源模型进行排名。
研究人员根据以下两个方面对 LLM 基准测试进行分类:1
评估标准:LLM 评估指标可以是真实情况,也可以是人类偏好。真实情况是指认为真实的信息,而人类偏好是反映实际使用情况的选择。
问题来源:提示可以来自静态来源或实时来源。静态提示包含预定义的问题,而实时提示是在交互式环境中提出的问题。
基准可属于这些类别中的一个或多个。一些流行的基准测试的工作原理如下:
ARC 通过超过 7,000 道的一系列小学自然科学问题来衡量 LLM 的答题和推理能力。这些问题分为简单组和挑战组。计分方法很简单,模型每答对一个答案得 1 分,如果提供了多个答案且其中一个正确,则得 1/N 分。2
Chatbot Arena 是一个开放式的基准测试平台,会让两个匿名聊天机器人相互竞争。用户在“竞技场”中与两个聊天机器人进行随机的真实对话,然后投票选出他们喜欢的聊天机器人,之后模型的标识就会显现出来。这些众包的成对比较数据被馈送到统计方法中,这些方法可估算分数,并为各种 LLM 创建近似排名。采样算法也用于模型配对。1
GSM8K 可测试 LLM 的数学推理能力。它有一个包含 8,500 道小学数学单词问题的语料库。解决方案以自然语言的形式收集,而不是数学表达式。AI 验证者经过训练,可评估模型解决方案。3
HellaSwag 是“针对对抗世代的情况下更艰难的结局、更长的背景和少样本活动”的英文缩写。该基准测试侧重常识推理和自然语言推断。模型的任务是通过从多种可能的结局中进行选择来完成句子。这些结局包括通过对抗筛选生成的错误答案,对抗筛选是一种生成真实但看似不正确的答案的算法。HellaSwag 可评估少样本和零样本类别的准确度。4
HumanEval 在代码生成,特别是功能正确性方面评估 LLM 的性能。模型获得需要解决的编程问题,并根据相应的单元测试通过情况进行评估。这类似于人类软件开发人员,他们根据特定的单元测试通过情况来测试他们的代码是否正确。HumanEval 基准测试使用自己的评估指标,名为 Pass@k,这是编码问题的 k 生成代码解决方案中至少有一个通过该问题单元测试的概率。5
MMLU 是评估 LLM 知识广度、其自然语言理解深度以及基于获得的知识解决问题的能力的基准。MMLU 的数据集包含 57 个主题的 15,000 多个一般知识多项选择题。评估仅在少样本和零样本设置中进行。MMLU 基准测试对模型在每个主题中的准确性进行评分,然后这些数字的平均值即为最终分数。6
MBPP 也称为 Mostly Basic Python Problems,是另一个代码生成基准测试。它的语料库包含超过 900 个编码任务。与 HumanEval 类似,它根据一组测试用例的通过情况来评估功能正确性。评估在少样本和微调设置中进行。MBPP 使用两个指标:模型中的任何样本解决问题的百分比,以及解决各自任务的样本的百分比。7
Chatbot Arena 的研究人员还创建了 MT-Bench,旨在测试 LLM 参与对话和遵循指令的能力。其数据集由开放式多轮问题组成,八个领域各包含 10 个问题:编码、提取、knowledge I (STEM)、knowledge II(人文和社会科学)、数学、推理、角色扮演和写作。MT-Bench 使用 GPT-4 LLM 来评估其他 LLM 的响应。8
和 HumanEval 一样,SWE-Bench 可测试 LLM 的代码生成技能,侧重问题解决。模型的任务是修复错误或在特定代码库中解决功能请求。该基准测试的评估指标是已解决的任务实例的百分比。9
大型语言模型容易产生幻觉,从而导致输出不准确。TruthfulQA 基准测试旨在通过衡量 LLM 生成问题真实答案的能力来解决这一问题。其数据集包含 38 个主题的 800 多个问题。TrustfulQA 将人类评估与根据 BLEU 和 ROUGE 指标进行微调的 GPT-3 LLM 相结合,以预测人类对信息性和真实性的评估。10
Winogrande 可评估 LLM 的常识推理功能。它以最初的 Winograd Schema Challenge (WSC) 基准测试为基础构建,拥有包含 44,000 个众包问题的庞大数据集,也采用对抗筛选功能。评分以准确率为基础。11
了解 IBM® Granite™,我们的开放式、性能出色和值得信赖的 AI 模型系列,专门为企业量身定制,并经过优化,可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和防护措施选项。
了解如何为您的用例选择最合适的 AI 基础模型。
深入阅读 IBM 开发人员文章、博客和教程,加深您对 LLM 的了解。
了解如何使用最新的 AI 技术和基础架构,不断推动团队提高模型性能并超越竞争对手。
深入了解企业级基础模型的价值, 利用这种模型可信、高性能且经济高效的特点, 为所有行业服务。
了解如何将生成式 AI、机器学习和基础模型整合到您的业务运营中,以提高绩效。
了解我们对 2,000 家组织进行的关于他们的 AI 计划的调研,以发现哪些方法有效、哪些方法无效,以及如何才能取得领先。
1《Chatbot Arena:按人类偏好评估 LLM 的开放式平台》,arXiv,2024 年 3 月 7 日。
2《觉得你已经解决了问题解答这个问题?试试 ARC,即 AI2 推理挑战》,arXiv,2018 年 3 月 14 日。
3《训练验证者解决数学单词问题》,arXiv,2021 年 11 月 18 日。
4《HellasWag:机器真的能完善你的句子吗?》,arXiv,2019 年 5 月 19 日。
5《评估使用代码训练的大型语言模型》,arXiv,2021 年 7 月 14 日。
6《衡量大规模多任务语言理解》,arXiv,2020 年 9 月 7 日。
7《使用大型语言模型进行程序合成》,arXiv,2021 年 8 月 16 日。
8《通过 MT-Bench 和 Chatbot Arena 评判“以大型语言模型为评判者》,arXiv,2023 年 6 月 9 日。
9《SWE-bench:语言模型能否解决现实世界的 GitHub 问题?》,arXiv,2024 年 4 月 5 日。
10《TruthfulQA:衡量模型模仿人类谎言的方式》,arXiv,2022 年 5 月 8 日。
11《Wino Grande:大规模对抗性 Winograd Schema Challenge》,arXiv,2019 年 11 月 21 日。