什么是 LLM 基准测试?

2024 年 6 月 25 日

作者

Cole Stryker

Editorial Lead, AI Models, Gather

什么是 LLM 基准测试?

LLM 基准测试是用于评估大型语言模型 (LLM) 性能的标准化框架。这些基准测试由样本数据、一组用于测试 LLM 特定技能的问题或任务、评估性能的指标和评分机制组成。

模型的基准测试基于模型的编码、常识和推理等能力。其他功能还包括自然语言处理,例如机器翻译、问题解答和文本摘要

LLM 基准测试在开发和强化模型的过程中起着至关重要的作用。基准测试展示了 LLM 在学习过程中的进展,通过量化措施来突出模型的优势和需要改进的领域。

这反过来又对微调过程进行了指导,帮助 LLM 研究人员和开发人员推动该领域的发展。LLM 基准测试还提供不同模型的客观比较,帮助软件开发人员和组织选择更适合其需求的模型。

LLM 基准测试的工作原理

LLM 基准测试的工作原理非常简单。它们提供 LLM 必须完成的任务,根据某个指标评估模型性能,并根据该指标得出分数。以下是每个步骤的详细工作原理:

设置

LLM 基准测试已经准备好样本数据 - 编码挑战、大型文档、数学问题、现实世界对话、科学问题。一系列任务也已准备就绪,包括常识推理、解决问题、回答问题、生成摘要和翻译。这些都会在测试开始时提供到模型中。

测试

基准测试运行时,会通过以下三种方法之一引入模型:

  • 少样本:在提示 LLM 执行任务之前,会为其提供少量示例,说明如何完成该任务。这将展示出模型在给定稀缺数据的情况下学习的能力。

  • 零样本:系统会提示 LLM 在事先未看过任何示例的情况下完成任务。这将揭示模型理解新概念和适应新场景的能力。

  • 微调:模型在类似于基准测试使用的数据集上进行训练。目标是提高 LLM 对与基准测试相关的任务的掌握,并优化其在该特定任务中的性能。

评分

测试完成后,LLM 基准测试会计算模型的输出与预期解决方案或标准答案的相似程度,然后生成 0 到 100 之间的分数。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

LLM 基准测试的关键指标

基准测试应用不同的指标来评估 LLM 的性能。以下是一些常见的风险和挑战:

  • 准确度或精确度可计算正确预测的百分比。
     

  • 召回率也称灵敏率,可量化真阳性(实际正确的预测)的数量。
     

  • F1 分数将准确性和召回率融为一个指标。它将这两种衡量标准视为同等权重,以平衡任何误报或假阴性。F1 分数范围为 0 到 1,其中 1 表示出色的召回率和精确度。
     

  • 完全匹配是 LLM 与预测完全匹配的比例,是翻译和问题解答的重要评价标准。
     

  • 复杂度可衡量模型的预测能力。LLM 的复杂度分数越低,它理解任务的能力就越好。
     

  • 双语评估辅助研究 (BLEU) 通过计算 LLM 的预测翻译和人工翻译之间匹配的 n 元语法(由 n 个相邻的文本符号组成的序列)来评估机器翻译。
     

  • 以回忆为导向的摘要评估 (ROUGE) 可对文本摘要进行评估,并有多种类型。例如,ROUGE-N 执行与 BLEU 类似的摘要计算,而 ROUGE-L 则计算预测摘要和人工生成摘要之间的最长公共子序列。

通常会将一个或多个量化指标结合起来,以进行更全面、更稳健的评估。

同时,人工评估涉及连贯性、相关性和语义等定性指标。由人工评估员对 LLM 进行审查和评分可以让评估更加细致入微,但这可能需要大量人力,主观且耗时。因此,需要平衡定量和定性指标。

AI 学院

为什么说基础模型是 AI 的范式转变

了解灵活、可重复使用的一类全新 AI 模型,这些模型可以带来新收入、降低成本并提高工作效率。还可以参阅我们的指南手册,深入了解这些模型。

LLM 基准测试的局限性

虽然基准测试是 LLM 性能的可靠指标,但它无法预测模型在现实世界中的运行情况。以下是 LLM 基准测试的一些限制因素:

评分局限性

一旦模型达到某个基准的最高分数,就需要更新该基准测试,以执行更困难的任务,使其成为有用的衡量标准。

广泛的数据集

由于 LLM 基准测试使用的样本数据主要来自广泛的主题和任务,因此它可能不适合边缘场景、专业领域或特定用例。

有限评估

LLM 基准测试只能测试模型当前的技能。但随着 LLM 的进步和新能力的出现,必须创建新的基准。

过拟合

如果使用与基准测试相同的数据集来训练 LLM,则可能会导致过拟合,即模型在测试数据上可能表现良好,但在真实数据上表现不佳。这会导致分数无法反映 LLM 的实际能力。

什么是 LLM 排行榜?

LLM 排行榜根据各种基准测试发布 LLM 排名。排行榜可提供一种跟踪无数 LLM 并比较其性能的方法。LLM 排行榜在决定使用哪些模型时很有帮助。

每个基准测试通常都有自己的排行榜,但也存在独立的 LLM 排行榜。例如,Hugging Face 有一系列的排行榜,其中一个是开放式 LLM 排行榜,根据 ARC、HellaSwag、MMLU、GSM8K、TruthfulQA 和 Winogrande 基准对多个开源模型进行排名。

常见的 LLM 基准测试

研究人员根据以下两个方面对 LLM 基准测试进行分类:1

  • 评估标准:LLM 评估指标可以是真实情况,也可以是人类偏好。真实情况是指认为真实的信息,而人类偏好是反映实际使用情况的选择。  

  • 问题来源:提示可以来自静态来源或实时来源。静态提示包含预定义的问题,而实时提示是在交互式环境中提出的问题。

基准可属于这些类别中的一个或多个。一些流行的基准测试的工作原理如下:

AI2 推理挑战 (ARC)

ARC 通过超过 7,000 道的一系列小学自然科学问题来衡量 LLM 的答题和推理能力。这些问题分为简单组和挑战组。计分方法很简单,模型每答对一个答案得 1 分,如果提供了多个答案且其中一个正确,则得 1/N 分。2

Chatbot Arena

Chatbot Arena 是一个开放式的基准测试平台,会让两个匿名聊天机器人相互竞争。用户在“竞技场”中与两个聊天机器人进行随机的真实对话,然后投票选出他们喜欢的聊天机器人,之后模型的标识就会显现出来。这些众包的成对比较数据被馈送到统计方法中,这些方法可估算分数,并为各种 LLM 创建近似排名。采样算法也用于模型配对。1

小学数学 8K (GSM8K)

GSM8K 可测试 LLM 的数学推理能力。它有一个包含 8,500 道小学数学单词问题的语料库。解决方案以自然语言的形式收集,而不是数学表达式。AI 验证者经过训练,可评估模型解决方案。3

HellaSwag

HellaSwag 是“针对对抗世代的情况下更艰难的结局、更长的背景和少样本活动”的英文缩写。该基准测试侧重常识推理和自然语言推断。模型的任务是通过从多种可能的结局中进行选择来完成句子。这些结局包括通过对抗筛选生成的错误答案,对抗筛选是一种生成真实但看似不正确的答案的算法。HellaSwag 可评估少样本和零样本类别的准确度。4

HumanEval

HumanEval 在代码生成,特别是功能正确性方面评估 LLM 的性能。模型获得需要解决的编程问题,并根据相应的单元测试通过情况进行评估。这类似于人类软件开发人员,他们根据特定的单元测试通过情况来测试他们的代码是否正确。HumanEval 基准测试使用自己的评估指标,名为 Pass@k,这是编码问题的 k 生成代码解决方案中至少有一个通过该问题单元测试的概率。5

大规模多任务语言理解 (MMLU)

MMLU 是评估 LLM 知识广度、其自然语言理解深度以及基于获得的知识解决问题的能力的基准。MMLU 的数据集包含 57 个主题的 15,000 多个一般知识多项选择题。评估仅在少样本和零样本设置中进行。MMLU 基准测试对模型在每个主题中的准确性进行评分,然后这些数字的平均值即为最终分数。6

Mostly Basic Programming Problems (MBPP)

MBPP 也称为 Mostly Basic Python Problems,是另一个代码生成基准测试。它的语料库包含超过 900 个编码任务。与 HumanEval 类似,它根据一组测试用例的通过情况来评估功能正确性。评估在少样本和微调设置中进行。MBPP 使用两个指标:模型中的任何样本解决问题的百分比,以及解决各自任务的样本的百分比。7

MT-Bench

Chatbot Arena 的研究人员还创建了 MT-Bench,旨在测试 LLM 参与对话和遵循指令的能力。其数据集由开放式多轮问题组成,八个领域各包含 10 个问题:编码、提取、knowledge I (STEM)、knowledge II(人文和社会科学)、数学、推理、角色扮演和写作。MT-Bench 使用 GPT-4 LLM 来评估其他 LLM 的响应。8

SWE-bench

和 HumanEval 一样,SWE-Bench 可测试 LLM 的代码生成技能,侧重问题解决。模型的任务是修复错误或在特定代码库中解决功能请求。该基准测试的评估指标是已解决的任务实例的百分比。9

TruthfulQA

大型语言模型容易产生幻觉,从而导致输出不准确。TruthfulQA 基准测试旨在通过衡量 LLM 生成问题真实答案的能力来解决这一问题。其数据集包含 38 个主题的 800 多个问题。TrustfulQA 将人类评估与根据 BLEU 和 ROUGE 指标进行微调的 GPT-3 LLM 相结合,以预测人类对信息性和真实性的评估。10

Winogrande

Winogrande 可评估 LLM 的常识推理功能。它以最初的 Winograd Schema Challenge (WSC) 基准测试为基础构建,拥有包含 44,000 个众包问题的庞大数据集,也采用对抗筛选功能。评分以准确率为基础。11

相关解决方案
基础模型

深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解人工智能解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

深入了解 IBM watsonx 产品组合中的 IBM 基础模型库,满怀信心地为您的业务扩展生成式 AI。

深入了解 watsonx.ai 深入了解人工智能解决方案
脚注

1Chatbot Arena:按人类偏好评估 LLM 的开放式平台》,arXiv,2024 年 3 月 7 日。

2觉得你已经解决了问题解答这个问题?试试 ARC,即 AI2 推理挑战》,arXiv,2018 年 3 月 14 日。

3训练验证者解决数学单词问题》,arXiv,2021 年 11 月 18 日。

4HellasWag:机器真的能完善你的句子吗?》,arXiv,2019 年 5 月 19 日。

5评估使用代码训练的大型语言模型》,arXiv,2021 年 7 月 14 日。

6衡量大规模多任务语言理解》,arXiv,2020 年 9 月 7 日。

7使用大型语言模型进行程序合成》,arXiv,2021 年 8 月 16 日。

8通过 MT-Bench 和 Chatbot Arena 评判“以大型语言模型为评判者》,arXiv,2023 年 6 月 9 日。

9SWE-bench:语言模型能否解决现实世界的 GitHub 问题?》,arXiv,2024 年 4 月 5 日。

10TruthfulQA:衡量模型模仿人类谎言的方式》,arXiv,2022 年 5 月 8 日。

11Wino Grande:大规模对抗性 Winograd Schema Challenge》,arXiv,2019 年 11 月 21 日。