LLM 评估:为什么测试 AI 模型很重要

两个人若有所思地看着电脑显示器

作者

Amanda McGrath

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

想象一下,一家公司雇用了一批新员工。他们的履历非常出色,能够快速、高效地完成所有任务。从技术上讲,他们正在完成工作,但他们做得好吗?他们的工作是否高质量、准确且可靠?

正如对待任何新员工那样,经理会花一些时间审查他们的工作,以确保他们符合公司标准并表现得当。随着人工智能 (AI) 在业务产出和决策中发挥越来越大的作用,公司也需要对 LLM 采取同样的做法。

大型语言模型 (LLM) 是指在大量数据上进行训练的基础模型,用于与理解和生成文本相关的任务。例如,这类 AI 系统特别适用于内容创建、汇总情感分析等工作。

LLM 彻底改变了自然语言处理 (NLP) 领域,并以全新的方式让生成式 AI 引起了公众的注意。OpenAI 的 Chat GPT-3 和 GPT-4 以及 Meta 的 Llama 是最著名的例子,但各种各样的 LLM 已应用于众多领域。LLM 为聊天机器人虚拟助理、语言翻译工具和代码生成系统等 AI 工具提供助力。

随着 LLM 应用程序被更广泛地采用,特别是用于医疗保健金融等高风险行业,对它们的输出进行测试变得越来越重要。这正是 LLM 评估的意义所在。

什么是 LLM 评估?

LLM 评估是指评估大型语言模型的性能和功能的过程。这种评估有时简称为“LLM eval”,需要在各种任务、数据集和指标中测试这些模型,以衡量它们的有效性。

评估方法可以使用自动化基准和人工评估来发现 LLM 的优势和劣势。这一过程涉及将模型的输出与真实数据(被视为真实的信息)或人为生成的响应进行比较,以确定模型的准确性、一致性和可靠性。LLM 评估的结果可以帮助研究人员和开发人员确定需要改进的方面。评估过程也是大型语言模型运营 (LLMops) 的核心组成部分,涉及 LLM 的运营管理。

为什么 LLM 评估很重要?

由于 LLM 在日常生活中发挥着更大的作用,因此对它们进行评估有助于确保它们正常运转。除了技术需求之外,LLM 评估还有助于赢得用户和利益相关者的信任。

LLM 评估有助于:

  • 性能建模
  • 伦理考量
  • 比较基准测试
  • 新模型开发
  • 赢得用户和利益相关者的信任

性能建模

LLM 评估可以展示模型是否正常运转,以及是否在它的任务和领域生成高质量的输出。除了基本功能以外,评估还可以揭示语言理解的细微差别、生成质量以及特定于任务的能力。它还可以找到潜在的弱点,例如知识差距或推理不一致,这样就使研究人员和开发人员能够更好地确定改进目标。

伦理考量

在开发过程中,LLM 会受到人类偏见的影响,尤其是通过训练数据产生的偏见。评估是识别和缓解模型响应中的潜在偏见或不准确性的一种方法。关注 AI 伦理有助于防止技术方面长期存在的社会不平等现象,并支持事实结果。

比较基准测试

LLM 评估允许人们比较不同模型的性能,并选择最适合他们的具体用例的模型。它提供了一种标准化的方法,以比较原始性能指标的结果与计算效率和可扩展性等因素。

新模型开发

从 LLM 评估中获得的洞察可以指导新模型的开发。它可以帮助研究人员找到创建新的训练技术、模型设计或特定的能力。

赢得用户和利益相关者的信任

LLM 评估支持开发透明度和建立对输出的信心。因此,它可以帮助组织设定切合实际的期望以及培养对 AI 工具的信心。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,提供有关 AI、云等的专家精选的洞察分析和新闻。

LLM 模型评估与 LLM 系统评估

虽然密切相关,但 LLM 评估与 LLM 系统评估具有不同的侧重点。

LLM 评估(也可以称为 LLM 模型评估)评估模型的性能。它着眼于核心语言模型本身,侧重于它跨各种任务和领域理解和生成文本的能力。模型评估通常涉及测试模型的原始能力。这些功能包括对语言的理解、它生成的结果的质量以及特定于任务的性能。

LLM 系统评估更加全面,并提供对 LLM 驱动的应用程序的端到端性能的洞察。系统评估着眼于围绕 LLM 建立的整个生态系统。这项工作包括可扩展性、安全性以及与其他组件(例如 API 或数据库)的集成。

简而言之,模型评估侧重于确保 LLM 适用于特定任务,而系统评估更全面地了解它的整体使用情况和有效性。这两者对于开发强大且有效的 LLM 应用程序都至关重要。

LLM 评估指标

LLM 评估的第一步是根据模型的预期用途定义整体评估标准。用于评估的指标有很多,一些最常见的指标包括:

  • 准确性
  • 召回率
  • F1 分数
  • 连贯性
  • 复杂度
  • BLEU
  • ROUGE
  • 等待时间
  • 毒性

准确性

计算分类或回答解答等任务中的正确响应的百分比。

召回率

测量 LLM 响应中的真阳性或正确预测与假阳性的实际数量。

F1 分数

将准确率和召回率融合成一个指标。F1 分数范围为 0–1,其中 1 表示出色的召回率和精确度。

连贯性

评估生成的文本的逻辑流程和一致性。

复杂度

衡量模型对一组词语或一个文本样本的预测效果。模型预测正确结果的一致性越高,它的复杂度分数就越低。

BLEU(双语评估基础研究)

评估机器生成的文本的质量,尤其是在翻译任务中。

ROUGE(以回忆为导向的摘要评估基础研究)

将文本摘要与人工创建的摘要进行比较,以评估文本摘要的质量。

等待时间

测量模型的效率和整体速度。

毒性

衡量模型输出中是否存在有害或攻击性的内容。

应用 LLM 评估框架和基准

LLM 评估人员会建立明确的评估标准,然后选择一个评估框架,此框架可提供一种全面的方法来评估模型的性能。例如,IBM 的基础模型评估框架 (FM-eval) 用于以系统性、可重复、一致的方式验证和评估新的 LLM。

评估框架内包含 LLM 基准,它们是一些用于分析结果和指导评估过程的标准化数据集或任务。框架定义了如何评估 LLM,而基准定义了要评估的内容,也就是具体的任务和数据。

LLM 基准由样本数据集、任务和提示模板组成,用于测试 LLM 的特定技能,例如问题解答、机器翻译、汇总和情感分析。它们还包括性能评估指标和评分机制。它们的评估标准可以基于事实或人类偏好。

通过根据这些基准评估 LLM,开发人员可以比较不同模型的性能并随着时间的推移跟踪进度。广泛使用的 LLM 基准的一些示例包括:

  • MMLU(大规模多任务语言理解)数据集,由一组跨多个领域的多项选择题组成。
  • HumanEval,评估 LLM 在代码生成方面的性能,尤其是功能正确性。
  • TruthfulQA,衡量 LLM 为问题生成真实答案的能力,以解决幻觉问题。
  • 通用语言理解评估 (GLUE)SuperGLUE,用于测试自然语言处理 (NLP) 模型的性能,尤其是为语言理解任务而设计的那些模型。
  • Hugging Face 数据集库,提供对众多评估数据集的开源访问。

通过零样本少样本微调测试将所选的基准引入到 LLM 中,以查看模型的运行情况。通过少样本测试,在 LLM 收到少量演示如何完成任务的标记示例之后,评估它利用有限数据的执行能力。零样本测试要求 LLM 在没有任何示例的情况下完成任务,以测试它如何适应新环境。而微调基于与基准类似的数据集对模型进行训练,以提高 LLM 对特定任务的掌握能力。

LLM 评估结果可用于调整参数、微调甚至使用新的数据进行重新训练,以完善和迭代模型。

LLM 即评判者和人机回圈

当评估模型输出时,开发人员和研究人员使用两种方法:LLM 即评判者和人机回圈评估。

在“LLM 即评判者”评估中,LLM 本身用于评估它自身的输出的质量。例如,这可能包括将模型生成的文本与真实数据集进行比较,或者使用复杂度或 F1 等指标来衡量结果。

对于人机回圈方法,人工评估员会衡量 LLM 输出的质量。这种评估对于更细致的评估可能很有用,例如连贯性、相关性和用户体验,这些评估很难只通过自动化指标来捕获。

LLM 评估用例

LLM 评估具有很多实际用例。其中部分示例包括:

评估问题解答系统的准确性

检索增强生成 (RAG) 中,LLM 评估可以帮助测试模型生成的响应的质量。研究人员可以使用 SQuAD(斯坦福问题解答数据集)或 TruthfulQA 等数据集,将模型的响应与真实答案进行比较,以检查 LLM 驱动的问题解答系统的准确性。

评估生成的文本的流畅性和连贯性

使用 BLEU 等指标以及人工评估,研究人员可以测试聊天机器人或机器翻译系统提供的文本响应的质量。这样有助于确保生成的文本流畅、连贯且适合上下文。

检测偏差和毒性

通过使用专用的数据集和指标,研究人员可以评估 LLM 生成的文本中是否存在偏差和毒性内容。例如,ToxiGen 数据集可用于评估模型输出的毒性,这样可能会导致应用程序更加安全、更具包容性。

比较不同 LLM 的性能

研究人员可以使用 GLUE 或 SuperGLUE 等基准数据集来比较不同 LLM 在各种 NLP 任务(例如情感分析或命名实体识别)中的性能。

在这些用例和其他用例中,LLM 评估可以为企业提供重要的优势。通过确定需要改进的方面和解决弱点的机会,LLM 评估可以提供更好的用户体验、更少的风险和潜在的竞争优势。

LLM 评估的挑战

尽管具有诸多优势,但 LLM 评估也面临着一些挑战和局限性。LLM 开发工作取得的快速进展导致很难建立标准化、长期的基准。评估情境理解具有挑战性,检测偏见差细微差别也并非易事。

可解释性也是一个问题:LLMs 通常被视为“黑匣”,因此很难为了评估目的解释它们的决策过程以及确定影响它们的输出的因素。

此外,很多评估数据集不能代表各种语言或文化。因此,使用这些数据集测试的模型可能对特定的基准表现良好,但在现实场景中却表现不佳。

随着 LLM 和其他的复杂机器学习应用程序继续以新的方式开发和应用,克服这些挑战以确保可靠的评估将在帮助评估人员和开发人员提高 LLM 的有效性、安全性和合乎道德的使用方面发挥重要的作用。

资源

什么是 AI 治理?
相关主题
什么是 AI 风险管理?
博客
什么是人工智能伦理?
相关主题
LLMOps 是什么?
相关主题

采取后续步骤

在生成式模型和机器学习模型的整个生命周期中,加速负责任、透明且可解释的 AI 工作流。指导、管理和监控您组织的 AI 活动,以便更好地管理不断增长的 AI 法规,并检测和减轻风险。

深入了解 watsonx.governance 预约实时演示