大型语言模型的开源数据准备工具

男同事与女同事交谈,指向图表上的数据

开源大型语言模型 (LLM) 备受青睐,因为它们让任何人都能更轻松地修改和使用。但是,如果准备训练和调整模型所需的数据成本高昂且耗时,那么开源的优点就会丧失。

IBM 研究院生成式 AI 数据工程首席研究科学家 Petros Zerfos 表示:“AI 领域的每次对话都始于模型,而实际上终于数据。”Zerfos 表示,对于企业而言,这通常意味着 AI 团队在实际准备模型数据上花费的时间比在模型本身更多。

那么有何解决方案呢?一些大型科技公司正在开源数据准备工具。例如,IBM 的 Data Prep KitNVIDIA NeMo Curator 使各种规模的企业都能更轻松地训练和微调 LLM,从而更快速、更具成本效益地从 AI 应用中获取价值。

数据挑战

随着公司竞相开发和部署 LLM 和 AI 应用程序,最大的瓶颈之一是数据准备。事实上,在 Gartner 的 2023 年《探索以数据为中心的 AI 解决方案以精简 AI 开发》报告中,79% 的受调研企业 AI 团队表示,他们最常执行的战略任务是数据准备和生成。

数据准备通常发生在 LLM 开发的两个关键阶段。在预训练阶段,模型会使用数百 TB 的数据进行训练,从而使其能够理解普通英语,并获取足够的知识以掌握各领域的细微差别。根据 Zerfos 的说法,从头开始预训练模型需要数百人和数百万美元,因此只有非常大的公司或一些资金充足的初创公司才有资源这样做。

在数据准备的第二阶段,AI 团队使用较少量的目标数据来微调 LLM,使其能够生成更准确和相关的文本。一些资源充足的大型公司会同时进行这两个阶段,但大多数公司专注于数据准备,以微调他人已经构建好的模型。

开源数据准备工具

包括 IBM 和 NVIDIA 在内的几家公司最近开源了工具,以帮助开发人员应对非结构化数据准备这一艰巨任务。IBM 的 Data Prep 工具包是一个模块库,开发人员可以将其插入其管道,以便在预训练或微调阶段整理数据。这些模块可处理包含非结构化数据的源文档,如文本(例如 PDF)和代码 (HTML),并可用于注释、转换和过滤数据。

Zerfos 表示,IBM 团队开源这些工具是为了让各种规模的企业都能使用。“无论开发人员是在笔记本电脑、服务器还是在集群上运行,都不需要做任何特殊操作,”他说,“它还可以在任何云基础设施上运行。”

自 2024 年 5 月推出以来,开发人员一直在试用 Data Prep Kit 框架及其模块,这些资源可通过 GitHub 获取。Zerfos 表示,包含大小科技公司的社区 AI Alliance 的几个成员也已开始测试某些模块如何能够精简和加速训练与微调。

AI 硬件和软件巨头 NVIDIA 最近也开源了一系列数据准备模块,以提高生成式 AI 模型的准确性。NVIDIA NeMo Curator 可大规模处理文本、图像和视频数据。它还提供预构建的管道来生成合成数据,以定制和评估生成式 AI 系统。

NVIDIA 的 NeMo Curator 承诺加快的任务之一是去重。从 Common Crawl 等大型网络爬虫源下载数据时,模型通常会遇到彼此完全重复的文档和近似重复的文档。

该工具的开发人员表示,使用即将发布的 NeMo Curator 版本,组织将能够以比目前快 20 倍、成本低 5 倍的速度完成此去重任务。

可以肯定的是,开源这些工具使其可及性更广。然而,Gartner 杰出副总裁分析师 Mark A. Beyer 等专家提醒,Enterprise AI 团队仍然需要一定水平的技能和培训,才能从这些工具中创造价值。

“仅仅给某人一个工具,而不提供指导、方法和功能,这就开始变成一种实验,”他说,“与简单地利用现有工具相比,它可能需要四到五倍的时间。”

不过,展望未来,The Data Exchange 播客主持人 Ben Lorica 认为,随着公司越来越多地使用多模态数据,数据准备工具潜力巨大——即使这仍处于早期阶段。

“随着应用除了文本之外还依赖越来越多的视频和音频,您将需要某种工具,使您能够扩展和使用更大的数据集,并充分利用您拥有的任何硬件,”他说,“尤其是在智能体领域,数据将成为差异化因素。您希望在正确的时间访问正确的数据。”