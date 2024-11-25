开源大型语言模型 (LLM) 备受青睐，因为它们让任何人都能更轻松地修改和使用。但是，如果准备训练和调整模型所需的数据成本高昂且耗时，那么开源的优点就会丧失。
IBM 研究院生成式 AI 数据工程首席研究科学家 Petros Zerfos 表示：“AI 领域的每次对话都始于模型，而实际上终于数据。”Zerfos 表示，对于企业而言，这通常意味着 AI 团队在实际准备模型数据上花费的时间比在模型本身更多。
那么有何解决方案呢？一些大型科技公司正在开源数据准备工具。例如，IBM 的 Data Prep Kit 和 NVIDIA NeMo Curator 使各种规模的企业都能更轻松地训练和微调 LLM，从而更快速、更具成本效益地从 AI 应用中获取价值。
随着公司竞相开发和部署 LLM 和 AI 应用程序，最大的瓶颈之一是数据准备。事实上，在 Gartner 的 2023 年《探索以数据为中心的 AI 解决方案以精简 AI 开发》报告中，79% 的受调研企业 AI 团队表示，他们最常执行的战略任务是数据准备和生成。
数据准备通常发生在 LLM 开发的两个关键阶段。在预训练阶段，模型会使用数百 TB 的数据进行训练，从而使其能够理解普通英语，并获取足够的知识以掌握各领域的细微差别。根据 Zerfos 的说法，从头开始预训练模型需要数百人和数百万美元，因此只有非常大的公司或一些资金充足的初创公司才有资源这样做。
在数据准备的第二阶段，AI 团队使用较少量的目标数据来微调 LLM，使其能够生成更准确和相关的文本。一些资源充足的大型公司会同时进行这两个阶段，但大多数公司专注于数据准备，以微调他人已经构建好的模型。
包括 IBM 和 NVIDIA 在内的几家公司最近开源了工具，以帮助开发人员应对非结构化数据准备这一艰巨任务。IBM 的 Data Prep 工具包是一个模块库，开发人员可以将其插入其管道，以便在预训练或微调阶段整理数据。这些模块可处理包含非结构化数据的源文档，如文本（例如 PDF）和代码 (HTML)，并可用于注释、转换和过滤数据。
Zerfos 表示，IBM 团队开源这些工具是为了让各种规模的企业都能使用。“无论开发人员是在笔记本电脑、服务器还是在集群上运行，都不需要做任何特殊操作，”他说，“它还可以在任何云基础设施上运行。”
自 2024 年 5 月推出以来，开发人员一直在试用 Data Prep Kit 框架及其模块，这些资源可通过 GitHub 获取。Zerfos 表示，包含大小科技公司的社区 AI Alliance 的几个成员也已开始测试某些模块如何能够精简和加速训练与微调。
AI 硬件和软件巨头 NVIDIA 最近也开源了一系列数据准备模块，以提高生成式 AI 模型的准确性。NVIDIA NeMo Curator 可大规模处理文本、图像和视频数据。它还提供预构建的管道来生成合成数据，以定制和评估生成式 AI 系统。
NVIDIA 的 NeMo Curator 承诺加快的任务之一是去重。从 Common Crawl 等大型网络爬虫源下载数据时，模型通常会遇到彼此完全重复的文档和近似重复的文档。
该工具的开发人员表示，使用即将发布的 NeMo Curator 版本，组织将能够以比目前快 20 倍、成本低 5 倍的速度完成此去重任务。
可以肯定的是，开源这些工具使其可及性更广。然而，Gartner 杰出副总裁分析师 Mark A. Beyer 等专家提醒，Enterprise AI 团队仍然需要一定水平的技能和培训，才能从这些工具中创造价值。
“仅仅给某人一个工具，而不提供指导、方法和功能，这就开始变成一种实验，”他说，“与简单地利用现有工具相比，它可能需要四到五倍的时间。”
不过，展望未来，The Data Exchange 播客主持人 Ben Lorica 认为，随着公司越来越多地使用多模态数据，数据准备工具潜力巨大——即使这仍处于早期阶段。
“随着应用除了文本之外还依赖越来越多的视频和音频，您将需要某种工具，使您能够扩展和使用更大的数据集，并充分利用您拥有的任何硬件，”他说，“尤其是在智能体领域，数据将成为差异化因素。您希望在正确的时间访问正确的数据。”