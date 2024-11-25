包括 IBM 和 NVIDIA 在内的几家公司最近开源了工具，以帮助开发人员应对非结构化数据准备这一艰巨任务。IBM 的 Data Prep 工具包是一个模块库，开发人员可以将其插入其管道，以便在预训练或微调阶段整理数据。这些模块可处理包含非结构化数据的源文档，如文本（例如 PDF）和代码 (HTML)，并可用于注释、转换和过滤数据。

Zerfos 表示，IBM 团队开源这些工具是为了让各种规模的企业都能使用。“无论开发人员是在笔记本电脑、服务器还是在集群上运行，都不需要做任何特殊操作，”他说，“它还可以在任何云基础设施上运行。”

自 2024 年 5 月推出以来，开发人员一直在试用 Data Prep Kit 框架及其模块，这些资源可通过 GitHub 获取。Zerfos 表示，包含大小科技公司的社区 AI Alliance 的几个成员也已开始测试某些模块如何能够精简和加速训练与微调。

AI 硬件和软件巨头 NVIDIA 最近也开源了一系列数据准备模块，以提高生成式 AI 模型的准确性。NVIDIA NeMo Curator 可大规模处理文本、图像和视频数据。它还提供预构建的管道来生成合成数据，以定制和评估生成式 AI 系统。

NVIDIA 的 NeMo Curator 承诺加快的任务之一是去重。从 Common Crawl 等大型网络爬虫源下载数据时，模型通常会遇到彼此完全重复的文档和近似重复的文档。

该工具的开发人员表示，使用即将发布的 NeMo Curator 版本，组织将能够以比目前快 20 倍、成本低 5 倍的速度完成此去重任务。

可以肯定的是，开源这些工具使其可及性更广。然而，Gartner 杰出副总裁分析师 Mark A. Beyer 等专家提醒，Enterprise AI 团队仍然需要一定水平的技能和培训，才能从这些工具中创造价值。

“仅仅给某人一个工具，而不提供指导、方法和功能，这就开始变成一种实验，”他说，“与简单地利用现有工具相比，它可能需要四到五倍的时间。”

不过，展望未来，The Data Exchange 播客主持人 Ben Lorica 认为，随着公司越来越多地使用多模态数据，数据准备工具潜力巨大——即使这仍处于早期阶段。

“随着应用除了文本之外还依赖越来越多的视频和音频，您将需要某种工具，使您能够扩展和使用更大的数据集，并充分利用您拥有的任何硬件，”他说，“尤其是在智能体领域，数据将成为差异化因素。您希望在正确的时间访问正确的数据。”