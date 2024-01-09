生成式 AI 出现后，多家知名公司因内部敏感数据处理不当而限制对其的使用。据 CNN 报道，一些公司在寻求更好地理解该技术的同时，对生成式 AI 工具实施了内部禁令，并且许多公司也已禁止内部使用 ChatGPT。
企业在深入探究大型语言模型（LLM）时，仍常常甘愿承受使用内部数据的风险，因为这些上下文数据能够助力 LLM 从通用知识转变为特定领域知识。在生成式 AI 或传统 AI 开发周期中，数据摄取是起始环节。在此阶段，可依据企业要求收集原始数据，并对其进行预处理、脱敏及转换，使其成为适用于 LLM 或其他模型的格式。目前，尚无标准化流程可克服数据摄取面临的挑战，但模型的准确性有赖于这一流程。
数据摄取必须从一开始就正确完成，因为处理不当可能会引发一系列新问题。AI 模型中训练数据的基础工作犹如驾驶飞机。若起飞角度偏离一度，您可能会降落在一个与预期截然不同的全新大陆。
整个生成式 AI 流程都依赖于为其提供支持的数据管道，因此采取正确的预防措施至关重要。
IBM DataStage 通过整合多种工具简化数据集成流程，使您能够轻松在混合云环境中拉取、组织、转换和存储 AI 训练模型所需的数据。数据从业者，无论技能水平高低，均可通过无代码图形用户界面（GUI）使用该工具，或通过引导式自定义代码访问应用程序编程接口（API）。
全新的 DataStage as a Service Anywhere 远程运行时选项可提供灵活的数据转换运行方式。它使您能够从任何位置使用并行引擎，让您对其位置拥有前所未有的控制权。DataStage as a Service Anywhere 作为一款轻量级容器，能够支持企业在任意环境中运行全部数据转换功能。如此一来，在私有云中执行数据集成、清理和预处理操作时，便可规避因数据摄取不当而引发的诸多问题。借助 DataStage，您能够对安全性、数据质量及有效性实施全面管控，从而满足生成式 AI 计划的所有数据需求。
尽管生成式 AI 几乎能够实现任何目标，但模型所使用的数据存在限制——而这些数据可能起着决定性作用。
