生成式 AI 出现后,多家知名公司因内部敏感数据处理不当而限制对其的使用。据 CNN 报道,一些公司在寻求更好地理解该技术的同时,对生成式 AI 工具实施了内部禁令,并且许多公司也已禁止内部使用 ChatGPT。
企业在深入探究大型语言模型(LLM)时,仍常常甘愿承受使用内部数据的风险,因为这些上下文数据能够助力 LLM 从通用知识转变为特定领域知识。在生成式 AI 或传统 AI 开发周期中,数据摄取是起始环节。在此阶段,可依据企业要求收集原始数据,并对其进行预处理、脱敏及转换,使其成为适用于 LLM 或其他模型的格式。目前,尚无标准化流程可克服数据摄取面临的挑战,但模型的准确性有赖于这一流程。
数据摄取必须从一开始就正确完成,因为处理不当可能会引发一系列新问题。AI 模型中训练数据的基础工作犹如驾驶飞机。若起飞角度偏离一度,您可能会降落在一个与预期截然不同的全新大陆。
整个生成式 AI 流程都依赖于为其提供支持的数据管道,因此采取正确的预防措施至关重要。
IBM DataStage 通过整合多种工具简化数据集成流程,使您能够轻松在混合云环境中拉取、组织、转换和存储 AI 训练模型所需的数据。数据从业者,无论技能水平高低,均可通过无代码图形用户界面(GUI)使用该工具,或通过引导式自定义代码访问应用程序编程接口(API)。
全新的 DataStage as a Service Anywhere 远程运行时选项可提供灵活的数据转换运行方式。它使您能够从任何位置使用并行引擎,让您对其位置拥有前所未有的控制权。DataStage as a Service Anywhere 作为一款轻量级容器,能够支持企业在任意环境中运行全部数据转换功能。如此一来,在私有云中执行数据集成、清理和预处理操作时,便可规避因数据摄取不当而引发的诸多问题。借助 DataStage,您能够对安全性、数据质量及有效性实施全面管控,从而满足生成式 AI 计划的所有数据需求。
尽管生成式 AI 几乎能够实现任何目标,但模型所使用的数据存在限制——而这些数据可能起着决定性作用。
设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。
watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。
通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。