数据摄取和整合对于企业人工智能的重要性

年轻的男女同事在便签纸上书写构想

生成式 AI 出现后,多家知名公司因内部敏感数据处理不当而限制对其的使用。据 CNN 报道,一些公司在寻求更好地理解该技术的同时,对生成式 AI 工具实施了内部禁令,并且许多公司也已禁止内部使用 ChatGPT。

企业在深入探究大型语言模型(LLM)时,仍常常甘愿承受使用内部数据的风险,因为这些上下文数据能够助力 LLM 从通用知识转变为特定领域知识。在生成式 AI 或传统 AI 开发周期中,数据摄取是起始环节。在此阶段,可依据企业要求收集原始数据,并对其进行预处理、脱敏及转换,使其成为适用于 LLM 或其他模型的格式。目前,尚无标准化流程可克服数据摄取面临的挑战,但模型的准确性有赖于这一流程。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。每份时事通讯都包含取消订阅链接。您可以在此管理您的订阅或取消订阅。更多相关信息,请参阅我们的 IBM 隐私声明

数据摄取不当的 4 种风险

  1. 生成错误信息:当 LLM 使用受污染数据(包含错误或不准确数据)进行训练时,可能会生成错误答案,进而导致错误决策以及潜在的连锁问题。
  2. 方差增加:方差用于衡量一致性。数据不足可能导致答案随时间变化,或产生具有误导性的异常值,尤其是对于影响较小的数据集。模型中的高方差可能表明该模型适用于训练数据,但在适应现实世界的行业用例方面存在不足。
  3. 数据范围受限与非代表性答案:当数据源存在局限性、同质性或包含错误的重复数据时,采样偏差等统计错误可能会扭曲所有结果。这可能导致模型在对话中排除整个地区、部门、人口统计数据、行业或来源。
  4. 纠正有偏倚数据的挑战:若数据从初始阶段就存在偏倚,“唯一追溯性删除部分数据的方法是从头重新训练算法”。LLM 模型在矢量化数据时,很难撤销从不具代表性或受污染数据派生出的答案。这些模型倾向于依据先前同化的答案强化自身理解。

数据摄取必须从一开始就正确完成,因为处理不当可能会引发一系列新问题。AI 模型中训练数据的基础工作犹如驾驶飞机。若起飞角度偏离一度,您可能会降落在一个与预期截然不同的全新大陆。

整个生成式 AI 流程都依赖于为其提供支持的数据管道,因此采取正确的预防措施至关重要。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

确保可靠数据摄取的 4 个关键组件

  1. 数据质量与治理: 数据质量意味着确保数据源安全、维护数据完整性并提供清晰的元数据。这可能还需通过网页抓取或上传等方式处理新数据。数据治理是数据生命周期中的一个持续过程,旨在帮助确保遵守法律法规和企业最佳实践。
  2. 数据集成: 这些工具使企业能够将异构数据源整合至一个安全位置。一种流行的方法是提取、加载、转换(ELT)。在 ELT 系统中,从孤立的数据仓库中选择数据集,进行转换,然后加载到源数据池或目标数据池。ELT 工具(如 IBM DataStage)通过并行处理引擎实现快速、安全的转换。2023 年,普通企业平均会接收数百个不同/异构的数据流,因此高效、准确的数据转换对于传统和新型 AI 模型开发至关重要。
  3. 数据清洗和预处理:这包括格式化数据以满足特定 LLM 训练要求、编排工具或数据类型。文本数据可进行分块或 token 化处理,而图像数据可存储为嵌入。可使用数据集成工具执行全面转换。此外,可能还需要直接操作原始数据,例如删除重复项或更改数据类型。
  4. 数据存储: 清理和处理数据后,便面临数据存储的挑战。大多数数据托管于云端或本地部署环境,这就要求企业决定数据存储位置。使用外部 LLM 处理敏感信息(如个人数据、内部文档或客户数据)时务必谨慎。然而,LLM 在微调或实施基于检索增强生成(RAG)的方法方面发挥着关键作用。为降低风险,在内部服务器上运行尽可能多的数据集成流程至关重要。一种可能的解决方案是使用远程运行时选项,例如

使用 IBM 开始摄取数据

IBM DataStage 通过整合多种工具简化数据集成流程,使您能够轻松在混合云环境中拉取、组织、转换和存储 AI 训练模型所需的数据。数据从业者,无论技能水平高低,均可通过无代码图形用户界面(GUI)使用该工具,或通过引导式自定义代码访问应用程序编程接口(API)。

全新的 DataStage as a Service Anywhere 远程运行时选项可提供灵活的数据转换运行方式。它使您能够从任何位置使用并行引擎让您对其位置拥有前所未有的控制权。DataStage as a Service Anywhere 作为一款轻量级容器,能够支持企业在任意环境中运行全部数据转换功能。如此一来,在私有云中执行数据集成、清理和预处理操作时,便可规避因数据摄取不当而引发的诸多问题。借助 DataStage,您能够对安全性、数据质量及有效性实施全面管控,从而满足生成式 AI 计划的所有数据需求。

尽管生成式 AI 几乎能够实现任何目标,但模型所使用的数据存在限制——而这些数据可能起着决定性作用。

相关解决方案
数据管理软件和解决方案

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案
IBM watsonx.data™

watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。

了解 watsonx.data
数据和分析咨询服务

通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取下一步行动

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案 了解 watsonx.data