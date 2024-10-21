专有数据—您在生成式 AI 中的竞争优势

发布日期 2024年10月21日
在会议上争论的同事们
By Matthew Kosinski

72% 的表现最佳的 CEO 们认为，拥有最先进的生成式 AI 工具可为组织带来竞争优势（源自 IBM 商业价值研究院的数据）。但是，如果这些生成式 AI 工具没有立足于企业的独特环境，组织便可能无法从中充分受益。

虽然此类工具与 ChatGPT 和 Google Gemini 等大型通用生成式 AI 模型一样强大，但它们并非是在特定于组织的数据集上进行训练。将它们融入组织的流程时，它们可能会缺少重要信息，而这些信息可能会导致它们陷入困惑并产生不够理想的结果。

“每家公司都有自己的语言”，IBM Consulting AI 与分析高级管理顾问 Michael Choie 解释道。“以‘dressing’一词为例。对于连锁杂货店来说，它意味着‘沙拉酱’。而对医院来说，则意味着‘伤口包扎’。”

AI 领导者使用专有数据来定制 AI

IBM 与 The Harris Poll 合作发布了《2024 年 AI 实际应用》，这是一项针对全球 2,000 家组织的调研。调研发现，这些组织（即 AI 领导者）中有 15％ 正借助 AI 取得可量化的成果。

AI 领导者的其中一项与众不同之处在于，他们相信自己有能力定制自己的 AI 工作，以实现最佳价值。这并不意味着组织必须从头开始建立自己的模型才能脱颖而出。相反，它可利用别人都没有的专有企业数据来调整现有的 AI 模型

“每个 AI 供应商，比如 X 或 Google，都可以访问公开信息。它们还能访问自己平台中的数据”，IBM Consulting 副总裁兼高级合伙人兼美洲 AI 负责人 Shobhit Varshney 解释道。“而它们无法访问的是您的企业数据。这一块拼图现在处于缺失状态。”

正如 Varshney 在《2024 年 AI 实际应用》中阐述的那样：“下一个发展前沿是让 AI 跨越鸿沟并进入企业，以便它能吸收、学习并变为企业的竞争优势。”

专有数据如何将企业背景信息引入 AI 模型

向 AI 模型提供专有数据共有三种主要方式：提示工程检索增强生成 (RAG) 和微调

1. 提示工程

在此背景下，提示工程意味着在传递给 AI 的提示中包含专有数据。

假设用户希望 AI 模型能总结客户服务中心的对话。用户可编写一个提示（“总结本次对话”），并附加通话记录以作为提示的一部分。

提示工程无需更改模型自身。它最适合低量、通用任务；而在此类任务中，可在每个提示内合理地包含必要的背景信息。

2. 检索增强生成 (RAG)

检索增强生成 (RAG) 意味着需将 AI 模型连接到专有数据库。响应提示时，模型可从此数据库中提取相关信息。

例如，组织可授予客服聊天机器人访问公司产品数据库的权限。当用户向聊天机器人提出有关这些产品的问题时，它可查看相应文档并获得正确答案。

RAG 无需对模型进行任何永久性更改。它可提高准确性并减少幻觉，但也会增加响应时间。

3. 微调

微调意味着需要给 AI 模型足够的额外数据来改变其某些参数。微调可永久改变模型的行为，以使其适应特定的用例或背景信息。同时，它也比训练一个全新模型速度更快、成本更低。

“如果您的神经网络有 100 个不同的层，那么对其进行训练就意味着要修改全部 100 个层”，Choie 解释道。“微调意味着要其实只需更改最后几层。您仍是在修改模型，但不必完全改变它，因为它已表现良好。”

微调比提示工程和 RAG 需要更多的前期投资。它对于将较小模型转变为专业领域的专家非常有用。例如，保险公司可对模型进行微调，以掌握处理新索赔的技巧。

Varshney 将微调模型比作刚从学校毕业且经过严格培训的新员工。他们可能不具备天才博学家（或大型通用 AI 模型）所拥有的知识广度，但他们在处理索赔方面比博学家强得多。

“它无法为您报税或撰写法律合同”，Varshney 说道；“但如果我要求它处理索赔，它就会立即知道如何操作。”

通过这些方式来利用专有数据，可通过让 AI 模型熟悉企业的特有流程、产品、客户及其他细节，产生巨大的竞争优势。

“如果您的 AI 的主要用户来自特定企业，让 AI 使用来自同一企业的数据就非常重要”，Choie 表示。

当 AI 模型能访问专有数据时，它们会基于特定的业务背景来运行，而这意味着它们的输出也会基于该背景。

“我可以采用一个开放的 AI 模型，并使用我自己的专有数据对其进行微调，同时该副本专属于我”，Varshney 说道。“我拥有它背后的 IP。我会在自己的基础设施上运行它。”

因此，这些模型比未经增强的现成模型（它们会从一般公共数据集中提取数据）能提供更准确、更有效的输出。

使用开源 AI 模型的价值

组织可使用多种不同类型的 AI 模型来取得成果。但开源模型（例如 IBM Granite 模型，它可按 Apache 2.0 许可证进行使用，并用于广泛、不受限制的商业用途）也有某些优点。

“训练 AI 模型时，需调整大量不同的参数和技术，以确保模型有效且能高效地学习。您需要专门的数据科学家和机器学习专家来进行相关设置”，Choie 解释道。“微调开放模型的好处在于，我们拥有一批杰出人士已着手改进的模型。我们需要做的只是向模型提供额外的特定于任务的数据，并调整几个层，而这比构建一个模型简单得多。”

除了让组织受益于群体智慧之外，开源模型还可让组织开展试验，而无需承担过高的失败成本。该实验反过来又会帮助组织推行多模型战略，从而使用多个不同的、经过差异化调整的模型来执行特定于领域的任务。

该多模型战略被视为一项最佳实践。《2024 年 AI 实际应用》发现，62% 的 AI 领导者会使用多种模型，而 AI 学习者的这一比例则仅为 32%。

“使用开源模型几乎就是一件理所当然的事”，Choie 说道。“它们的成本效益很高，有业内最优秀的人员对其进行开发，且每当有更新或问题时，整个社区都会一起解决。”

AI 学院

面向企业的生成式 AI 的兴起

了解生成式 AI 的历史兴起及其对企业的意义。
转到视频集

构建数据架构，解锁专有数据的价值

有效的数据管理是将 AI 领导者与其他组织区分开来的关键特征之一（根据《2024 年 AI 实际应用》）。61% 的 AI 领导者相信自己有能力访问和有效管理组织数据，以支持各项 AI 计划，而在 AI 学习者中该比例仅为 11%。

但是，将专有数据馈送到 AI 模型并不像听起来那么简单。数据孤岛、质量控制和其他问题都可能成为阻碍。

从广义上讲，该解决方案旨在实现集成式数据结构，以消除孤岛、确保互操作性并协调跨平台的流畅数据移动。

但这在实践中是什么样子呢？其中几个关键注意事项如下：

数据集成

很多 AI 项目面临的首要障碍是数据收集和存储，而此过程并不像看起来那么简单。

在传统数据库中捕获数据通常会导致数据孤岛，从而导致组织无法聚合构建有效 RAG 数据库或微调模型所需的所有数据。根据 IBM Data Differentiator，82% 的企业会遇到数据孤岛，从而阻碍了它们的关键工作流程。

组织需实施管道，以从不同来源检索数据、准备好使用这些数据，并存储在一个可访问的集中存储中。

检索和准备数据可能涉及使用流处理工具（如 Kafka）或是 ETL 及支持 ELT 的数据整合工具（如 IBM DataStage）。组织还须为数据选择正确的存储库，其中可能包括：

  • 数据湖，它可提供低成本存储环境，且旨在处理大量原始结构化与非结构化数据。

  • 数据仓库，它们旨在支持数据分析、商业智能与数据科学工作。

混合云基础设施也是数据整合工作的重要组成部分。如今，很多企业的数据分布在本地数据存储和多个云服务之间。

“您需要确保能聚合所有这些信息，而无论它们位于何处，并将其输入到 AI 模型中”，Choie 说道。“如果不进行混合，就会错过一些东西。”

清理和准备数据

错误的输入会导致错误的输出。组织需确保馈送到 AI 模型的专有数据是可靠且准确的。

“您需要找出数据中有价值的部分，也就是差异化因素，然后才能将其放大”，Varshney 说道。“您希望减少数据中的噪声，并希望提供高质量的数据以在此基础上进行微调。”

数据在被传递给 AI 之前必须进行清理。否则，它可能会降低模型的性能。

Varshney 举例谈到一个客户服务中心工单，以及一个并不那么明显的解决方案：“人们可能会尝试五种不同的修复方法，然后才能找到有效的那个。您无法将该工单直接发送给模型。因为它包含很多“噪声”。它包含人们尝试过的所有内容。而模型可能会对哪个是正确的结果感到困惑。于是您需要消除噪声，让模型只看到真正的解决方案。”

清理、准备和策划数据集涉及属于内部或外部合作伙伴的数据科学家和分析师的某些手动工作。此外，它还涉及某些工具，例如：

  • 合成数据生成器可帮助填补缺失的值，并通过更大的语料库来增强人工资产。

  • 数据预处理与工程工具，例如 Apache Spark 和 pandas Python 库。

生成式 AI 只是该等式的一部分

无论专有数据能为生成式 AI 带来哪些竞争优势，持久的战略优势都来自于部署正确的技术与业务流程组合。

“工作流程本身就是产生利润的地方”，Varshney 解释道。“模型就是一种商品，而我们会不断推出越来越好的模型。我们真正需要解决的是，如何通过一系列操作正确地将传统 AI、自动化和生成式 AI 整合到一个工作流程中。”

换言之，组织无法将生成式 AI（即使是经过微调且符合其规范）放入流程中并期待获得结果。相反，它们必须评估自己的流程，并根据模型调整工作流程，如同它们根据工作流程来调整模型一样。

想想简陋的洗碗机。

“当我们开发洗碗机时，我们并不指望它们能像我们在水槽上那样站起来洗东西”，Varshney 说道。“我们改变了流程，来让洗碗机真正发挥出清洗的作用。我们用正确的格式列出了问题。我们也需要在此完成同样的事情。我们需要重新设计流程，并找到传统 AI 和生成式 AI 的恰当组合。然后，您就可以开始释放价值。”

作者

Matthew Kosinski

Staff Editor

IBM Think

