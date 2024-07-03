到 2026 年，超过 80%（ibm.com 外部链接）的企业将部署AI API 或生成式 AI 应用。AI 模型以及用于训练和微调的数据可将应用程序从通用型提升至影响深远，从而为客户和企业提供实实在在的价值。
例如，美国大师赛中由生成式 AI 驱动的高尔夫观赛体验项目，借助实时与历史数据，为两万余条赛事视频片段提供赛事洞察与解说内容。数据的质量和数量可以决定 AI 的成功与否，而能够有效利用和管理数据的组织将获得最大的收益。但要做到这一点却并非易事。数据量和种类都在爆炸式增长。
据国际数据公司 (IDC) 报告显示（ibm.com 外部链接），到 2025 年，本地部署与云平台中的存储数据总量将增长 250%。伴随增长而来的是复杂性。多样的数据应用场景与格式，导致组织难以高效地访问、治理、管理数据并将其有效用于 AI 场景。领导者必须重新思考使用令人望而却步的本地部署方法和庞大的数据生态系统，同时降低成本，确保适当的数据治理和跨不同数据源的自助服务访问。
要让数据成为 AI 的差异化竞争优势，需在技术、人才与流程三者间实现平衡。若要规模化拓展 AI 用例，首先需明确数据战略目标——而生成式 AI 的兴起，很可能已让这一目标发生改变。将组织的数据战略与前瞻性架构对齐，同时考虑现有的科技投资、治理和自主管理。依靠 AI 帮助自动执行数据载入、数据分类、组织和标记等任务。这将要求组织改进数据管理流程并更新学习路径。
组织必须着力构建开放且可信的数据基础，以获取 AI 场景所需的可信数据。此处的“开放”，是指构建具备开放互操作能力的数据基础；该基础可支撑数据的存储、管理、集成与访问，且覆盖混合云部署、数据存储、数据格式、查询引擎、治理体系及元数据等全环节。这使组织可以更轻松地与现有科技投资进行整合，同时消除数据孤岛并加速数据驱动的转型。
建立可信数据基础就是实现高质量、可靠、安全和已治理数据及元数据管理，以便能够用于分析和 AI 应用程序，同时满足数据隐私和监管合规需求。以下四个组件有助于构建开放可信的数据基础。
采用多云和混合云战略已成为强制性要求，这就需要支持跨混合云灵活部署的数据库。Gartner 预测（ibm.com 外部链接），95% 的新型数字化举措将基于云原生平台开发，这一架构对需要海量数据存储与弹性扩展能力的 AI 技术而言至关重要。
在存储和分析数据时，组织必须使用合适的数据库，匹配合适的工作负载、数据类型和价格性能。这可以确保组织拥有随着数据需求的增长而发展的数据基础，无论数据位于何处。组织的数据战略应包含采用开放式集成组件设计的数据库，以便在数据平台内无缝统一和访问数据，从而实现高级分析和 AI 应用程序。这使组织能够提取有价值的洞察分析，推动明智的决策。
例如，组织需要具备高性能、高安全性与高弹性的事务型数据库，以管理其核心业务运营数据。借助混合云的可用性，组织可以使用其数据库对旧版应用程序进行现代化改造，构建新的云原生应用程序，为 AI 助理和企业应用程序提供支持。
随着数据类型和应用程序的发展，组织可能需要专门的 NoSQL 数据库来处理多样化的数据结构和特定应用程序需求。具体包括时间序列、文档、消息、键值、全文搜索和内存数据库，可满足物联网、内容管理和地理空间应用程序等各种需求。
若要为跨事务型数据库与专用数据库的 AI 及分析工作负载提供支撑，企业必须确保这些数据库能与开放数据湖仓一体架构无缝集成，且无需数据冗余存储或额外的提取、转换、加载 (ETL) 流程。无论数据位于何处，都可以借助开放式湖仓一体来访问数据的单一副本。
开放数据湖仓一体支持多种开放格式（如基于云对象存储的 Apache Iceberg），并能整合混合云环境中来自多源数据及现有数据存储库的信息。最具性价比的数据湖仓一体还支持通过多个开源查询引擎实现存储与计算分离，并与其他分析引擎集成，优化工作负载以实现更优的性价比。
这包括与组织的数据仓库引擎整合，如今这些引擎必须在实时数据处理、决策支持能力与经济高效的对象存储、开源技术之间实现平衡，同时借助共享元数据层，与数据湖仓一体实现无缝的数据协同。借助开放数据湖仓一体架构，组织既能针对性价比优化数据仓库工作负载，又能通过更优的性能与治理能力对传统数据湖进行现代化升级，以适配 AI 场景需求。
企业的大型机中可能存储着数百 PB（甚至 EB 级）的高价值专有数据，这些数据亟待解锁，以挖掘全新业务洞察并赋能机器学习/人工智能模型。借助支持大型机与 Iceberg 等开放格式数据同步的开放数据湖仓一体，组织能够更精准地识别欺诈行为、洞察客户行为特征，并构建预测性 AI 模型，从而实现对复杂业务结果的理解、预判与主动影响。
在构建可信的生成式 AI 之前，组织需要合适的数据架构来准备这些不同的数据，并将其转换为高质量数据。面向生成式人工智能场景，适配的数据基础架构应包含各类知识存储体系：用于对话数据存储的 NoSQL 数据库、承载上下文数据的事务型数据库、支持数据访问与 AI/分析场景数据准备的数据湖仓一体架构，以及为检索增强生成 (RAG) 提供嵌入向量存储与检索能力的向量嵌入技术。共享元数据层、数据编目治理及数据沿袭能力，是实现可信 AI 输出的支撑。
随着组织越来越依赖人工智能 (AI) 来推动关键决策，数据质量和治理的重要性怎么强调都不为过。Gartner 的数据显示，由于数据质量不佳、风险控制不足、成本上升或商业价值不明确，到 2025 年，30% 的生成式 AI 项目预计将被放弃。使用劣质数据的影响深远，包括客户信任度下降、监管违规以及财务和声誉受损。
有效的数据质量管理对于降低这些风险至关重要。设计完善的数据架构战略，是实现这一目标的核心保障。Data Fabric 架构为数据负责人提供了一套稳健的框架，支持其开展数据探查、设计并应用数据质量规则、发现数据质量违规问题、清洗数据及数据增强等工作。这种方法确保数据质量计划能够实现准确性、可访问性、及时性和相关性。
此外，data fabric 架构通过数据可观察性功能实现对数据质量水平的持续监控，使组织能够在问题加剧之前识别出问题。这种数据流的透明度也使数据和 AI 负责人能够识别潜在问题，确保决策中使用正确的数据。
通过优先考虑数据质量和治理，组织可以建立对 AI 系统的信任，最大限度地降低风险并提高数据的价值。必须认识到，数据质量绝非单纯的技术问题，而是一项需要投入关注与资源的核心业务要务。通过采用正确的数据架构战略，组织可以解锁其 AI 计划的全部潜力并推动业务成功。
数据是人工智能的基石，从利用合适的数据集构建 AI 模型，到通过行业专属的企业数据微调模型，再到借助向量化嵌入技术构建检索增强生成 (RAG) 类 AI 应用（包括聊天机器人、个性化推荐系统及图像相似度搜索应用等），无不依赖数据的支撑。
可信的已治理数据对于确保 AI 的准确性、相关性和精确性至关重要。要在 AI 领域解锁数据的全部价值，企业必须能够驾驭其复杂的环境，打破数据孤岛、统一数据，并为 AI 模型和应用程序准备并提供可信的已治理数据。
借助由开放格式驱动的开放数据湖仓一体架构，企业可对接并访问现有数据资产（含数据仓库、数据湖及大型机环境）中的核心数据，仅通过一份企业数据副本，即可实现 AI 模型与应用的构建及微调。。
通过语义层，企业可生成数据增强成果——支持用户以自然语言通过语义检索，在全量数据资产中快速定位并理解此前晦涩难懂但结构有效的数据，无需编写 SQL 语句即可加速数据发现进程，更高效地挖掘数据价值。
使用直接嵌入在湖仓中的矢量数据库，组织可以将数据作为 RAG 用例的矢量化嵌入无缝存储和查询，从而提高 AI 输出的相关性和精度。
借助开放可信的数据基础，组织可以充分发挥数据的潜力，并从中创造价值。这一目标可通过构建数据产品、人工智能助理、AI 应用及商业智能解决方案实现——这些产品与方案均由依托可信数据的 AI 产品组合提供技术支撑。
例如，数据产品是可重复使用的打包数据资产，可用于推动商业价值，例如预测模型、数据可视化或数据 API。AI 助理、应用程序和 AI 驱动的商业智能可以通过提供洞察分析、建议和预测来帮助用户做出更好的决策。依托高质量数据，企业能够打造数据驱动型组织，进而驱动业务价值创造与创新突破。
若要着手构建 AI 所需的数据基础，不妨探索 IBM 数据库、watsonx.data 及 Data Fabric 架构相关的数据管理解决方案，依托可信数据实现 AI 的规模化落地。
与 IBM 携手参与网络研讨会，在此期间我们将展示如何通过智能体 AI 计划实现真正的投资回报率，并提供跨行业、用例的示例，甚至还有 IBM 自身的成功案例。
IBM® Granite® 是一系列开放、高性能且值得信赖的 AI 模型，专为企业量身定制，并经过优化以扩展您的 AI 应用程序。深入了解语言、代码、时间序列和防护措施选项。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai，可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据，即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的 AI 专业知识和解决方案组合，让 AI 在您的业务中发挥作用。
IBM Consulting AI 服务有助于重塑企业利用 AI 实现转型的方式。
通过使用 AI，IBM Concert 可揭示有关运营的重要洞察分析，并提供特定于应用程序的改进建议。了解 Concert 如何推动您的业务向前发展。