数据管理是指安全高效地收集、处理和使用数据,以实现更好的业务成果的实践。
72% 绩效最佳的 CEO 一致认为,竞争优势取决于谁拥有最先进的生成式 AI。然而,为了充分利用人工智能 (AI),组织必须首先建立其信息架构,实现数据可访问性和可用性。基本的数据管理挑战包括数据量以及跨多个位置和云供应商的数据孤岛。新的数据类型和多种格式(例如文档、图像和视频)也带来了挑战。此外,复杂且不一致的数据集会限制组织利用数据推行 AI 技术的能力。
为应对这些挑战,制定有效的数据管理战略已成为组织解决大数据难题的首要任务。灵活的现代数据管理系统可与组织内现有的技术相集成,以便数据科学家、AI 和机器学习 (ML) 工程师以及组织的业务用户能够获取高质量的可用数据。
完整的数据管理战略考虑各种因素,包括如何:
尽管用于构建生成式 AI 应用程序的数据管理工具已广泛普及,但数据本身对客户和企业都极具价值。必须妥善组织和处理大量高质量数据,才能成功训练模型。这一方法已成为现代数据管理快速增长的典型用例。
例如,2023 年温布尔登网球锦标赛引入了生成式 AI 驱动型评论机制,可实时访问来自 1.3 亿份文档和 270 万个相关上下文数据点的信息。赛事应用程序或网站的访问者可获取完整统计数据、实时赛况解说与评论,还能在比赛进程中随时查看精准的胜方预测。制定正确的数据管理战略有助于确保有价值的数据始终可用、完整、受控、安全且准确。
生成式 AI 可以为组织带来显著竞争优势,而其 AI 战略的成效则取决于所用数据的质量。许多组织仍在努力应对基本的数据挑战,这些挑战因生成式 AI 的需求而加剧——生成式 AI 需要更多的数据,由此导致了更多的数据管理难题。
数据可能分散存储于多个位置、应用程序及云端,进而催生了相互隔离的数据孤岛。更复杂的是,数据用途日趋多样,其形式也愈发复杂多变——如图像、视频、文档和音频等。因此,组织需要更多时间来进行数据清洗、整合和准备。这些挑战可能会导致组织无法充分利用其数据资产进行分析和部署 AI。
但是,配备用于数据架构、治理和安全的现代工具后,可以成功地利用数据来获取新的洞察分析,并持续执行更精确的预测。此功能可帮助组织深入了解客户偏好,并提升客户体验 (CX),后者可通过从数据分析中获取洞察分析来实现。此外,它还能推动创新数据驱动型业务模型的开发,例如依赖于生成式 AI 的服务产品,这些产品需要高质量数据作为基础才能完成模型训练。
由于混合云部署中的数据环境日趋复杂,数据和分析领导者在推动组织转型时面临着严峻挑战。此外,生成式 AI 和 AI 助手、机器学习 (ML)、高级分析、物联网 (IoT) 和自动化都需要大量数据才能有效运作。这些数据需要进行存储、整合、治理、转换和准备,以建立正确的数据基础。而要为 AI 构建强大的数据基础,组织需要专注于建立开放、可信的数据基础,这意味着组织应围绕开放、信任和协作制定数据管理战略。
Gartner® 分析师1 总结了 AI 的要求:“AI 就绪数据意味着数据必须能代表具体用例,包含训练或运行专用 AI 模型所需的所有模式、错误、异常值及意外情况。”
数据和分析高管可能认为 AI 就绪数据等同于高质量数据,但非 AI 用途的高质量数据标准未必符合 AI 就绪要求。例如,分析领域通常会对数据进行细化以消除异常值或满足人类期望。然而,训练算法则需要有代表性的数据。
数据治理是数据管理的一个子集。这意味着,当数据治理团队确定不同数据集的共性并试图整合时,他们需要与数据库架构或工程团队合作来定义数据模型和数据架构,以实现数据关联和流动。另一个示例涉及数据访问。数据治理团队可能会针对特定类型数据(例如个人身份信息 (PII) )的访问权限制定政策。同时,数据管理团队会提供直接访问权限,或建立相应的机制来提供访问权限,例如调整内部定义的用户角色以批准访问。
有效的数据管理(包括完善的数据治理实践),有助于确保监管合规性。这一合规性涵盖国家和全球数据隐私法规,例如通用数据保护条例 (GDPR) 和“California Consumer Privacy Act (CCPA)”,以及特定行业的隐私和安全标准。无论是用于展示还是接受审计,建立全面的数据管理政策和程序对于验证保护措施的可行性都至关重要。
虽然数据可以在数据处理之前或之后进行存储,但其类型和目的通常决定了所采用的存储方案。虽然关系数据库会将数据整理为表格格式,但非关系数据库却没有如此严格的数据库架构。
通常,关系数据库也与事务数据库相关,而后者会批量执行命令或事务。其中一个示例是银行转账。从一个帐户中提取规定的金额,然后将其存入另一个帐户。但是,企业要同时支持结构化和非结构化数据类型,就需要借助专用数据库。这些数据库还必须满足分析、AI 和应用等各类用例。它们必须同时涵盖关系和非关系数据库,例如键值、文档、宽列、图形和内存数据库。这些多模式数据库可为各类数据和最新的开发模型提供本机支持,并运行多种工作量,包括 IoT、分析、ML 和 AI。
数据管理最佳实践建议优化湖仓一体,以便针对结构化数据执行高性能分析。这需要定义的模式满足特定用例的数据分析需求,例如仪表板、数据可视化和其他商业智能任务。这些数据需求通常由业务用户与数据工程师共同指导和记录,最终基于定义的数据模型运行。
数据仓库的底层结构通常为使用结构化数据格式的关系系统,其数据来源于事务数据库。然而,对于非结构化和半结构化数据,数据湖会整合来自关系和非关系型系统以及其他商业智能任务的数据。数据湖往往比其他存储选项更受欢迎,因为这种低成本的存储环境通常可容纳 PB 级的原始数据。
数据湖对数据科学家大有帮助,因为它们能将结构化和非结构化数据整合到数据科学项目中。但是,数据仓库和数据湖均存在局限性。专有的数据格式和高昂的存储成本会限制 AI 和 ML 模型在数据仓库环境下的协作和部署能力。
相比之下,数据湖面临的挑战是如何以可治理且可执行的方式直接提取洞察分析。开放式湖仓一体可消除这一局限性,通过基于云对象存储处理多种开放格式并整合包括现有存储库在内的多来源数据,最终实现分析与 AI 的规模化应用。
多云和混合战略正稳步推行。AI 技术由海量数据驱动,这些数据需要依托云原生架构的现代数据存储来实现可扩展性、成本优化、性能提升和业务连续性。据 Gartner 2 预测,到 2026 年底,“90% 无法支持多云和混合云功能的数据管理工具及平台都将被淘汰”。
尽管现有工具可以帮助数据库管理员 (DBA) 自动执行多项常规管理任务,但由于数据库设置通常庞大而复杂,因此仍需人工介入。每当施行人工干预时,发生错误的几率就会增加。最大限度地减少人工数据管理的必要性,是数据库作为全托管服务运行的主要目标。
全托管云数据库可自动执行升级、备份、修补和维护等耗时任务。这种方法有助于将 DBA 从耗时的手动任务中解放出来,使其投入更多时间执行有价值的任务,例如优化模式,以及支持新的云原生应用程序和 AI 用例。与本地部署不同,云存储提供商支持用户根据需要启动大型聚类,只需为指定的存储付费。这意味着,如果组织需要更多的算力以便在几小时内(而非几天内)运行某项任务,就可以通过购买更多计算节点,在云平台上轻松实现这一目标。
组织向云数据平台的转型,也推动了流数据处理的普及。Apache Kafka 等工具可以实现更实时的数据处理,确保消费者能够在几秒钟内订阅主题以接收数据。但是,批处理仍然具备优势,因为它在处理大量数据时效率更高。虽然批处理遵循既定周期(如每日、每周或每月)运行,但它非常适合业务绩效仪表板,这类场景通常不需要实时数据。
近期问世的 data fabric 架构有助于消除管理这类数据系统的复杂性。data fabric 架构使用智能和自动化系统来实现数据管道和云环境的端到端整合。data fabric 架构还能简化高质量数据的交付,并为实施数据治理政策提供框架,以确保所用数据的合规性。通过连接驻留于组织孤岛中的数据,这一架构可实现对可信数据产品的自助访问,以便企业领导者更全面地了解业务绩效。统一人力资源、营销、销售、供应链及其他部门的数据,可以让领导者更好地了解客户情况。
数据网格也很实用。data fabric 架构可促进端到端的整合。相比之下,数据网格是一种分散的数据架构,它按特定的业务领域组织数据,例如营销、销售、客户服务等。这一方法为数据集的生产者提供了更多的所有权。
在数据管理生命周期的这一阶段,组织可从一系列数据源采集原始数据,如 Web API、移动应用程序、物联网 (IoT) 设备、表单、调研等。数据收集后,通常要使用数据整合技术(如提取、转换、加载 (ETL) 或提取、加载、转换 (ELT))对数据进行处理或加载。虽然 ETL 历来是跨不同数据集整合并组织数据的标准方法,但随着云数据平台的出现以及组织对实时数据需求的不断增加,ELT 正日益普及。
除批处理外,数据复制也是整合数据的方法之一,它包括将源位置的数据同步到一个或多个目标位置,从而确保数据的可用性、可靠性和弹性。变更数据捕获 (CDC) 等技术可通过基于日志的复制来捕获源数据变更,并将这些变更同步至目标系统,从而帮助组织基于当前信息做出决策。
无论使用何种数据整合技术,数据都会在数据处理阶段进行过滤、合并或聚合,以满足其预期用途的要求。其应用场景覆盖广泛,既包含商业智能仪表板,也涵盖预测性机器学习算法。
使用持续整合和持续部署 (CI/CD) 进行版本控制,可以帮助数据团队跟踪其代码和数据资产的变更。版本控制使数据团队能够更高效地协作,支持同时处理项目的不同部分,并无冲突地合并变更。
数据治理可提升数据的可用性和使用率。为确保合规性,治理通常包括基于数据质量、数据访问、可用性和数据安全性而建立的流程、政策和工具。例如,数据治理委员会通常要对齐分类标准,以确保元数据在不同数据源中的一致添加。该分类标准还可以通过数据目录进一步记录,使用户更易获取数据,从而促进组织内的数据民主化。
为数据添加正确的业务上下文信息,对于自动执行数据治理政策和保障数据质量至关重要。服务水平协议 (SLA) 规则一旦生效,即可确保数据受到保护并达到所需的质量。了解数据来源并掌握其在管道传输过程中的轨迹也至关重要。这就需要借助强大的数据沿袭功能,以提高组织数据从数据源流向最终用户的可见性。数据治理团队还需定义角色和职责,以确保数据访问权限的合理分配。这一受控访问手段对于维护数据隐私尤为重要。
数据可观察性是指监控、管理和维护数据的实践以确保组织内各种流程、系统和管道的质量、可用性和可靠性。数据可观察性是指真正了解组织数据的运行状况及其在整个数据生态系统中的状态。它包括各种活动,超出了传统的监测范围,因为传统的监测只能说明问题。数据可观察性有助于近乎实时地识别、排查和解决数据问题。
主数据管理 (MDM) 专注于围绕核心业务实体(包括产品、客户、员工和供应商)创建单一的高质量视图。通过提供对主数据及其关系的准确视图,MDM 可以加速洞察分析、提高数据质量并完成合规准备。借助企业内主数据的 360 度单一视图,MDM 使企业能够利用正确的数据来驱动业务分析、确定最成功的产品和市场以及最有价值的客户。
组织在启动和维护数据管理计划时,可获得多重收益。
许多企业往往会无意间在其组织内部建立数据孤岛。现代数据管理工具和框架(例如 data fabric 架构和数据湖)有助于消除数据孤岛及其对数据所有者的依赖。例如,data fabric 架构可揭示跨职能部门(如人力资源、营销和销售)中不同数据集之间的潜在整合。不过,数据湖能从相同的职能部门采集原始数据,消除其依赖性,并取消数据集的单一所有权。
治理委员会将协助设置护栏,使企业避免因违反政府法规和政策而面临罚款以及负面舆论。从品牌声誉和财务角度来看,这些失误都会造成严重损失。
虽然这一优势可能不会立即显现,但成功的概念验证可以改善整体用户体验,使团队能够通过更全面的分析深入理解并实现客户旅程个性化。
数据管理可以帮助企业扩展规模,但这在很大程度上取决于企业应用的技术和流程。例如,云平台具有更高的灵活性,便于数据所有者按需增减算力。
过去十年,混合云、人工智能、物联网 (IoT) 和边缘计算等技术的蓬勃发展推动大数据实现指数级增长态势,使企业面临更复杂的管理挑战。新兴组件可持续提高数据管理能力。以下为最新进展:
为了进一步提升数据管理能力,增强数据管理得到了广泛应用。作为增强智能的一个分支,它由认知技术驱动,涵盖 AI、ML、数据自动化、data fabric 架构和数据网格。该自动化技术的优势在于:使数据所有者能够创建数据资产目录等数据产品,并利用 API 搜索、查询数据产品及相关可视化内容。此外,组织可以从 data fabric 架构元数据获取洞察分析,通过学习模式来自动执行任务,并将这一能力应用于数据产品创建流程,或融入数据产品的监控管理环节。
用于生成式 AI 的数据存储,例如 IBM® watsonx.data™ 可帮助组织高效地为 AI 模型和应用程序统一、整理和准备数据。集成矢量化嵌入能力使检索增强生成 (RAG) 用例能够在可信的大型已治理数据上实现规模化应用。
混合云部署可为简化跨平台、聚类和云的应用程序连接和安全性提供帮助。由于容器和对象存储实现了计算和数据的可移植性,因此可以在不同环境之间轻松部署和移动应用程序。
为了在不使用 SQL 的情况下加快数据访问速度并解锁新的数据洞察分析,组织正在建立人工智能驱动的可嵌入语义层。这是一个元数据和抽象层,建立在组织的源数据(如数据湖或仓库)之上。元数据既能丰富当前使用的数据模型,又便于业务用户清晰理解。
设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。
watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。
通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
1 Wire19.com:“确保数据实现 AI 就绪的方法”,2024 年 6 月 14 日
2 Gartner:"将数据管理解决方案迁移到云端的战略路线图”,2023 年 9 月 27 日