什么是数据产品?

数据服务器机架

作者

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

什么是 数据产品?

数据产品是一种可重复使用的独立包,它将数据元数据语义和模板结合在一起,以支持不同的业务用例。它可以包括组件,如数据集、仪表盘、报告、机器学习 (ML) 模型、预构建查询或数据管道

数据产品是采用产品思维方法并应用传统产品开发原则开发的。这种方法包括了解用户需求、优先考虑高价值功能并根据反馈进行迭代。最终,它将数据视为一种产品,旨在解决特定的用户问题。

数据产品旨在实现可发现、可互操作和可操作。它们使所有人,从业务用户和数据分析师到数据科学家数据管理员和工程师,都能从企业内部的数据中提取有意义的价值。

 数据产品 概念于 2019 年由 IT 咨询公司 ThoughtWorks 技术总监  Zhamak Dehghani 提出,将 数据产品 作为 数据网格 架构核心组件。 数据网格 作为去中心化 数据架构 ,按 特定业务域(如营销、销售、客服)组织数据,为特定 数据集 的生产者提供更多所有权。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

数据产品 核心特征

要有效发挥作用,数据产品必须具备几个关键特征:

可发现

利益相关者应该能够轻松发现并找到适合其用例的正确数据产品。

可理解

数据产品应包含清晰的元数据,并根据特定的业务领域进行构建,从而使数据消费者和领域团队能够有效地解释和应用信息。

可互操作

数据产品应能与其他系统无缝集成,以跨平台提供一致的洞察。 

可共享

数据产品应打包为一个内聚的单元,以便在组织内轻松分发,确保团队之间的一致使用和理解。

安全

数据产品应具备访问控制和安全措施,以确保只有授权用户才能访问数据,同时保持合规性

可重用

精心设计的数据产品由模块化组件构建而成,这些组件可以重新用于创建新的数据产品或获取衍生洞察分析,从而提高效率并减少冗余工作。

为什么数据产品很重要?

McKinsey 报告称,数据驱动的公司较之其他公司获得客户的可能性可达 23 倍,盈利的可能性为 19 倍。但是,尽管对数据驱动决策的需求不断增长,许多组织仍然面临着数据孤岛、供应商锁定和合规风险等障碍,这是因为其数据治理框架不够健全,

为了应对这些挑战,部分企业采用 数据即产品 模式——将 数据视为 可管理、可消费的资产,而非运营活动的副产品。 

数据即产品 方法论 强调通过数据构建与治理支撑 商业决策 并改善 用户体验。基于此, 数据产品 提供一种结构化 自助式 数据管理方案,减少对技术团队的依赖,同时支持 实时 决策。 

投资数据产品的企业可以提升数据访问、互操作性数据存储治理能力。 在各个行业中, 数据产品 有望增强 自动化能力,支持数据驱动型 决策 ,并帮助企业将其数据战略与长期 业务目标对齐。依托稳健 数据平台、 机器学习模型 及 可视化 工具,企业可以 使 能够充分利用其数据。 

数据产品通常通过赋权组织内的各种角色来实现这些优势:

  • 数据科学家 和 AI 工程师 能更快获取数据及相关项,加速 AI/ML 解决方案开发和部署。 
  • 数据工程师可从自动化测试、部署和数据监护中获益,确保管道符合数据产品合同中约定的数据质量标准和服务水平协议。
  • 数据分析师和消费者可以及时收到可靠的数据,这些数据符合他们在特定领域的需求,而且可以快速更新,无需依赖中央 IT 团队。
  • 数据管理员 可以通过数据契约维持强治理与合规性,设定明确的保障措施来保护数据安全。 

“数据即资产”与“数据即产品”

组织管理数据的方式已从被动的、基于资产的方法演变为主动的、产品驱动的策略。

数据即资产(传统方法)

传统上,企业主要将数据视为需要收集和存储的内容。这种方法将数据放入中央数据仓库或源系统中,按主题领域(例如财务或营销)组织数据,并将所有权分配给集中团队。衡量成功与否的标准往往是数据量,例如存储的数据量是否达到了 TB 级,并寄望于只要拥有更多的数据,员工就会使用。

然而,元数据通常由 IT 部门定义,对于数据消费者来说并不方便。因此,许多数据资产工作都围绕描述性分析和报告进行,回顾已发生的事情,而不是主动使用数据来解决业务问题。

数据即产品(新方法)

相比之下,将 数据 视为产品,意味着关注点从存储转向了使用和价值创造。 数据产品 经历完整 生命周期——经 设计、测试与迭代,与遵循敏捷或  DataOps  方法的软件 产品非常相似。  

所有权是特定于领域的(例如,由营销专家管理的营销数据产品),这可以使数据保持相关性和高质量。数据还针对特定的消费需求进行整理,并具有由业务驱动的丰富元数据。这确保了业务用户能够轻松发现和理解数据产品。

由于数据所有者对数据产品负责,因此可以通过与最终用户之间的反馈回路来持续监控产品的使用情况、质量和价值。

衡量成功的标准是数据如何改善决策、增加收入或降低成本,而不是简单地看存储了多少 TB。因此,数据产品计划可以通过高级分析(例如预测和规范建模)解决业务问题。

  

数据产品的组件

结构化 数据产品 由多个组件构成,在组织的数据 生态系统 中实现功能支持和可用性:

  • 数据模型模式:标准化数据组织的定义结构,增强可访问性和语义一致性。通常,其依赖 SQL 进行查询和转换。
  • 接口和 API:促进与业务应用程序和应用集成的机制,确保无缝和安全的数据访问。
  • 可视化和仪表板:方便用户使用的工具,通过交互式报告或分析显示展示洞察分析,帮助解读数据。
  • ML 模型:分析数据中的模式的预测算法,通过高级计算支持明智的决策。
  • 安全和治理控制:确保遵守数据治理法规、跟踪数据沿袭和管理访问控制的政策和措施,以维护数据的完整性和安全性。

 

    数据产品类型

    数据产品 可以根据 数据的质量 和处理程度进行分级。数据产品 的类型包括: 

    基于源

    来自源系统的数据产品。这种原始(或经过最少转换)类型的数据产品通常是数据科学生成式 AI 等用例的基础构件。

    基于主数据

    数据产品经过整理并整合到用于标准化关键业务实体(例如客户或产品)的主数据中,以确保系统之间的一致性。

    基于洞察分析

    经过提炼、处理和设计的数据产品可为决策提供支持,并产生可操作的洞察分析。

    数据产品生命周期

    遵循结构化 产品管理 生命周期, 数据团队 能 构建持续有价值、可扩展且适配 业务演进需求 的数据产品 。

    数据产品生命周期的关键阶段包括:

    1. 定义:确定业务目标、用例、设计规范和数据合同。这包括条款、条件和服务水平协议等属性。

    2. 开发:构建数据产品组件,如表、视图、模型、文件及仪表板。然后,​依据数据契约执行测试。 

    3. 打包:将 数据产品 组件整合为一个 可复用的 包,并添加业务和技术 元数据 ,以便在 数据目录 或其他 数据存储 工具中轻松发现。

    4. 管理:根据数据合同管理数据产品的访问权限。

    5. 发布:将您的数据产品发布到门户网站,以供发现。

    6. 消费:允许组织内各处的用户轻松访问 数据产品 ,以解决各种业务挑战。收集用户反馈,用于未来的 迭代增强。​ 

    7. 监控与 迭代: 执行持续性的活动,例如监控(数据产品的)使用情况、数据质量与访问情况。对已发布 数据产品的版本变更实施发布管理。​​ 

    8. 退役:由于缺乏使用或不合规等原因,退役数据产品。弃用该产品、通知消费者、存档产品并清理资源。

    数据产品用例

    各行各业的组织都依靠数据产品来推动商业价值、支持战略计划和解决关键业务问题。

    数据产品的实际例子包括:

    • 某 大型全国性银行 实施统一客户 数据产品 ,支撑了涵盖多个渠道的 60 多种不同 用例——从 实时 信贷评分到 AI  聊天机器人。该银行由此实现年收入新增 6000 万美元并避免 4000 万美元损失。 

    • 某 快消品 (CPG) 企业 引入 数据产品 优化数据使用,提升效率与可扩展性。通过部署 50 余个跨职能团队实施数据驱动解决方案,该公司 EBITDA 在两年内增长了 18%。 

    构建和扩展数据产品

    成功开发 数据产品 需采用战略方法,包括理解数据消费模式、梳理数据交互关系、测试(其)市场价值并通过迭代实现规模化。 

    分析数据消费模式

    创建数据产品的第一步是分析组织内部当前的数据消费。此步骤包括识别目标用户、了解他们使用的数据以及为什么这些数据对他们很重要。

    从数据量、频率、敏感度和类型等方面审查数据使用情况,提供哪些数据集最具价值的洞察分析。通过优先考虑高影响力的用户群体,组织可以帮助确保最初的努力集中在对业务的可能影响最大的领域。

    数据旅程映射 

    一旦数据消费模式明确,后续步骤就是绘制数据旅程图。创建真实世界数据交互的详细地图有助于直观地了解数据在不同系统和团队之间的流动方式。

    这些地图可以作为集思广益以便为数据产品寻找新的创收用例的基础。提出数据产品如何改进业务流程的假设可以帮助组织开始探索将原始数据转化为有意义的、可操作的洞察分析的方法。

    迭代与扩展 

    经验证洞察分析后,下一步是 迭代 与扩展。组织可以通过授权业务领域和团队优化及增强 数据产品,从而提升敏捷性和创新能力,而非仅依赖中央 IT 团队。改进完成后,项目可扩展至更多团队与业务域,确保 数据产品 能够有效扩展规模并持续驱动 商业价值。 

    相关解决方案
    IBM Data Product Hub

    在整个生命周期将数据作为产品进行管理。通过强大的数据产品版本管理、维护和更新系统,掌控数据产品从载入到报废的整个生命周期。

    深入了解 Data Product Hub
    IBM 数据智能解决方案

    快速将原始数据转化为可操作的洞察分析,统一数据治理、质量、沿袭和共享,为数据消费者提供可靠的情境化数据。

    深入了解数据情报解决方案
    数据和分析咨询服务

    通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

    深入了解分析服务
    采取后续步骤

    企业要想蓬勃发展,就必须利用数据建立客户忠诚度,实现业务流程自动化,并利用 AI 驱动的解决方案进行创新。

    深入了解分析解决方案 了解 Data Product Hub