数据即产品 (DaaP) 是一种数据管理和分析方法,其中数据集被视为独立产品,在设计、构建和维护时均会考虑到最终用户。这一理念涉及将产品管理原则应用于数据生命周期,并强调质量、可用性和用户满意度。
对于希望充分利用其数据资产潜力的组织来说,数据即产品的概念已成为一种流行的数据策略。
DaaP 将原始数据转换为结构化、可访问且有价值的产品。这种转型鼓励组织将其 跨越数十年的累积数据(包括文档、数据 集和数字记录)视为一个丰富的洞察分析库,这对 战略决策和客户参与至关重要。
数据的潜力往往被孤岛所掩盖,使其无法访问和未得到充分利用。DaaP 的出现标志着与此背道而驰,它主张采用系统化的数据管理方法,强调可访问性、治理和实用性。这种方法植根于这样的原则,即与任何消费产品一样,应精心管理和组织数据,以满足其用户(无论是客户、员工还是合作伙伴)的特定需求。
虽然相关,但 DaaP 和数据产品在数据管理方面具有不同的用途。
DaaP 是一种数据管理的整体方法论,尤其是在数据网格原则的背景下,旨在将数据视为适销对路的产品,可以为组织内外的各种用户提供服务。DaaP 包含代码、其数据和元数据以及运行它所需的任何必要基础架构。
为零售公司设计的客户洞察分析平台就是 DaaP 的一个很好例子。该平台通过多个接触点(如店内购买、在线购物行为、客户服务互动和社交媒体参与)汇总客户数据,从而全面了解每位客户的偏好、行为和购买模式。
相比之下,数据产品侧重于利用数据来提供切实可行的洞察分析和解决方案,例如分析仪表板和预测模型。它们解决特定问题,由复杂的数据处理技术提供支持,可满足包括产品经理、数据科学家和最终用户在内的广大受众的需求。数据产品的示例可能包括业务分析仪表板、聊天机器人甚至推荐系统,例如您在亚马逊购物时看到的内容。
这两个概念都依赖于共同的数据管理和治理基础,最终目标是最大限度地发挥数据的内在价值。
随着企业开始投资先进的数据存储技术,让数据可得到广泛访问和使用,从而生成业务洞察分析并实现决策自动化,数据工程师面临着各种挑战,因为解决方案无法按预期进行扩展。由于数据经常充满错误、不完整、没有意义或真实性,而且他们对生成这些数据的源域知之甚少,因此工程师们难以纠正他们不知道或不理解的内容。
数据工程师认识到改变现代分布式架构的设计方法的必要性。他们看到了采用新方法的重要性,该方法围绕其旨在支持的特定业务领域组织架构。这种方法结合了产品思维,开发出功能强大、用户友好的自助式数据基础设施。1
产品思维所涉及的不仅仅是产品的功能,而是要创造出能与用户产生共鸣并在市场中脱颖而出的有意义的解决方案。这种理念影响着产品开发过程的每个阶段,从构思到发布和迭代。工程师们意识到,通过将数据视为产品,他们可以显著提高数据在组织内的使用和价值。
通过采用将数据集视为产品的方法,创建了特定业务领域的领域团队,负责在组织内管理和传播数据,从而更好地集中这些数据的主要消费者(通常是数据科学家和工程师)的用户体验。
这些领域团队通过 API(应用程序编程接口)共享数据,并附带全面的文档、强大的测试环境和明确的性能指标。
一个成功的 DaaP 必须满足以下要求:
这意味着,在 DaaP 方法中,数据必须易于查找、可靠、清楚地表示什么、可以与其他数据集成,并防止未经授权的访问。
将 DaaP 看成是航空旅行,每一条数据都是一位航空旅客:组织和用户需要知道每个数据点来自哪里,它们经历了哪些转型,以及它们最终会去向哪里。这称为数据沿袭,是有效采用 DaaP 的关键要素。通过使用 IBM InfoSphere、AWS Glue 或 Cloudera Data Hub 等工具,组织可以管理元数据并跟踪数据旅程,以确保透明度并避免混淆。
每位旅客经过适当审查后,便可登机。正如航空公司需要确保飞机足够大和坚固以容纳乘客一样,组织也必须使用可扩展的基础架构来适应不断增长的数据量和多次访问请求。根据组织的特定业务需求和细分市场,有许多基于云的平台、开源解决方案和商业平台可供组织选择。
现在,想象需要航班信息,但系统宕机了。这会破坏旅客的信任,并让航空公司显得不可靠、无效,而这正是 DaaP 工具需要持续交付的原因。这也是组织必须提供有关数据恢复和冗余的明确计划和报告的原因。
没有安检就没有航空旅行,DaaP 也是如此。基于角色的访问控制、数据加密和入侵检测系统等安全功能可保护敏感数据,并确保遵守 GDPR 和 HIPAA 等法规。治理实践,包括数据质量监控、编目和变革管理,确保组织的数据可靠且可访问。
DaaP 的核心是对数据集的细致编排。这些数据集由数据工程实践整理整理,其中涉及大规模数据管道的设计、构建和管理。这些管道通过端到端流程传输来自数据源的数据,将原始数据转换为高质量的结构化信息存储在数据仓库或数据湖中。数据平台是这些运营的基础,为数据团队提供有效执行数据分析和数据科学任务所需的基础架构和工具。
在这种情况下,数据模型和架构至关重要,因为它们定义了数据在数据仓库或数据湖中的组织、存储和关联方式。它们确保数据可供数据消费者发现、访问和使用,即业务分析师、数据科学家和应用程序开发人员,他们根据这些数据获得洞察分析并构建应用程序。SQL(结构化查询语言)仍然是与数据交互的关键工具,支持数据用户查询、操作和分析数据集,以满足其特定需求。
数据团队使用指标来评估数据产品的质量、性能和价值。这些指标指导迭代和持续改进过程,确保数据产品根据数据消费者的反馈和业务需求的变化而发展。
API 是将数据产品交付给最终用户和应用程序的渠道。它们方便访问,使数据消费者能够在各种用例中集成和使用数据—从运营报告到高级机器学习和人工智能 (AI) 项目。这种整合功能凸显了精心设计的 API 策略在 DaaP 生命周期中的重要性,该策略可确保数据不仅可访问,而且可操作。
在 DaaP 中应用机器学习和 AI,企业将能够解锁预测性洞察分析并实现决策流程自动化。企业可以利用根据历史数据训练的机器学习模型,预测未来趋势、优化运营并打造个性化的客户体验。数据的这种高级利用凸显了 DaaP 的迭代性质,即数据产品根据新数据、新兴用例和数据消费者的反馈不断完善和增强。
DaaP 提倡管理数据产品的生命周期,从创建时到维护,及其随着时间的推移演变。 它涉及一系列阶段,包括规划、开发、部署和迭代,每个阶段都需要数据团队、业务利益相关者和数据消费者之间的密切协作。这种生命周期方法可确保数据产品保持相关性、价值并与业务目标保持一致。
为了让数据在组织内发挥更大的作用,数据集必须易于查找、值得信赖并且能够与其他数据良好协作,这一点至关重要。让 DaaP 数据在组织内易于发现和寻址的关键在于实施集中式注册表或目录。该注册表应详细说明所有可用的 DaaP 数据,包括所有权、来源和沿袭等元数据,使数据消费者、工程师和科学家能够有效地找到相关数据集。
通过制定与数据真实性相关的服务级别目标 (SLO),并从一开始就应用严格的数据清理和完整性测试,组织可以增强用户对其数据的信心。此外,数据必须具有自描述能力,并遵守全球互操作性标准,从而实现跨各个领域的数据集成。数据产品所有者和工程师的角色在此生态系统中至关重要,他们定义并推动了 DaaP 数据的生命周期管理,以便既让用户满意又符合质量标准。这种方法不仅需要融合数据和软件工程技能,还需要在技术领域内营造创新、技能共享和跨职能协作的文化。
DaaP 鼓励企业将所有数据视为有价值的产品,在数据管理、选择、定制和交付方面体现基于消费者的产品原则。这种方法在以客户为中心的工具和思维方式的支持下,促进了高质量数据从创建者到消费者的无缝流动。想象一下数据就像您在商店中看到的产品;在 DaaP 方法下,组织应该像对待实体产品一样小心谨慎地对待其数据。
这意味着仅收集和存储真正有用的数据,确保数据呈现清晰、有条理且易于使用,并确保数据适合行业或领域环境。当这些部分就位时,DaaP 可以在组织内分发高质量的数据。油经过处理后,可以帮助机器运转。
在组织内应用 DaaP 方法意味着让利益相关者保持一致并随时向他们通报情况,形成一种将数据视为高质量产品进行处理和管理的心态,这意味着构建或投资自助服务工具,这是数据网格概念的主要原则之一—一种开发去中心化数据架构的方法。
采用 DaaP 会带来挑战,包括数据隐私问题、组织对变革的抵制以及员工需要提高数据素养。克服这些障碍需要战略规划、组织支持以及对技术和人才的投资。
在包含不同地区和规则的全球市场中浏览和遵守数据隐私法规是需要克服的主要障碍。组织需要专业知识和资源来确保其 DaaP 产品在每个地点都符合严格的法规。
数据泄露可能成为头条新闻,消费者越来越了解组织如何使用他们的数据。通过 DaaP 内透明的数据处理实践和清晰的数据使用文档来建立信任,这对于赢得用户群的信任至关重要。任何考虑 DaaP 的组织都需要采取强有力的安全措施,以保护数据免遭泄露和未经授权的数据访问。这包括实施加密、访问控制和数据治理框架。
成功的 DaaP 不仅仅是拥有正确的硬件和软件;与往常一样,新工具也伴随着对变化的抵制。既定的组织文化可能会抵制 DaaP 带来的数据所有权、共享和可访问性方面的变化。有效的变更管理策略和清晰的沟通对于确保不同部门愿意并能够共享他们的数据而不必担心失去控制或竞争优势至关重要。促进所有利益相关者协作并展示 DaaP 的优势至关重要,并且需要为数据治理和产品所有权建立明确的角色和责任,以避免混乱和不作为。
成功的 DaaP 计划对人的挑战还不止于此。由于 DaaP 要求整个组织都关注数据,因此组织可能会遇到与缺乏数据素养的员工之间的差距。各级员工都可能无法完全掌握 DaaP 的技术细节和业务价值;培训和教育计划可以帮助弥合差距。许多员工可能难以分析和提取 DaaP 产品的洞察分析,但提供用户友好的工具和数据素养培训可以增强他们的能力。此外,技术团队还需将复杂的数据洞察分析转化为非技术利益相关者切实可行的信息。
在整个生命周期将数据作为产品进行管理。通过强大的数据产品版本管理、维护和更新系统,掌控数据产品从载入到报废的整个生命周期。
快速将原始数据转化为可操作的洞察分析,统一数据治理、质量、沿袭和共享,为数据消费者提供可靠的情境化数据。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
1 如何超越单体数据湖迁移到分布式数据网格,martinfowler.com,2019 年 5 月。
2 梅奥诊所平台将其分布式数据网络扩展到合作伙伴以实现全球范围内的患者护理转型,mayoclinic.org,2023 年 5 月。
3 摩根大通使用高级 AI 检测欺诈,americanbanker.com,2023 年 7 月。
4 我们需要人们展望未来,hbr.org,2017 年 3 月。
5 基于 AI 的数据分析支持业务洞察分析 ,technologyreview.com,2022 年 12 月。