从被动反应到主动提高数据质量

Autodesk + IBM

两个人,一个站着,一个坐着,在办公室使用笔记本电脑工作
解决数据事件的被动方法

Steve Gotlieb 是 Autodesk 的数据工程和可视化高级经理,Autodesk 是一家跨国软件公司,为多个行业提供软件产品。他负责管理北美和新加坡的全球数据工程和平台团队。他的团队专注于构建可重用的组件,以帮助创建支持数据驱动型解决方案的强大而可靠的数据平台。

在他的领导下,Steve 开始倡导数据质量作为核心平台组件,以支持数据网格概念,促进自带数据方法并使整个组织能够顺利进行数据集成和利用。

Steve 的团队和 Autodesk 的其他数据工程团队反复面临的一个重大挑战是:出现数据问题时,他们往往是最后一个知道的。Steve 的团队被迫采取被动方法来解决问题,无论是数据丢失、数据延迟或陈旧,还是数据不正确且为空值。

当团队意识到数据问题时,问题可能已经存在一个月或更长时间,因此浪费了公司宝贵的时间和资源。

“我们之前有一个定制的数据质量管理 (DQM) 系统,但它是一种被动且不可扩展的解决方案,”Steve 说,“DQM 系统依靠运行查询来监控运行次数,但它不会主动检测数据质量问题。有关数据问题的通知不一致且延迟,通常通过电子邮件或 Slack 消息送达,没有明确的所有权。”

我们早已厌倦反复遭遇同类数据事件,却始终无人牵头处理的状况。借助 IBM watsonx.data integration(前身为 Databand),我们将平均检测时长缩短至近乎零。在 Autodesk,我们鼓励创新,因此将此视为向业务引入数据可观察性的内部契机。
Steve Gotlieb 数据工程和可视化高级经理 Autodesk
Autodesk 优化数据质量管控流程

Steve 及其团队着手评估数据可观察性解决方案,他们意识到需要采取更主动的管控方式。他们深入了解了多款方案,包括 Monte Carlo Data 和 Datafold,而 IBM watsonx.data integration(前身为 Databand)软件的数据可观察性尤为突出。Autodesk 的创新文化推动企业开展创新冲刺活动,集结跨职能团队深入了解并展示潜在解决方案。Autodesk 首席数据工程师 Preeti Taneja 在本次评估工作中发挥了关键作用。她的团队仅有一周时间来展示数据可观察性如何优化数据质量管控流程。

他们评估了 IBM watsonx.data integration(前身为 Databand)能否检测源系统变更,并在工作流故障时发出实时警报。最终效果十分出色。该方案可与 Autodesk 的现代数据栈无缝集成,包括 Apache Airflow、dbt、Spark 和 Snowflake,其即时警报功能更是令人印象深刻。

“与我们现代数据栈的便捷集成,让我们快速看到了实际价值,”Preeti 表示。“当我们开始收到即时警报时,其主动式数据质量管控能力真正让我们感到惊喜。”

经过内部评估, IBM watsonx.data integration(前身为 Databand)成为最优选择,团队随即推进方案落地。

Steve 的团队每日使用 IBM watsonx.data integration(前身为 Databand),监控各类用例中的数据事件,具体包括:

  • 缩短检测时间:将以往耗费数周和数天的检测时间缩短为零。

  • 批处理监控:实时监控超过 1,000 个 DAG。

  • 内联测试:团队借助内联测试功能实时检测数据质量问题,这对保障数据完整性至关重要。

  • 数据产品支持:为向 Autodesk 客户输送洞察分析与产品内消息的管道提供支撑。

  • 机器学习 (ML) 与 AI 管道监控:监控支撑 ML 与 AI 团队的管道,保障数据处理全流程的数据质量。
理想情况下,我们期望 Autodesk 所有数据工程团队都能使用 IBM watsonx.data integration(前身为 Databand)。IBM 团队对我们的路线图需求响应十分及时,我们相信很快会有更多团队采用该方案。
Steve Gotlieb 数据工程和可视化高级经理 Autodesk
提高数据质量和运营效率

IBM watsonx.data integration(前身为 Databand)的落地,为 Autodesk 的数据质量管理带来了立竿见影的显著提升:

  1. 缩短检测时长:数据质量问题的检测时长从天级缩短至分钟级。即时检测让团队能在问题引发重大故障前及时处理。

  2. 缩短平均解决时间 (MTTR):数据问题的平均解决时长从数周缩短至数天。检测数据延迟、架构变更与管道故障等事件,有助于维护组织内部的信任度与运营效率

  3. 根本原因分析:提供高阶根本原因分析能力,帮助团队快速定位并从源头解决问题

  4. 无缝集成:该解决方案与 Autodesk 现有平台顺利集成,无需重写 Spark、Airflow 和 dbt 核心管道。这种集成包括监控 Snowflake 环境中的批处理、内部管道和静态数据

  5. 节约成本:Autodesk 通过及早发现问题、避免任务重跑,降低了云资源使用成本。

Autodesk 在提高数据质量和运营效率方面取得了切实成果。对功能请求的透明跟踪进一步巩固了合作伙伴关系,实现了持续改进和创新。

Autodesk 徽标
关于 Autodesk

全世界的设计师、工程师、建筑商和创作者都信赖使用 Autodesk(ibm.com 外部链接)来帮助他们设计和制造一切相关事物,从我们生活和工作的建筑物,到我们驾驶的汽车和驶过的桥梁。甚至我们每天使用和依赖的产品以及给我们带来灵感的电影和游戏都得益于 Autodesk。Autodesk 的设计和制造平台解锁了数据的强大力量,以加速获得洞察并实现流程自动化,使我们的客户能够利用科技创造赖以生存的世界,为他们的企业和地球带来更好的结果。如需更多信息,请访问 autodesk.com(ibm.com 外部链接)。

解决方案组件 IBM® watsonx.data 集成 IBM® Databand
IBM watsonx.data integration

通过连续的数据可观察性提供值得信赖且可靠的数据

  1. 体验交互式演示
  2. 阅读 Gartner 报告
法律信息

© Copyright IBM Corporation 2024。IBM、IBM 徽标和 Databand 是 IBM Corp. 在美国和/或其他国家或地区的商标或注册商标。

本文档为自最初公布日期起的最新版本,IBM 可能随时对其进行更改。IBM 并不一定在开展业务的所有国家或地区提供所有产品或服务。

插图中的客户示例展示了客户使用 IBM 产品的方式以及他们可能已取得的结果。实际性能、成本、节省情况或其他结果可能因具体运营环境不同而异。