从被动反应到主动提高数据质量

Autodesk + IBM Databand
两个人,一个站着,一个坐着,在办公室使用笔记本电脑工作
解决数据事件的被动方法

Steve Gotlieb 是 Autodesk 的数据工程和可视化高级经理,Autodesk 是一家跨国软件公司,为多个行业提供软件产品。他负责管理北美和新加坡的全球数据工程和平台团队。他的团队专注于构建可重用的组件,以帮助创建支持数据驱动型解决方案的强大而可靠的数据平台。

在他的领导下,Steve 开始倡导数据质量作为核心平台组件,以支持数据网格概念,促进自带数据方法并使整个组织能够顺利进行数据集成和利用。

Steve 的团队和 Autodesk 的其他数据工程团队反复面临的一个重大挑战是:出现数据问题时,他们往往是最后一个知道的。Steve 的团队被迫采取被动方法来解决问题,无论是数据丢失、数据延迟或陈旧,还是数据不正确且为空值。

当团队意识到数据问题时,问题可能已经存在一个月或更长时间,因此浪费了公司宝贵的时间和资源。

“我们之前有一个定制的数据质量管理 (DQM) 系统,但它是一种被动且不可扩展的解决方案,”Steve 说,“DQM 系统依靠运行查询来监控运行次数,但它不会主动检测数据质量问题。有关数据问题的通知不一致且延迟,通常通过电子邮件或 Slack 消息送达,没有明确的所有权。”

我们已经厌倦了一次又一次地被数据事件弄得措手不及,而又无人负责解决这些事件。借助 Databand,我们能够将平均检测时间缩短至几乎为零。在 Autodesk,我们鼓励创新,因此我们将此视为将 Databand 的数据可观察性引入企业的内部机会。 Steve Gotlieb 数据工程和可视化高级经理 Autodesk
Databand 转变数据质量流程

Steve 和他的团队开始评估数据可观察性解决方案,并且认识到他们需要采取更积极主动的方法。他们探索了各种选项,包括 Monte Carlo Data 和 Datafold,但 IBM® Databand 可观察性软件脱颖而出。Autodesk 的创新文化促使他们安排了一次创新冲刺,召集跨职能团队来探索和展示潜在的解决方案。Autodesk 首席数据工程师 Preeti Taneja 在本次评估中发挥了关键作用。她的团队只有一周的时间来展示 Databand 如何转变数据质量流程。

他们评估了 Databand 是否能够检测源系统的变化并在工作流出现故障时提供实时警报。结果令人印象深刻。Databand 与 Autodesk 现代数据堆栈(例如 Apache Airflow、dbt、Spark 和 Snowflake)的无缝集成以及提供即时警报的能力给人留下了深刻的印象。

“Databand 易于与我们的现代数据堆栈集成,这使我们能够立即看到价值,”Preeti 说,“当我们开始收到即时警报时,Databand 的主动数据质量功能才真正让我们惊叹不已。”

经过内部评估,Databand 成为明显的赢家,并带领团队继续推进其实施。

Steve 的团队每天使用 Databand 来监控各种用例中的数据事件,包括:

  • 批处理监控:Databand 广泛用于监控生产批处理。Databand 主动监控超过 1,000 个 DAG。

  • 内联测试:团队使用 Databand 的内联测试功能来实时检测数据质量问题,这对于维护数据完整性至关重要。

  • 数据产品支持:Databand 支持为 Autodesk 客户提供洞察和产品内消息传递的管道。

  • 机器学习 (ML) 和 AI 管道监控:Databand 还监控支持 ML 和 AI 团队的管道,帮助确保在数据处理的所有阶段保持数据质量。
理想情况下,我们希望每个 Autodesk 数据工程团队都使用 Databand。Databand 团队对我们的路线图请求反应非常迅速,我们相信很快会有更多团队采用 Databand。 Steve Gotlieb 数据工程和可视化高级经理 Autodesk
提高数据质量和运营效率

Databand 的实施为 Autodesk 的数据质量管理带来了立竿见影的显著改善:

  1. 缩短检测时间:Databand 将检测数据质量问题的时间从几天缩短至几分钟。这种即时检测使团队能够在问题造成重大破坏之前予以解决。

  2. 缩短平均解决时间 (MTTR):借助 Databand,解决数据问题的平均时间从数周缩短至数天。检测数据延迟、模式更改和管道故障等事件有助于维护组织内部的信任和效率

  3. 根本原因分析:Databand 提供先进的根本原因分析,使团队能够快速识别和修复问题源头

  4. 无缝集成:该解决方案与 Autodesk 现有平台顺利集成,无需重写 Spark、Airflow 和 dbt 核心管道。这种集成包括监控 Snowflake 环境中的批处理、内部管道和静态数据

  5. 节省成本:Autodesk 通过及早发现问题并避免重新运行,降低了云使用成本。

Autodesk 在提高数据质量和运营效率方面取得了切实成果。对功能请求的透明跟踪进一步巩固了合作伙伴关系,实现了持续改进和创新。

Autodesk logo black
关于 Autodesk

全世界的设计师、工程师、建筑商和创作者都信赖使用 Autodesk(ibm.com 外部链接)来帮助他们设计和制造一切相关事物,从我们生活和工作的建筑物,到我们驾驶的汽车和驶过的桥梁。甚至我们每天使用和依赖的产品以及给我们带来灵感的电影和游戏都得益于 Autodesk。Autodesk 的设计和制造平台解锁了数据的强大力量,以加速获得洞察并实现流程自动化,使我们的客户能够利用科技创造赖以生存的世界,为他们的企业和地球带来更好的结果。如需更多信息,请访问 autodesk.com(ibm.com 外部链接)。

解决方案组件 IBM® Databand
IBM Databand

通过连续的数据可观察性提供值得信赖且可靠的数据

体验交互式演示 阅读 Gartner 报告
法律信息

© Copyright IBM Corporation 2024。IBM、IBM 徽标和 Databand 是 IBM Corp. 在美国和/或其他国家或地区的商标或注册商标。

本文档为自最初公布日期起的最新版本,IBM 可能随时对其进行更改。IBM 并不一定在开展业务的所有国家或地区提供所有产品或服务。

插图中的客户示例展示了客户使用 IBM 产品的方式以及他们可能已取得的结果。实际性能、成本、节省情况或其他结果可能因具体运营环境不同而异。