数据问题 | IBM

或许管理数据管道最棘手的一点，是要摸清系统中的“隐形幽灵”——不妨称之为“机械降神式数据”。

许多数据管道仿佛自带“性格特质”。它们变幻无常；遇到恶劣天气就会莫名崩溃；输出结果总是出错，运行耗时却又飘忽不定、令人抓狂；部分问题甚至看似完全无解。

这也是 IBM® Databand 存在的重要原因：让数据工程师能够了解数据问题。所有人都希望能更快找到以下问题的答案：“为何出现运行时错误？”或“任务为何仍卡在队列中未执行？”很多时候，没有人知道。

但借助可观测性平台，你就能找到答案。终于可以实时开展全面的根本原因分析——无需在堆积如山的待办工单中再添一笔，也不会留下那些迟早会反噬的“数据债务”。

本指南将分享我们在实践中遇到的最常见数据管道问题，以及这些问题背后的根本原因。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。

数据问题的近因与根本原因

如何修复数据质量问题？首先要明白，优秀的数据工程师在于他们能够找到数据问题的根本原因。任何人都可以重置流程，耸耸肩，然后继续工作。然而，很少有人会像侦探一样彻查问题根源，但这恰恰是解决问题的关键所在。

这本质上是满足于“近因”还是追溯“根本原因”的区别。近因是那些表面上显现的问题，例如运行时错误。而根本原因是导致近因发生的深层因素，其排查难度要大得多。有时，近因就是根本原因，但这种情况极为罕见。

把近因设想为单纯的警报。它们说明管道中某处存在根本错误。若对此置之不理，风险自担——因为数据债务会不断累积恶化。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

常见的近因（数据问题常见示例）

祸不单行，数据问题往往也会扎堆出现。以下是常见的近因性数据问题——这些问题并非互斥，且所列内容远非详尽：

时间表改变
管道超时
作业卡在队列中
出现意外转换
特定运行失败（可能在开始时就失败）
运行时间异常长
全系统故障
发生转换错误
许多作业在前一晚失败
输入大小异常
发生异常的输出规模
运行时间异常
任务意外停滞
出现运行时错误

但这还不是全部，对吧？再次强调：不应将这些视为单纯的问题，而应看作信号。它们都是可能出现的异常表现，预示着背后已发生更棘手的深层问题。这类信号往往会集中出现。
而可观测性平台能在此发挥关键作用。它可将这些同时发生的异常进行分组归类，帮助用户理清问题脉络。

你也可以根据数据问题所归属的数据质量维度进行分组——例如适用性、数据血缘、数据治理或数据稳定性。通过这种维度化分组，能够清晰呈现你在哪些数据质量领域存在最多问题，同时将看似孤立的问题置于整体语境中进行关联分析。

当然，你无需等到任务失败后才采取这种排查方式。如果使用 Databand 平台，它支持对历史异常数据进行回溯性调查（该平台会捕获所有相关历史元数据），从而帮助你明确哪些是因果关系，哪些只是单纯的相关性。

通过这种方法，你能够从十几个错误中精准定位出“任务停滞”这类问题，并通过对多个关联问题的交叉验证，确定其根本原因很可能是集群资源配置失败。这正是你应采用的排查思路。始终聚焦于挖掘数据问题的根本原因。

15 个最常见的根本原因

根本原因是道路的终点。根本原因应是因果链中的初始事件——不妨称之为多米诺骨牌的第一块，且能对问题作出主要解释。若数据问题的这一根本原因未发生，所有近因也不应出现，它与所有近因存在直接的因果关系。

当然，根本原因并非总能一目了然，相关性也未必绝对精准。若你对自己的结论缺乏信心，可通过一个思维实验来推算真实的置信度：假设老板告诉你，团队将完全按照你的假设推进方案，上线前不会有人复核，且方案全程以你的名义负责；一旦出错，所有责任由你承担。此时，你会给自己的假设打多少分（0-100 分）？如果低于 70，请继续调查。

常见的根本原因数据问题包括：

1. 用户错误：我们先从用户错误开始，因为这是常见的错误。可能有人录入了错误的数据库模式或无效值，这会导致数据管道无法读取数据，或基于错误数值执行了本应正确的处理流程，最终引发任务失败。

2. 数据标记错误：有时数据表中的行会发生错位，导致正确的字段标签被错误映射到对应列中。

3. 数据合作方未按时交付数据：这一情况也极为常见。你可以构建一个防弹系统，但你无法控制看不见的东西；若问题存在于源数据中，会导致本质良好的管道出现异常。

4. 代码错误：当管道出现新版本时，这种情况很常见。使用 Git 或 GitLab 等版本控制软件可以很快解决这个问题。将生产代码与先前版本进行比较，并使用先前版本运行测试。

5. OCR 数据错误：光学扫描仪读取数据时出现错误，导致生成异常值（或缺失值）。

6. 数据过期问题：数据集已过时，不再有效。

7. 重复数据问题：通常，供应商无法交付数据，因此管道运行的是上周的数据。

8. 权限问题：数据管道执行失败的原因可能是：系统缺乏拉取数据的权限，或无执行数据转换操作的权限。

9. 基础架构错误：可能的情况包括：可用内存达到上限、API 调用次数耗尽、Apache Spark 集群未启动，或数据仓库出现异常缓慢，这些问题都会导致任务在缺少所需数据的情况下执行（最终失败）。

10. 时间表变更：有人（或某个系统）修改了调度配置，导致管道执行顺序错乱，或直接未触发运行。

11. 有偏倚数据集：排查起来非常棘手。要排查此类问题，唯一可行的方法是通过测试验证数据相对于同类真实数据集是否存在异常，或追溯数据的采集与生成链路。

12. 编排器故障：管道调度器未能成功调度任务，或未触发任务执行。

13. 机器幽灵（数据天降异常）：成因完全无法追溯。很难承认这一点，但对有些事情来说，就是如此。你所能做的最优选择是做好记录存档，并为后续情况做好准备，待下次发生时收集更全面的数据，进而着手挖掘相关关联线索。

当然，实际情况中还存在根本原因不完全明确的情况。许多现象相互关联，且很可能彼此依赖，但始终找不到一个清晰统一的答案——即便你通过调整修复了数据问题，也依然不确定问题的症结所在。

这种情况下（与其他所有情况一样），请在日志中记录下你的假设；待后续有条件时，继续通过历史数据验证，并持续关注新出现的问题以及更具解释力的潜在原因。

付诸实践以减少数据问题

区分初级数据工程师与资深专家的核心特质，在于前者能否精准定位根本原因，以及后者对模糊答案的接纳与驾驭能力。近因有时就是根本原因，但并非绝对。根本原因有时与特定近因存在关联，但也不必然。有些情况下，我们甚至无法区分某一问题是数据偏差所致，还是人为操作失误引发。

优秀的数据工程师深知，数据管道往往变幻莫测，甚至带有“个性”。但他们能敏锐感知其状态变化，配备了相应的监测工具，且始终在不懈探寻更可靠的问题解释。

了解 IBM Databand 如何通过提供数据管道监控功能，来快速检测任务故障或运行失败等数据事件，以便企业应对管道增长。如果您准备深入了解，请立即预约演示。

利用分析技术改进业务预测的四个步骤

利用分析和商业智能的强大功能来规划、预测和塑造未来结果，使公司和客户获得最大利好。

资源

Gartner 预测 2024 年：AI 将如何影响分析用户

获得关于不断演变的 ABI 解决方案格局的独特洞察分析，重点介绍适用于数据和分析领导者的主要发现、假设和建议。

面向 AI 的混合、开放湖仓一体

简化数据访问并实现数据治理自动化。了解将湖仓一体战略集成到数据架构中的强大功能，包括优化工作负载的成本、扩展 AI 和分析，以及随时随地使用所有数据。

《数据差异化因素》

深入了解数据领导者指南，了解如何构建数据驱动型组织和推动业务优势。

大规模管理 AI 和分析数据

了解开放湖仓一体方法如何提供可信数据以及加快分析和 AI 项目执行。

如何成功调整 AI、数据和分析战略

通过这 4 个关键步骤，将您的数据和分析策略与业务目标联系起来。

克服低采用率，做出明智决策

深入了解商业智能挑战可能持续存在的原因，以及它对整个组织的用户意味着什么。

13 个最常见的管道数据问题（附示例）