Data Quality for AI
查看、修复、重构、补充数据,提高模型开发速度和效率
开始试用 API
黑色、绿色和蓝色背景
我的观点是,如果我们 80% 的工作是数据准备,那么保证数据质量就是机器学习团队的重要工作。 Andrew Ng, Professor of AI at Standford University and founder of DeepLearning.AI March 2021 https://www.deeplearning.ai/the-batch/issue-84/
IBM Research 的 Data Quality for AI

这个 Data Quality for AI(简称 DQAI)服务框架提供各种工具,赋能模型开发人员和数据科学家实施正式系统的数据准备程序,这是模型开发生命周期中最初且最耗时的步骤。框架适用于为监督分类或回归任务准备的数据,包含开展如下任务所需的软件:

— 实施质量检查,
— 执行补救措施,
— 生成审计报告,
— 自动执行上述所有操作。

虽然任务流水线对于可扩展性和可重复性至关重要,但包含的功能也可用于自定义数据探索和人工指导的模型改进。框架提供的服务有助于在模型开发生命周期的任何阶段保持高效,尤其是数据处理的早期和数据准备阶段。

除了在原始数据源上可以完成的所有工作外,还有一些方法可以从输入数据集开始:学习原始数据中的约束或由开发人员指定约束,推动合成新数据(无论是补充还是替换原始数据)。这尤其适用于下列情况:监管或合同问题禁止在建模工作中直接使用数据时;需要探索具有不同约束的数据集时;需要更多数据进行训练时。

产品适用于表格数据、时序数据以及开发中的新模式。

功能
数据验证

提供质量分数及其洞察分析,甚至指出拉低分数的具体数据区域,并建议如何改进这些数据区域。


数据修复

执行质量分析方法提供的建议。工具包支持多种数据类型,包括数据表格和时序数据。


数据限制

系统可以学习,用户也可以指定数据特征(例如,界限、间隙等)。


数据合成

生成具有第一个数据集的特征和分布的新数据集。


流水线

将验证器和修复器与约束结合起来,应对用例或应用程序工作流程,并输出总体数据质量分数


报告

自动记录变更,即记录质量指标的增量变化和应用的数据转换

建模操作中能享受什么优势?
全面性兼容工具

Data Quality for AI 是许多公开可用算法以及 IBM Research 独立开发的新方法的单一兼容数据来源。

节省时间和成本

减少下游任务中尝试的实验和实现的回归,缩短建模工作实现价值的时间。

正式化和简化的操作

提供工具,规范和简化数据准备过程,降低企业采用 AI 的障碍

团队标准化和协调

横切改善以下定义角色的运营效率和生产力:AI 管家、数据科学家、主题专家、AI 风险官、业务用户。

包含的实用程序示例
数据验证

— 标签纯度检查 — 数据同质性校验 — 类奇偶校验 — 完整性检查 — 异常值检测 — 特征相关性检查 — 数据偏差检查 — 特征冗余检查 — 等等

数据修复

— 纯度修复 — 不同质性修复 — 类不一致修复 — 不完整修复 — 异常值去除 — 特征相关性去除 — 数据偏差去除 — 特征冗余去除 — 等等