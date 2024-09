我的观点是,如果我们 80% 的工作是数据准备,那么保证数据质量就是机器学习团队的重要工作。 Andrew Ng, Professor of AI at Standford University and founder of DeepLearning.AI March 2021 https://www.deeplearning.ai/the-batch/issue-84/

IBM Research 的 Data Quality for AI 这个 Data Quality for AI(简称 DQAI)服务框架提供各种工具,赋能模型开发人员和数据科学家实施正式系统的数据准备程序,这是模型开发生命周期中最初且最耗时的步骤。框架适用于为监督分类或回归任务准备的数据,包含开展如下任务所需的软件:



— 实施质量检查,

— 执行补救措施,

— 生成审计报告,

— 自动执行上述所有操作。



虽然任务流水线对于可扩展性和可重复性至关重要,但包含的功能也可用于自定义数据探索和人工指导的模型改进。框架提供的服务有助于在模型开发生命周期的任何阶段保持高效,尤其是数据处理的早期和数据准备阶段。



除了在原始数据源上可以完成的所有工作外,还有一些方法可以从输入数据集开始:学习原始数据中的约束或由开发人员指定约束,推动合成新数据(无论是补充还是替换原始数据)。这尤其适用于下列情况:监管或合同问题禁止在建模工作中直接使用数据时;需要探索具有不同约束的数据集时;需要更多数据进行训练时。



产品适用于表格数据、时序数据以及开发中的新模式。





功能 数据验证 提供质量分数及其洞察分析,甚至指出拉低分数的具体数据区域,并建议如何改进这些数据区域。 数据修复 执行质量分析方法提供的建议。工具包支持多种数据类型,包括数据表格和时序数据。 数据限制 系统可以学习,用户也可以指定数据特征(例如,界限、间隙等)。 数据合成 生成具有第一个数据集的特征和分布的新数据集。 流水线 将验证器和修复器与约束结合起来,应对用例或应用程序工作流程,并输出总体数据质量分数 报告 自动记录变更,即记录质量指标的增量变化和应用的数据转换

建模操作中能享受什么优势? 全面性兼容工具 Data Quality for AI 是许多公开可用算法以及 IBM Research 独立开发的新方法的单一兼容数据来源。 节省时间和成本 减少下游任务中尝试的实验和实现的回归,缩短建模工作实现价值的时间。 正式化和简化的操作 提供工具,规范和简化数据准备过程,降低企业采用 AI 的障碍 团队标准化和协调 横切改善以下定义角色的运营效率和生产力:AI 管家、数据科学家、主题专家、AI 风险官、业务用户。