什么是基本事实?

审视一组图表和数据的人员

作者

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

什么是基本事实?

基本事实或基本事实数据,是指一些经过验证的真实数据,它们用于训练、验证和测试人工智能 (AI) 模型。
 

数据科学领域,基本事实数据是准确数据的黄金标准。通过将输出结果与“正确答案”(基于真实世界观测的数据)进行比较,数据科学家能够对模型性能进行评估。这可验证机器学习 (ML) 模型能否产生反映现实的准确结果。

基本事实数据对监督学习尤为重要,这是 ML 一的个子类别,它使用标记数据集来训练算法,以对数据进行分类(分类器)或准确预测结果。

数据标记或数据注释是基本事实数据收集的基础。如果没有准确的标签或注释,数据就不能被视为现实世界真相的基准。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

为什么基本事实数据很重要?

基本事实数据是监督机器学习的基石,它依赖于高质量的标记数据集。监督 ML 模型用于构建和推进当今的许多 AI 应用程序。例如,图像和对象识别、预测性分析、客户情绪分析和垃圾邮件检测背后都有监督式 ML 模型在提供支持。

基本事实数据提供了训练监督 ML 模型、验证其性能并测试其泛化能力(或根据新数据做出准确预测)所需的准确标记和经验证的信息。基本事实充当与模型预测对比的“正确答案”,有助于确保 AI 系统学习正确的模式并在现实场景中可靠地运行。

例如,想象一张猫的照片。该图像的训练数据集可能包括猫的身体、耳朵、眼睛和胡须的标签,以及一直到像素级别的分类。这些注解教机器学习算法如何识别新图像数据中的相似特征。

这些训练集标签的准确性至关重要。如果注释不正确或不一致(例如标记为狗爪而不是猫爪),则模型无法学习正确的模式。这可能会导致错误的预测。

一只长着狗爪子的猫似乎是无害的,但在医疗保健和气候变化缓解等领域,错误预测的风险会更高,因为实时准确性至关重要。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

整个 ML 生命周期的基本事实

基本事实对于监督机器学习 (ML) 生命周期至关重要,这包括模型训练、验证和测试阶段。

  • 训练:在训练阶段,基本事实数据为模型提供正确答案,供其学习。数据标注的准确性至关重要:如果基本事实数据错误或不一致,模型就会学习到错误的模式,难以做出准确的预测。

  • 验证:训练模型时,会根据它从基本事实数据中学习的程度来评估它。这是通过验证完成的,其中模型的预测将与基本事实数据的不同样本进行比较。在此阶段,可以调整和微调模型。

  • 测试:在模型经过训练和验证后,使用新的基本事实数据集进行测试有助于确保它在新的、没见过的数据上表现良好(泛化)。这是切实评估模型在实际场景中的有效性的步骤。准确度、精确率和召回率等指标可评估模型的性能并指明需要改进的领域。

不同 ML 任务中的基本事实

基本事实是分类、回归和分割等多种监督学习任务的基础。无论模型是学习对数据进行分类、预测数值结果还是识别图像中的对象,都由基本事实为准确预测提供基准。这些任务具有广泛的实际用例,其中基本事实数据的准确性对于成功至关重要。

分类

分类任务中,基本事实数据为每个输入提供正确的标签,帮助模型将数据分类到预定义的类别中。例如,在二元分类中,模型在两个类别间作出区分(例如真或假)。多类分类稍微复杂一些:模型将数据分配到它必须选择的数个类之一。

以医疗保健行业为例。AI 平台通常使用多类分类来分析 CT 扫描和 MRI 等医学影像以帮助诊断。

广义上讲,AI 应用程序可以查看手臂的 X 光片并将其分为四类之一:骨折、骨裂、扭伤或健康。如果基本事实数据有缺陷,则可能导致错误的预测,从而可能导致误诊或治疗延误。

回归

回归任务侧重于预测连续值。基本事实数据表示模型尝试预测的实际数值结果。例如,线性回归模型可以根据面积、房间数量和位置等因素预测房价。

在缓解气候变化方面,AI 模型使用卫星图像和遥感数据来监测环境变化,包括气温变化或森林砍伐。

这种情况下的基本事实数据包括经过验证的历史天气数据记录或已知温度测量结果。这些基本事实数据有助于确保 AI 模型的预测准确无误,并可为关键政策和气候行动决策提供信息。

细分

分割任务涉及将图像或数据集分解为不同的区域或对象。分割中的基本事实数据通常在像素级别定义,以识别图像中的边界或区域。

例如,在自动驾驶汽车开发中,基本事实标签用于训练模型以检测和区分现实环境中的行人、车辆和道路标志并相应采取行动。如果基本事实标签不正确或不一致,模型可能会错误识别物体,从而带来严重的行车安全风险。

建立基本事实的常见挑战

设置高质量的基本事实数据面临多个挑战,包括:

  • 不一致的数据标记:数据科学家经常会遇到数据集的变动,这可能导致不一致,从而影响模型行为。即使是归属信息和引文中的微小标记错误也会叠加,导致模型预测错误。

  • 主观性和模糊性:许多数据标注任务需要人工判断,而人工判断可能是主观的。例如,在情感分析等任务中,不同的注释者可能会以不同的方式解释数据,从而导致基本事实不一致。

  • 数据的复杂性:大型且多样化的数据集在自然语言处理 (NLP) 或生成式人工智能(生成式 AI)等领域很常见,可能更难进行准确注释。数据的复杂性,包括多种可能的标签和上下文细微差别,使得建立一致的基本事实变得更加困难。

  • 有偏差和有偏倚的数据:基本事实数据并不总是能完全代表真实世界的场景,尤其是在标注数据集不完整或不平衡的情况下。这可能会得到有偏倚的模型。

  • 可扩展性和成本:标记大型数据集,特别是那些需要专家知识和直接观察的数据集(例如医学影像),既耗时又昂贵。扩展数据标记工作以满足现代 AI 系统的需求通常需要自动化或众包,但这些方法仍然会引入错误或不一致。

建立高质量基本事实数据的战略

组织可以使用多种战略和方法来建立和优化高质量的基本事实数据,包括:

  • 确定目标和数据要求:明确定义模型目标有助于公司确定所需的数据类型和标签,从而使数据收集过程符合模型的预期用途。这种对齐在计算机视觉等领域尤其重要,在这些领域中,ML 和神经网络教导系统从视觉输入中获得有意义的信息。

  • 制定全面的标签战略:组织可以创建标记基本事实数据的标准化指南,以帮助确保整个数据集的一致性和准确性。定义良好的标签架构可能会指导如何在模型开发过程中注释各种数据格式并保持注释统一。

  • 使用人机协作:包括 Amazon SageMaker Ground Truth 或 IBM® Watson Natural Language Understanding 在内的机器学习工具可以增强人类注释者的专业技能。例如,Amazon SageMaker Ground Truth 提供数据标记服务,通过自动标记和人工审查流程,辅助创建高质量的训练数据集。

  • 验证数据的一致性:团队可通过实施质量保证流程(如标注者间协议 (IAA))来监控标注数据的一致性。IAA 是一种统计指标,用于衡量不同注释者在标记相同数据时的一致性水平。

  • 解决偏倚问题:数据科学家应意识到并尽量避免基本事实数据集中可能存在的偏倚。他们可以采用多种战略,包括通过为每个数据点使用多个不同的注释者、与外部来源交叉引用数据,或者对代表性不足的群体使用数据增强战略,来确保多样化的数据收集实践。

  • 更新基本事实数据:基本事实数据是一种动态资产。组织可以比照新数据确认其模型的预测,并随着现实世界条件的发展更新标记的数据集。卫星图像、遥感数据和气候变化模型都是需要持续校准以保持数据集长期准确性的例子。
相关解决方案
IBM watsonx.governance™

借助 IBM watsonx.governance 随时随地治理生成式 AI 模型,并在云端或本地进行部署。

深入了解 watsonx.governance
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解人工智能解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

借助单一组合来指导、管理和监控您的 AI,以加速负责任、透明且可解释的 AI。

深入了解 watsonx.governance 预约实时演示