基本事实数据是监督机器学习的基石,它依赖于高质量的标记数据集。监督 ML 模型用于构建和推进当今的许多 AI 应用程序。例如,图像和对象识别、预测性分析、客户情绪分析和垃圾邮件检测背后都有监督式 ML 模型在提供支持。
基本事实数据提供了训练监督 ML 模型、验证其性能并测试其泛化能力(或根据新数据做出准确预测)所需的准确标记和经验证的信息。基本事实充当与模型预测对比的“正确答案”,有助于确保 AI 系统学习正确的模式并在现实场景中可靠地运行。
例如,想象一张猫的照片。该图像的训练数据集可能包括猫的身体、耳朵、眼睛和胡须的标签,以及一直到像素级别的分类。这些注解教机器学习算法如何识别新图像数据中的相似特征。
这些训练集标签的准确性至关重要。如果注释不正确或不一致(例如标记为狗爪而不是猫爪),则模型无法学习正确的模式。这可能会导致错误的预测。
一只长着狗爪子的猫似乎是无害的,但在医疗保健和气候变化缓解等领域,错误预测的风险会更高,因为实时准确性至关重要。
基本事实对于监督机器学习 (ML) 生命周期至关重要,这包括模型训练、验证和测试阶段。
基本事实是分类、回归和分割等多种监督学习任务的基础。无论模型是学习对数据进行分类、预测数值结果还是识别图像中的对象,都由基本事实为准确预测提供基准。这些任务具有广泛的实际用例,其中基本事实数据的准确性对于成功至关重要。
在分类任务中,基本事实数据为每个输入提供正确的标签,帮助模型将数据分类到预定义的类别中。例如,在二元分类中,模型在两个类别间作出区分(例如真或假)。多类分类稍微复杂一些:模型将数据分配到它必须选择的数个类之一。
以医疗保健行业为例。AI 平台通常使用多类分类来分析 CT 扫描和 MRI 等医学影像以帮助诊断。
广义上讲,AI 应用程序可以查看手臂的 X 光片并将其分为四类之一:骨折、骨裂、扭伤或健康。如果基本事实数据有缺陷,则可能导致错误的预测,从而可能导致误诊或治疗延误。
分割任务涉及将图像或数据集分解为不同的区域或对象。分割中的基本事实数据通常在像素级别定义,以识别图像中的边界或区域。
例如,在自动驾驶汽车开发中,基本事实标签用于训练模型以检测和区分现实环境中的行人、车辆和道路标志并相应采取行动。如果基本事实标签不正确或不一致,模型可能会错误识别物体,从而带来严重的行车安全风险。
设置高质量的基本事实数据面临多个挑战,包括:
组织可以使用多种战略和方法来建立和优化高质量的基本事实数据,包括:
借助 IBM watsonx.governance 随时随地治理生成式 AI 模型,并在云端或本地进行部署。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。