数据标签
黑色和蓝色背景
数据标签

探索数据标签的用途和优势,包括不同的方法和最佳实践。

特色产品

IBM Watson Natural Language Understanding

IBM Cloud Object Storage


什么是数据标签?

数据标签或数据注释是开发 机器学习 (ML) 模型时预处理阶段的一部分。 它需要识别原始数据(如图像、文本文件、视频),然后向原始数据添加一个或多个标签,以指定模型的上下文,从而允许机器学习模型做出准确的预测。

数据标签支持不同的机器学习和深度学习用例,包括计算机视觉和自然语言处理 (NLP)。


数据标签如何工作?

企业集成软件、流程和数据注释器来清理、构建和标记数据。 这种训练数据成为机器学习模型的基础。 这些标签允许分析师隔离数据集中的变量,这反过来又可以为 ML 模型选择最佳数据预测变量。 标签标识用于模型训练的相应数据向量,然后模型将学习做出最佳预测。

在机器的帮助下,数据标签工作需要“人机协同 (HITL) ”。 HITL 利用数据标签人员的判断来创建、训练、微调和测试 ML 模型。 它们通过提供最适合给定项目的模型数据集来帮助指导数据标签过程。

有标签数据与无标签数据
 

计算机使用有标签数据与无标签数据来训练机器学习模型,但 区别在哪里

  • 有标签数据用于 监督学习,而无标签数据用于 无监督学习 。
  • 有标签数据更难以收集和存储(既耗时又昂贵),而无标签数据更易于收集和存储。
  • 有标签数据可用于确定切实可行的洞察(例如预测任务),而无标签数据的用途更加有限。 无监督学习方法可以帮助发现新数据集群,在标记时允许新建分类。

计算机还可以使用组合数据进行半监督学习,这减少了对手动数据标签的需求,同时提供大型注释数据集。


数据标签方法

数据标签是开发高性能机器学习模型的关键一步。 虽然标签看似简单,但实现起来并不总是非常容易。 因此,企业必须考虑多种因素和方法来确定最佳标签方法。 由于每种数据标签方法都有其优缺点,因此建议对任务复杂性以及项目的规模、范围和持续时间进行详细评估。

以下是一些数据标签途径:

  • 内部标签 使用内部数据科学专家可以简化跟踪,提高准确性和质量。 但是,这种方法通常需要更多的时间,并且有利于资源广泛的大型企业。
  • 综合标签 —这种方法从之前的数据集生成新的项目数据,从而提高数据质量和时间效率。 然而,综合标签需要广泛的计算能力,这会增加定价。
  • 程序标签 —这种自动化数据标签过程使用脚本来减少时间消耗和对人工注释的需求。 然而期间可能存在技术问题,需要在质量保证 (QA) 流程中继续保证 HITL。
  • 外包 —这可能是高级别临时项目的最佳选择,但开发和管理面向自由职业者的工作流程也可能非常耗时。 虽然自由职业平台提供全面的候选人信息以简化审查流程,但招聘托管数据标签团队提供经过预先审查的员工和预先构建的数据标签工具。
  • 众包 —这种方法的优点在于其微任务处理能力和基于 Web 的分发,它更快并且更具成本效益。 但是,员工质量、QA 和项目管理能力因众包平台而异。 众包数据标签最广为人知的例子之一是 Recaptcha。 这个项目有两层含义,既控制机器人,又同时改进图像的数据注释。 例如,Recaptcha 提示将要求用户识别包含汽车的所有照片以证明他们是人类,然后该程序可以根据其他用户的结果进行自我检查。 这些用户的输入为图像组提供标签数据库。

数据标签的优点和挑战

一般而言,数据标签的权衡点是,虽然它可以减少企业的扩展时间,但成本往往较高。 更准确的数据通常会改善模型预测,因此尽管成本很高,但其提供的价值通常非常值得投入。 由于数据注释为数据集提供了更多上下文,可以增强探索性数据分析以及机器学习 (ML) 和人工智能 (AI) 应用的性能。 例如,数据标签有助于在搜索引擎平台上产生更相关的搜索结果,并在电子商务平台上提供更好的产品推荐。 让我们深入探究其他关键优点和挑战:

优点
 

数据标签为用户、团队和公司提供更多背景信息、质量和可用性。 更具体地说,您将拥有:

  • 更精确的预测: 准确的数据标签可确保机器学习算法中的质量保证更高,进而支持模型训练并产生预期的输出。 否则,就会出现我们常说的“无用输入,无用输出”。 恰当的标签数据为测试和迭代后续模型 提供“实况”(例如,标签如何反映现实世界的场景)。
  • 更好的数据可用性: 数据标签还可以提高模型中数据变量的可用性。 例如,您可以将分类变量重新分类为二元变量,以使其更适合模型。  以这种方式收集数据可以减少模型变量的数量或包含控制变量,从而实现模型优化。 无论您是使用数据来构建计算机视觉模型(如在对象周围设置边框)还是 NLP模型(如根据社交情绪对文本进行分类),利用高质量数据都是重中之重。

挑战
 

数据标签并非没有挑战。 一些特别常见的挑战有:

  • 成本高且耗时: 虽然数据标签对于机器学习模型至关重要,但从资源和时间的角度来看,它的成本可能极高。 如果企业采用更自动化的方法,工程团队仍然需要在数据处理之前设置数据管道,并且手动标签几乎总是昂贵且耗时。
  • 容易出现人为错误: 这些标签方法还容易出现人为错误(例如编码错误、手动输入错误),都会降低数据质量。 这反过来又会造成数据处理和建模不准确。 质量保证检查对于保持数据质量至关重要。

数据标签最佳实践

无论采用哪种方法,以下最佳实践都可以优化数据标签的准确性和效率:

  • 直观、精简的任务界面 最大限度地减少标签人员的认知负荷和背景切换的需要。
  • 共识: 测量多个标签任务完成方(人或机器)之间的一致性。 共识分数的计算方法是将相同标签的总数除以每个资产的标签总数。
  • 标签审核: 验证标签的准确性并根据需要进行更新。
  • 转移学习: 从一个数据集中获取一个或多个预先训练的模型,并将其应用于另一个数据集。 这其中包括同时进行的多任务学习。
  • 主动学习: 一类 ML 算法,也属于半监督式学习,可帮助人类识别最合适的数据集。 主动学习方法包括:
    • 成员资格查询集合  — 生成一个综合实例并为其请求标签。
    • 基于池的采样  — 根据信息度量对所有无标签的实例进行排列,并选择要注释的最佳查询。
    • 基于流的选择性采样  — 逐个选择无标签的实例,并根据其信息性或不确定性给出标签或忽略。

数据标签用例

虽然数据标签可以在各行各业的多种背景下增强准确性、质量和可用性,但有一些较突出的用例:

  • 计算机视觉: 在这个人工智能领域,训练数据用于构建计算机视觉模型,可实现图像分割和类别自动化,识别图像中的关键点并检测对象的位置。 事实上,IBM 的计算机视觉平台 Maximo Visual Inspection可使主题专家 (SME) 标记和训练可部署在云、边缘设备和本地数据中心中的深度学习视觉模型。 计算机视觉用于多个行业 — 从能源和公用事业到制造业和汽车。 到 2022 年,这个蓬勃发展的领域的市场价值预计将达到 486 亿美元。
  • 自然语言处理 (NLP): 它是 AI 的一个分支,将计算语言学与统计、机器学习和深度学习模型相结合,以识别和标记文本的重要部分,之后生成用于情感分析、实体名称识别和光符识别的训练数据。 NLP 被越来越多地用于企业解决方案,如垃圾邮件检测、机器翻译、 语音识别文本摘要、虚拟助手和聊天机器人以及语音操作的 GPS 系统。 这使得 NLP 成为任务关键型业务流程发展的关键组成部分。

IBM 和数据标签

IBM 提供更多资源来帮助克服数据标签挑战,致力于改善整体数据标签体验。

  • IBM Cloud Annotations  (链接位于 ibm.com 外部) — 一种协作式开源图像注释工具,使用 AI 模型帮助开发人员实时创建完全标签化的图像数据集,无需手动绘制标签。
  • IBM Cloud Object Storage — 它采用静态加密,可从任何位置访问,能够存储敏感数据,并通过数据分割算法 (IDA) 和全部或全无转换 (AONT) 保护数据的完整性、可用性和机密性。
  • IBM Watson — 一个提供 NLP 驱动的工具和服务的 AI 平台,可帮助组织优化员工的时间,自动化复杂的业务流程,并获得关键的业务洞察来预测未来的结果。

无论您的项目规模或时间表如何,IBM Cloud 和 IBM Watson 都可以增强您的数据训练流程,扩展数据分类工作,并简化复杂的预测模型。


相关解决方案

自然语言理解

支持高级文本分析的自然语言处理 (NLP) 服务


云对象存储

利用行业领先的本地对象存储,支持 AI 工作负载,整合主要和辅助大数据存储。


云对象存储服务

灵活、经济高效且可扩展的云存储服务适用于非结构化数据,旨在实现持久性、弹性和安全性。


视觉检查

利用先进的 AI 远程监控和计算机视觉,查看、预测和预防资产和运营方面的问题。