什么是数据标签?
探索数据标签的用途和优点,包括各种方法和最佳实践
黑色和蓝色背景
什么是数据标签?

数据标签(或称数据注释)是开发机器学习 (ML) 模型时预处理阶段的一部分。 它负责识别原始数据(如图像、文本文件、视频),然后向原始数据添加一个或多个标签,以指定模型的上下文,帮助机器学习模型做出准确的预测。

数据标签支持各种不同的机器学习和深度学习用例,包括计算机视觉和自然语言处理 (NLP)。

特色产品

IBM Watson Natural Language Understanding

IBM Cloud Object Storage

数据标签如何工作?

企业集成各种软件、流程和数据注释器,用于整理和构建数据并对其添加标签。 这种训练数据是机器学习模型的基础。 这些标签帮助分析师隔离数据集中的各个变量,从而可以为 ML 模型选择最优的数据预测变量。 标签指定要为模型训练拉取的适当数据向量,然后模型进行学习以做出最佳预测。

除了机器辅助,数据标签任务也需要“人机协同 (HITL)”参与。 HITL 利用“数据标记者”人员的判断,创建、训练、微调和测试 ML 模型。 它们通过提供最适合特定项目的模型数据集,帮助指导数据标签过程。

有标签数据与无标签数据
 

计算机使用有标签数据与无标签数据来训练机器学习模型,但这两者有何区别呢? 

  • 有标签数据用于监督式学习, 而无标签数据用于无监督学习。  
  • 有标签数据更难以收集和存储(既耗时又费力),而无标签数据更易于收集和存储。
  • 有标签数据可用于确定切实可行的洞察(例如预测任务),而无标签数据的用途则比较有限。 无监督学习方法可以帮助发现新的数据聚类,从而能够在添加标签时新建类别。

计算机还可以结合使用这两种数据进行半监督学习,这样可以减少对手动添加数据标签的需求,同时提供添加了注释的大型数据集。

数据标签方法

数据标签是开发高性能机器学习模型的关键一步。 虽然标签看似简单,但实施起来并不总是很容易。 因此,企业必须考虑多种因素和方法,以确定最佳标签方法。 由于每种数据标签方法都有其优缺点,因此建议对任务复杂性以及项目的规模、范围和持续时间进行详细评估。

以下是对数据添加标签的一些方法:

  • 内部标签  使用内部数据科学专家有助于简化跟踪,提高准确性和质量。 但是,这种方法通常需要更多的时间,比较适合资源丰富的大型企业。
  • 综合标签 — 这种方法从业已存在的数据集生成新的项目数据,有助于提高数据质量和时间效率。 然而,综合标签需要充分的计算能力,而这会增加成本。
  • 程序化标签 — 这种自动化数据标签过程使用脚本,有助于减少时间消耗和对人工注释的需求。 然而,由于可能出现的技术问题,因此在质量保证 (QA) 过程中仍需人机协同 (HITL)。
  • 外包 — 这可能是高级别临时项目的最佳选择,但开发和管理面向自由职业者的工作流程也可能非常耗时。 虽然自由职业平台提供全面的候选人信息,有助于简化审查流程,但招聘管理数据标签团队提供经过预先审查的人员和预先构建的数据标签工具。
  • 众包 — 这种方法的优点在于其微任务处理能力和基于 Web 的分发,因此速度更快,也更具成本效益。 但是,员工质量、QA 和项目管理能力因众包平台而异。 众包数据标签最广为人知的例子之一是 Recaptcha。 这个项目有两层含义,一是通过控制措施以防机器人假冒人类用户,二是改进图像的数据注释。 例如,Recaptcha 会发出提示,要求用户识别包含汽车的所有照片以证明他们是人类,然后该程序可以根据其他用户的结果自行进行检查。 这些用户的输入为一组图像提供了标签数据库。
数据标签的优点和挑战

一般而言,数据标签虽然可以缩短企业扩大训练数据规模的时间,但这要付出更高成本,因此要在这两者之间做出权衡。 更准确的数据尽管成本很高,但通常有助于改善模型预测,因此值得投资。 由于数据注释为数据集提供更多上下文,因此有助于增强探索性数据分析以及机器学习 (ML) 和人工智能 (AI) 应用的性能。 例如,数据标签有助于在搜索引擎平台上产生更相关的搜索结果,以及在电子商务平台上提供更相关的产品推荐。 接下来我们更深入地探讨一下其他主要优点和挑战:

优点
 

数据标签为用户、团队和企业提供更多背景信息,有助于提高数据的质量和易用性。 更具体地说,具有以下优点:

  • 更精确的预测:准确的数据标签为机器学习算法提供了更高水平的质量保证,确保模型经过训练后可生成预期的输出。  否则,就会像有句老话说的那样“垃圾输入,垃圾输出”。 正确添加标签的数据为测试和迭代后续模型 提供了“基本真相”(即标签如何反映现实世界的场景)。
  • 更出色的数据易用性:数据标签还有助于提高模型中数据变量的易用性。  例如,可将某个分类变量重新归类为二元变量,使其更适合模型。  以这种方式汇总数据有助于减少模型变量的数量或确保包含控制变量,从而实现模型优化。 无论您是要使用数据构建计算机视觉模型(例如在对象周围添加边框)还是 NLP 模型(例如根据社交情绪对文本进行分类),利用高质量的数据都是重中之重。

挑战
 

数据标签并非没有挑战。 一些最常见的挑战包括:

  • 成本不菲而且耗时:虽然数据标签对于机器学习模型至关重要,但从资源和时间的角度来看,它的成本可能非常高。  如果企业采用自动化程度更高的方法,工程团队仍需要在数据处理之前建立数据管道,而人工添加标签始终非常耗时耗力,成本不菲。
  • 容易出现人为错误:这些标签方法还容易出现人为错误(例如编码错误、手动输入错误),这都会降低数据质量。  因此会造成数据处理和建模不准确。 质量保证检查对于保持数据质量至关重要。
数据标签最佳实践

无论采用哪种方法,以下最佳实践都有助于优化数据标签的准确性和效率:

  • 直观、简化的任务界面:可以最大程度地减轻标签添加人员的认知负荷和背景切换工作。 
  • 共识:用于衡量多个标签添加者(人或机器)之间的一致性。  共识分数的计算方法是将相同标签的总数除以每个资产的标签总数。
  • 标签审核:验证标签的准确性并根据需要进行更新。 
  • 转移学习:从一个数据集中获取一个或多个预先训练的模型,并将其应用于另一个数据集。  这包括同时进行的多任务学习。
  • 主动学习:这是一类 ML 算法,属于半监督学习,可帮助人类确定最合适的数据集。  主动学习方法包括:
    • 成员资格查询综合 — 生成综合实例并为其请求标签。 
    • 基于池的采样  — 根据信息含量指标对所有无标签的实例进行排名,并选择要注释的最佳查询。
    • 基于流的选择性采样  — 逐个选择无标签的实例,并根据其信息含量或不确定性添加标签或将其忽略。
数据标签用例

虽然数据标签有助于在各行各业的多种背景下增强准确性、质量和易用性,但比较突出的用例包括:

  • 计算机视觉:在这个人工智能领域,训练数据用于构建计算机视觉模型,以实现图像分割和类别自动化,确定图像中的关键点以及检测对象的位置。  事实上,IBM 的计算机视觉平台 Maximo Visual Inspection可帮助主题专家 (SME) 标记和训练可在云、边缘设备和本地数据中心内部署的深度学习视觉模型。 计算机视觉应用于能源、公用事业、制造业、汽车等多个行业。 到 2022 年,这个蓬勃发展的领域的市场价值预计达到 486 亿美元。
  • 自然语言处理 (NLP):这是 AI 的一个分支,将计算语言学与统计、机器学习和深度学习模型相结合,用于识别和标记文本的重要部分,然后生成训练数据,用于情绪分析、实体名称识别和光学字符识别。 NLP 越来越多地用于企业解决方案,如垃圾邮件检测、机器翻译、语音识别、文本摘要、虚拟助手和聊天机器人以及语音操作的 GPS 系统。 这使得 NLP 成为任务关键型业务流程发展的关键组成部分。
相关解决方案
自然语言理解

支持高级文本分析的自然语言处理 (NLP) 服务

探索 IBM Watson Natural Language Understanding
云对象存储

利用行业领先的本地对象存储,支持 AI 工作负载并整合主要和辅助大数据存储

探索 IBM Cloud Object Storage
视觉检查

利用先进的 AI 远程监控和计算机视觉,查看、预测和预防资产和运营方面的问题。

探索 IBM Maximo Application Suite Visual Inspection
采取下一步行动

IBM 提供众多资源,帮助克服数据标签挑战,最大程度地改善数据标签总体体验。 无论您的项目规模或时间表如何,IBM Cloud 和 IBM Watson 都可以帮助增强数据训练过程,扩展数据分类工作,以及简化复杂的预测模型。

探索 Watson Natural Language Understanding