主页

topics

data labeling

什么是数据标注?
深入了解 IBM 的数据标签解决方案 注册获取 AI 更新
包含云朵、饼图、象征符号图形的拼贴插图
什么是数据标注?

数据标签或数据注释是开发机器学习 (ML) 模型时预处理阶段的一部分。

数据标签需要识别原始数据(即图像、文本文件、视频),然后向该数据添加一个或多个标签,以指定模型的上下文,从而支持机器学习模型做出准确的预测。

数据标签支持不同的机器学习和深度学习用例,包括计算机视觉和自然语言处理 (NLP)。

AI 数据存储

了解将数据湖仓一体策略集成到您的数据架构的强大功能,包括扩展 AI 的增强功能和成本优化机会。

相关内容 立即注册,获取有关生成式 AI 的电子书
数据标签的工作原理?

公司集成软件、流程和数据注释器来清理、组织和标记数据。这些训练数据会成为机器学习模型的基础。这些标签可支持分析师隔离数据集的变量,这反过来又可以支持为机器学习模型选择最佳数据预测变量。标签可确定用于模型训练的适当数据向量,然后模型会学习做出最佳预测。

除了机器辅助之外,数据标签任务还需要“人机回圈 (HITL)”的参与。HITL 利用人类“数据标注员”的判断来创建、训练、微调和测试 ML 模型。它们通过提供最适用于给定项目的模型数据集来帮助指导数据标记过程。

标记数据与未标记数据

计算机使用已标记和未标记的数据来训练 ML 模型,但区别在那里

  • 标记数据用于监督学习,而未标记数据用于无监督学习
  • 标记数据更难获取和存储(即耗时且昂贵),而未标记数据更容易获取和存储。
  • 标记数据可用于确定可操作的洞察(例如预测任务),而未标记数据的作用则较为有限。无监督学习方法有助于发现新的数据集群,从而在标记时支持新的分类。

计算机还可以结合使用这两种数据进行半监督学习,这样可以减少手动添加数据标记的需求,同时提供带注释的大型数据集。

数据标记方法

数据标记是开发高性能机器学习 (ML) 模型的关键一步。标记看似简单,但实施起来并不总是那么容易。因此,公司必须考虑多种因素和方法,确定最佳标记方法。每种数据标记方法都有其优缺点,因此建议对任务复杂性以及项目的规模、范围和持续时间进行详细评估。

以下是部分标记数据的途径:

  • 内部标记 使用内部数据科学专家有助于简化跟踪,提高准确性和质量。但是,这种方法通常需要更多时间,比较适合资源丰富的大型企业。
  • 合成标签 - 这种方法可从已有的数据集生成新的项目数据,从而优化数据质量和时间效率。但是,合成标签需要大量的计算能力,这可能会提高定价。
  • 程序化标记 – 这种自动化数据标记流程使用脚本,可减少时间消耗和对人工注释的需求。然而,由于可能出现技术问题,这种标记方法在质量保证 (QA) 过程中仍需人机协同 (HITL)。
  • 外包 – 这可能是高级别临时项目的理想选择,但开发和管理面向自由职业者的工作流程也可能非常耗时。虽然自由职业平台提供全面的候选人信息,有助于简化审查流程,但聘请托管数据标记团队可提供经过预先审查的人员和预构建的数据标记工具。
  • 众包 – 这种方法的优点在于其微任务处理能力和基于 Web 的分发模式,因此速度更快,也更具成本效益。但是,人员质量、QA 和项目管理能力因众包平台而异。众包数据标记最广为人知的例子之一是 Recaptcha。该项目具有双重意义,因为它控制了机器人,同时改进了图像的数据注释。这个项目具有双重意义,一是防止机器人假冒人类用户,二是改进图像的数据注释。例如,Recaptcha 会发出提示,要求用户识别包含汽车的所有照片以证明用户是人类,然后该程序可以根据其他用户的结果自行进行检查。这些用户的输入也为一组图像提供了标签数据库。
数据标记的优点和挑战

数据标签的权衡点在于,虽然它可以缩短企业的扩展时间,但往往需要付出代价。更准确的数据通常可以改善模型预测,因此尽管成本较高,但其提供的价值通常非常值得投资。由于数据注释为数据集提供了更多上下文,它可以增强探索性数据分析以及机器学习 (ML) 和人工智能 (AI) 应用程序的性能。例如,数据标签可以在各个搜索引擎平台上生成更相关的搜索结果,并在电子商务平台上生成更优质的产品推荐。让我们来深入研究其他关键优势和挑战:

优势

数据标签为用户、团队和公司提供了更好的上下文、质量和可用性。更具体地说,您可以获得以下结果:

  • 更精确的预测:准确的数据标记为机器学习算法提供了更高水平的质量保证,确保模型经过训练后可生成预期的输出结果。否则,就会像有句老话说的那样“垃圾输入,垃圾输出”。正确标记的数据为测试和迭代后续模型提供了“基本事实”(即标签如何反映现实世界的场景)。
  • 更好的数据可用性:数据标签还能提高模型中数据变量的可用性。例如,您可以将分类变量重新归类为二元变量,使其更适合模型使用。以这种方式聚合数据可以通过减少模型变量的数量或支持包含控制变量来优化模型。无论您是否使用数据来构建计算机视觉模型(即在对象周围放置边界框)或 NLP 模型(即对文本进行社会情绪分类),利用高质量数据都是重中之重。

挑战

数据标签并非没有挑战。具体而言,其中最常见的挑战包括:

  • 昂贵且耗时:虽然数据标签对机器学习模型至关重要,但从资源和时间的角度来看,其成本很高。如果企业采用更加自动化的方法,工程团队仍然需要在数据处理之前设置数据管道,而手动标记几乎都昂贵且耗时。
  • 容易出现人为错误:这些标记方法还容易出现人为错误(例如编码错误、手动输入错误),这些都会降低数据质量。进而又会造成数据处理和建模不准确。质量保证检查对于保持数据质量至关重要。
数据标签最佳实践

无论采用哪种方法,以下最佳实践都可优化数据标记的准确性和效率:

  • 直观、精简的任务界面可以最大限度地减轻人类标注员的认知负荷和上下文切换。
  • 一致性:测量多个标注员(人工或机器)之间的一致率。一致性评分的计算方法是用一致标签的总和除以每个资产的标签总数。
  • 标签审核:验证标签的准确性并根据需要进行更新。
  • 转移学习:从一个数据集中获取一个或多个预训练模型,并将其应用于另一个数据集。这包括同时进行的多任务学习。
  • 主动学习:人工智能算法的一个类别,也是半监督学习的子集,可帮助人类识别最合适的数据集。主动学习方法包括:
    • 成员查询合成 - 生成一个合成实例,并为其申请一个标签。
    • 基于池的采样 - 根据信息量测量对所有未标记的实例进行排名,并选择最佳查询进行注释。
    • 基于流的选择性采样 – 逐个选择未标记的实例,并根据其信息量或不确定性进行标记或将其忽略。
数据标记用例

虽然数据标记能够在各行各业的多种环境中提高质量、准确性和可用性,但比较突出的用例包括:

  • 计算机视觉:人工智能的一个领域,利用训练数据构建计算机视觉模型,从而实现图像分割和分类自动化,识别图像中的关键点,并检测物体的位置。事实上,IBM 提供了一个计算机视觉平台 Maximo Visual Inspection,可支持主题专家 (SME) 标记和训练可部署在云端、边缘设备和本地数据中心中的深度学习视觉模型。计算机视觉可应用于各行各业,包括能源与公用事业到制造和汽车。到 2022 年,这个激增领域预计将达到 486 亿美元的市场价值。
  • 自然语言处理 (NLP):AI 的一个分支,可将计算语言学与统计、机器学习和深度学习模型相结合,用于识别和标记文本的重要部分,为情感分析、实体名称识别和光学字符识别生成训练数据。NLP 越来越多地应用于企业解决方案,例如垃圾邮件检测、机器翻译、语音识别、文本摘要、虚拟助理和聊天机器人以及语音操作的 GPS 系统。这使得 NLP 成为任务关键型业务流程发展的关键组成部分。
相关解决方案
Natural Language Understanding

面向高级文本分析的自然语言处理 (NLP) 服务。

深入了解 IBM® Watson Natural Language Understanding
Cloud Object Storage

通过行业领先的本地部署对象存储技术,启用 AI 工作负载,并整合主要和辅助大数据存储。

深入了解 IBM Cloud Object Storage
视觉检查

采用先进的人工智能驱动远程监控和计算机视觉技术,查看、预测并预防资产和运营问题。

深入了解 IBM Maximo Application Suite 视觉检查
采取后续步骤

借助 IBM watsonx.data 随时随地扩展所有数据的 AI 工作量,IBM watsonx.data 是基于开放式湖仓一体架构构建的适用数据存储。

深入了解 watsonx.data 预约实时演示