什么是数据标注?

什么是数据标注?

数据标记或数据注释是开发机器学习 (ML) 模型时预处理阶段的一部分。

数据标记涉及识别原始数据,例如图像、文本文件或视频,并分配一个或多个标签以为其机器学习模型指定其上下文。这些标签帮助模型正确解释数据,从而做出准确的预测。

数据标签支持不同的机器学习和深度学习用例,包括计算机视觉和自然语言处理 (NLP)。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

数据标签的工作原理?

公司集成软件、流程和数据注释器来清理、组织和标记数据。这些训练数据会成为机器学习模型的基础。这些标签可支持分析师隔离数据集的变量,此过程反过来又可以支持为机器学习模型选择最佳数据预测变量。标签可确定用于模型训练的适当数据向量,然后模型会学习做出最佳预测。

除了机器辅助之外,数据标签任务还需要“人机协同 (HITL)”的参与。HITL 利用人类“数据标注员”的判断来创建、训练、微调和测试 ML 模型。它们通过向模型提供与项目最相关的数据集来帮助指导数据标记过程。

标记数据与未标记数据

计算机使用已标记和未标记的数据来训练 ML 模型,但区别在那里

  • 标记数据用于监督学习,而未标记数据用于无监督学习

  • 标记数据更难获取和存储(即耗时且昂贵),而未标记数据更容易获取和存储。

  • 标记数据可以用于得出可操作的洞察(例如,预测任务),而未标记数据在其有用性方面则更为有限。无监督学习方法有助于发现新的数据集群,从而在标记时支持新的分类。

计算机还可以结合使用这两种数据进行半监督学习,这样可以减少手动添加数据标记的需求,同时提供带注释的大型数据集。

AI 学院

成为 AI 专家

获取相关知识,以确定 AI 投资的优先级,从而推动业务增长。立即开始观看我们的免费 AI 学院视频,引领 AI 在组织中的未来应用。

数据标记方法

数据标记是开发高性能机器学习 (ML) 模型的关键一步。尽管标记看起来很简单,但实施起来并不一定容易。因此,公司必须考虑多个因素和方法,以确定最佳的标记方式。每种数据标记方法都有其优缺点,因此建议对任务复杂性以及项目的规模、范围和持续时间进行详细评估。

以下是部分标记数据的途径:

  • 内部标记:使用内部数据科学专家有助于简化跟踪,提高准确性和质量。但是,这种方法通常需要更多时间,比较适合资源丰富的大型企业。

  • 合成标签:这种方法可从已有的数据集生成新的项目数据,从而优化数据质量和时间效率。但是,合成标签需要大量的计算能力,这可能会提高定价。

  • 程序化标记:这种自动化数据标记流程使用脚本,可减少时间消耗和对人工注释的需求。然而,由于可能出现技术问题,这种标记方法在质量保证 (QA) 过程中仍需人机协同 (HITL)。

  • 外包:这可能是高级别临时项目的理想选择,但开发和管理面向自由职业者的工作流程也可能非常耗时。虽然自由职业平台提供全面的候选人信息,有助于简化审查流程,但聘请托管数据标记团队可提供经过预先审查的人员和预构建的数据标记工具。

  • 众包:这种方法的优点在于其微任务处理能力和基于 Web 的分发模式,因此速度更快,也更具成本效益。但是,人员质量、QA 和项目管理能力因众包平台而异。众包数据标记最广为人知的例子之一是 reCAPTCHA。这个项目具有双重意义,一是防止机器人假冒人类用户,二是改进图像的数据标注。例如,reCAPTCHA 提示会要求用户识别所有包含汽车的照片,以证明自己是真人。然后,该程序可以通过将结果与其他用户的结果进行比较来验证其准确性。这些用户的输入也为一组图像提供了标签数据库。

数据标记的优点和挑战

数据标记的普遍权衡在于:虽然它能加速企业的规模化进程,但往往需要付出显著成本。更准确的数据可以实现更好的模型预测,从而使数据标记成为有价值但昂贵的投资。尽管成本较高,但企业发现由于其提供的更高准确性,仍然是值得的。

由于数据标注为数据集增加了更多上下文,因此可以提高探索性数据分析、机器学习 (ML) 和人工智能 (AI) 应用的表现。例如,标记数据有助于搜索引擎平台提供更相关的搜索结果,以及电子商务中更好的产品推荐。现在,让我们更详细地深入了解一下其他主要优点和面临的挑战。

优势

数据标签为用户、团队和公司提供了更好的上下文、质量和可用性。更具体地说,您可以获得以下结果:

  • 更精确的预测:准确的数据标记为机器学习算法提供了更高水平的质量保证,确保模型经过训练后可生成预期的输出结果。否则,就会像有句老话说的那样“垃圾输入,垃圾输出”。正确标记的数据提供了“真实标签”(即标签如何反映“现实世界”场景)用于测试和迭代后续模型。

  • 更好的数据可用性:数据标记还能提高模型中数据变量的可用性。例如,您可以将分类变量重新归类为二元变量,使其更适合模型使用。以这种方式聚合数据可以通过减少模型变量的数量或支持包含控制变量来优化模型。无论您是否使用数据来构建计算机视觉模型(即在对象周围放置边界框)或 NLP 模型(即对文本进行社会情感分类),利用高质量数据都是重中之重。

挑战

数据标记也会带来一系列挑战。具体而言,其中最常见的挑战包括:

  • 昂贵且耗时:虽然数据标记对机器学习模型至关重要,但从资源和时间的角度来看,其成本很高。如果企业采用更加自动化的方法,工程团队仍然需要在数据处理之前设置数据管道,而手动标记几乎都昂贵且耗时。

  • 容易出现人为错误:这些标记方法也会出现人为错误(如编码错误、手工输入错误),从而降低数据质量。这个过程反过来会导致数据处理和建模的不准确。质量保证检查对于保持数据质量至关重要。

数据标签最佳实践

无论采用哪种方法,以下最佳实践都可优化数据标记的准确性和效率:

  • 直观、精简的任务界面 可以最大限度地减轻人类标注员的认知负荷和上下文切换。

  • 一致性:测量多个标注员(人工或机器)之间的一致率。一致性评分的计算方法是用一致标签的总和除以每个资产的标签总数。

  • 标签审核:验证标签的准确性并根据需要进行更新。

  • 转移学习:从一个数据集中获取一个或多个预训练模型,并将其应用于另一个数据集。这个过程可能包括多任务学习,其中多个任务是同时学习的。

  • 主动学习:ML 算法的一个类别,也是半监督学习的子集,可帮助人类识别最合适的数据集。主动学习方法包括:

    • 成员查询合成 - 生成一个合成实例,并为其申请一个标签。

    • 基于池的采样 - 根据信息量度对所有未标记实例进行排名,并选择最优的查询进行标注。

    • 基于流的选择性采样 – 逐个选择未标记的实例,并根据其信息量或不确定性进行标记或将其忽略。

数据标记用例

虽然数据标记能够在各行各业的多种环境中提高质量、准确性和可用性,但比较突出的用例包括:

  • 计算机视觉:人工智能的一个领域,利用训练数据构建计算机视觉模型,从而实现图像分割和分类自动化,识别图像中的关键点,并检测物体的位置。IBM 提供了一款名为 Maximo Visual Inspection 的计算机视觉平台,使得领域专家 (SME) 能够标记和训练深度学习视觉模型。这些模型可以部署在云中、边缘设备和本地数据中心中。计算机视觉可应用于各行各业,包括能源与公用事业到制造和汽车。到 2022 年,这个激增领域预计将达到 486 亿美元的市场价值。

  • 自然语言处理 (NLP):AI 的一个分支,结合了计算语言学、统计学、机器学习和深度学习模型,用于识别和标记文本中的重要部分。这些标记部分生成用于情感分析、实体名称识别和光学字符识别的训练数据。NLP 越来越多地应用于企业解决方案,例如垃圾邮件检测、机器翻译、语音识别、文本摘要、虚拟助理和聊天机器人以及语音操作的 GPS 系统。这使得 NLP 成为任务关键型业务流程发展的关键组成部分。
相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示