数据标注

menu icon

数据标注

探索数据标注的用途和优势,包括不同的方法和最佳实践。

什么是数据标注?

数据标注或数据注释是开发机器学习 (ML) 模型时预处理阶段的一部分。 它需要识别原始数据(如图像、文本文件和视频)并添加一个或多个标签为机器学习模型指定上下文,帮助其做出准确的预测。

数据标注支持不同的机器学习和深度学习用例,包括计算机视觉自然语言处理 (NLP)。

数据标注如何运作?

公司集成软件、流程和数据注释工具来清理、结构化和标注数据。 这些训练数据构成机器学习模型的基础。 分析人员使用这些标签隔离数据集中的变量,这反过来又可以为 ML 模型选择最佳数据预测器。 标签识别出合适的数据向量,用于模型训练,然后模型学习如何做出最佳预测。

除了机器辅助外,数据标注任务还需要“人在回路 (HITL)”模式的参与。 HITL 利用人类“数据标注者”的判断来创建、训练、微调和测试 ML 模型。 他们通过提供最适用于某个给定项目的模型数据集来指导数据标注过程。

已标注数据与未标注数据对比

计算机使用已标注和未标注数据来训练 ML 模型,但这两类数据有何区别

  • 已标注数据用于监督学习,而未标注数据用于无监督学习
  • 标注数据获取和存储难度更大(耗时且昂贵),而未标注数据更容易获取和存储。
  • 已标注数据可用于确定切实可行的洞察(例如预测任务),而未标注数据的用处相对更有限。 无监督学习方法可以帮助发现新的数据集群,标注时可进行新的分类。

计算机还可以使用合并的数据进行半监督学习,从而减少手动标注数据的需求,同时提供带注释的大型数据集。

数据标注方法

数据标注是开发高性能 ML 模型的关键步骤。 标注尽管看起来很简单,但实施起来不一定容易。 因此,公司必须考虑多种因素和方法来确定最佳标注方法。 由于每种数据标注方法都有其优缺点,因此建议详细评估任务的复杂性以及项目的规模、范围和持续时间。

以下是标注数据的一些途径:

  • 内部标注 — 使用内部数据科学专家可简化跟踪、提供更高的准确性和质量。 但是,这种方法通常需要更多时间,更适合拥有大量资源的大公司。
  • 合成标注 — 这种方法利用已有的数据集生成新的项目数据,从而提高数据质量和时间效率。 然而,合成标注需要强大的计算能力,这会增加成本。
  • 程序化标注 — 这种自动化数据标注方法利用脚本来减少用时和人工注释需求。 然而,为了应对可能出现的技术问题,质量保证 (QA) 过程仍然需要 HITL 模式的参与。
  • 外包 — 这可能是高级临时项目的最佳选择,但开发和管理面向自由职业者的工作流程也可能很耗时。 虽然自由职业者平台会提供全面的候选人信息来简化审核过程,但雇用管理型数据标注团队需要提供预审核人员和预先构建的数据标注工具。
  • 众包 — 得益于高效的微任务处理能力和基于 Web 的分发方式,这种方法更快且更具成本效益。 但人员素质、质量保证和项目管理因众包平台而异。 众包数据标注最著名的例子之一是 Recaptcha。 这个项目包含两方面,一方面控制机器人,另一方面改进图像的数据注释。 例如,Recaptcha 提示会要求用户识别所有包含汽车的照片以证明用户是人类,然后该程序可以根据其他用户的结果进行自我检查。 这些用户的输入为大量图像提供了标签数据库。

数据标注的优点和挑战

公司在考虑数据标注时通常会权衡,它能够多大程度上加速企业扩张,以及需要花费多少成本。 更准确的数据通常能改进模型预测,尽管成本很高,但其提供的价值通常证明这是一笔非常值得的投资。 数据注释可为数据集提供更多上下文,能够增强探索性数据分析以及机器学习 (ML) 和人工智能 (AI) 应用程序的性能。 例如,数据标注可以帮助搜索引擎平台提升搜索结果的相关度,促进电子商务平台优化产品推荐。 下面我们将深入探讨数据标注所具备的其他主要优点及其面临的挑战:

优点

数据标注可为用户、团队和公司提供更好的上下文、质量和可用性。 具体而言,您可以期待:

  • 更精确的预测: 精确的数据标注确保机器学习算法的训练质量得到更好的保障,让模型能够训练并产生预期的输出。 否则就如一句习语所言,“垃圾进,垃圾出”。 正确标注的数据 可为测试和迭代后续模型提供“参考标准”(即标签如何反映“现实世界”场景)。
  • 更好的数据可用性: 数据标注还可以改进模型中数据变量的可用性。 例如,您可以将分类变量重新划分为二进制变量,使其更适合模型使用。  以这种方式汇集数据可以通过减少模型变量的数量或纳入控制变量来优化模型。 无论您是使用数据来构建计算机视觉模型(即在对象周围放置边界框)或是 NLP 模型(即根据舆情分类文本),使用高质量数据都是重中之重。

挑战

数据标注并非没有挑战。 其中最常见的挑战包括:

  • 昂贵且耗时: 虽然数据标注对于机器学习模型至关重要,但从资源和时间的角度来看,它的成本可能很高。 如果企业采用更自动化的方法,工程团队也需要在数据处理之前设置数据管道,如果纯靠人工,手动标注又总是既昂贵又耗时。
  • 容易出现人为错误: 这些标注方法还很容易出现人为错误,例如编码错误、手动输入错误,这会降低数据质量。 进而导致数据处理和建模不准确。 质量保证检查对于保持数据质量至关重要。

数据标注最佳实践

无论采用哪种方法,以下最佳实践都可以优化数据标注的准确性和效率:

  • 经过简化的直观任务界面可最大限度地减少人工标注者的认知负担和上下文切换。
  • 一致性: 衡量多个标注者(人或机器)的一致率。 一致性分数的计算方法是将一致标签的总和除以每项资产的标签总数。
  • 标注审核: 验证标注的准确性并根据需要进行更新。
  • 转移学习: 从一个数据集获取一个或多个预训练模型并将其应用至另一个数据集。 这可以包括多任务学习,即同时学习多个相关任务。
  • 主动学习: 属于 ML 算法的一个分类,是半监督学习的一种形式,可帮助人类识别最合适的数据集。 主动学习方法包括:
    • 成员查询合成 — 生成合成实例并为其申请标签。
    • 基于池的采样 — 根据信息量衡量对所有未标注的实例进行排名,并选择最佳查询进行注释。
    • 基于流的选择性采样 — 逐一选择未标注的实例,并根据其信息量或不确定性来标注或忽略它们。

数据标注用例

虽然数据标注可以在不同行业的多种环境中提高准确性、质量和可用性,但其优势在以下用例中更加突出:

  • 计算机视觉: 人工智能的一个子领域,使用训练数据构建计算机视觉模型,实现图像分割和自动分类,识别图像中的关键点并检测对象所处位置。 事实上,IBM 有一个计算机视觉平台,即 Maximo Visual Inspection,它让主题专家 (SME) 标注和训练可部署于云、边缘设备及本地数据中心的深度学习视觉模型。 计算机视觉用于多个行业 — 从能源和公用事业到制造和汽车行业。 此领域发展迅速,到 2022 年,市场总值预计可达 486 亿美元。
  • 自然语言处理 (NLP): 人工智能的一个分支,将计算语言学与统计、机器学习和深度学习模型相结合,以识别和标记文本的重要部分,生成用于情感分析、实体名称识别和光学字符识别等的训练数据。 如今,NLP 越来越多地用于企业解决方案,如垃圾邮件检测、机器翻译、语音识别、文本摘要、虚拟助手和聊天机器人以及语音操作的 GPS 系统。 这使得 NLP 成为关键任务业务流程演进发展中的关键组成部分。

IBM 与数据标注

IBM 提供更多资源来帮助您克服数据标注挑战并最大限度地优化整体数据标注体验。

  • IBM Cloud Annotations  — 一种协作式开源图像注释工具,使用 AI 模型帮助开发人员实时创建完全标注的图像数据集,而无需手动绘制标签。
  • IBM Cloud Object Storage — 采用静态加密并可从任何地点访问,用于存储敏感数据并通过信息分散算法 (IDA) 和全有或全无转换 (AONT) 模式保护数据的完整性、可用性和机密性。
  • IBM Watson — 一款具备 NLP 驱动的工具和服务的 AI 平台,帮助组织优化员工的时间安排、完成复杂业务流程自动化,并获取关键商业洞察分析以预测未来结果。

无论您的项目规模或时间线如何,IBM Cloud 和 IBM Watson 都可以优化您的数据训练流程、扩大您的数据分类成果,并简化复杂的预测模型。