数据标签(或称数据注释)是开发机器学习 (ML) 模型时预处理阶段的一部分。 它负责识别原始数据(如图像、文本文件、视频),然后向原始数据添加一个或多个标签,以指定模型的上下文,帮助机器学习模型做出准确的预测。
数据标签支持各种不同的机器学习和深度学习用例,包括计算机视觉和自然语言处理 (NLP)。
IBM Watson Natural Language Understanding
IBM Cloud Object Storage
企业集成各种软件、流程和数据注释器,用于整理和构建数据并对其添加标签。 这种训练数据是机器学习模型的基础。 这些标签帮助分析师隔离数据集中的各个变量,从而可以为 ML 模型选择最优的数据预测变量。 标签指定要为模型训练拉取的适当数据向量,然后模型进行学习以做出最佳预测。
除了机器辅助,数据标签任务也需要“人机协同 (HITL)”参与。 HITL 利用“数据标记者”人员的判断,创建、训练、微调和测试 ML 模型。 它们通过提供最适合特定项目的模型数据集,帮助指导数据标签过程。
计算机使用有标签数据与无标签数据来训练机器学习模型,但这两者有何区别呢?
计算机还可以结合使用这两种数据进行半监督学习,这样可以减少对手动添加数据标签的需求,同时提供添加了注释的大型数据集。
数据标签是开发高性能机器学习模型的关键一步。 虽然标签看似简单,但实施起来并不总是很容易。 因此,企业必须考虑多种因素和方法,以确定最佳标签方法。 由于每种数据标签方法都有其优缺点,因此建议对任务复杂性以及项目的规模、范围和持续时间进行详细评估。
以下是对数据添加标签的一些方法:
一般而言,数据标签虽然可以缩短企业扩大训练数据规模的时间,但这要付出更高成本,因此要在这两者之间做出权衡。 更准确的数据尽管成本很高,但通常有助于改善模型预测,因此值得投资。 由于数据注释为数据集提供更多上下文,因此有助于增强探索性数据分析以及机器学习 (ML) 和人工智能 (AI) 应用的性能。 例如,数据标签有助于在搜索引擎平台上产生更相关的搜索结果,以及在电子商务平台上提供更相关的产品推荐。 接下来我们更深入地探讨一下其他主要优点和挑战:
数据标签为用户、团队和企业提供更多背景信息,有助于提高数据的质量和易用性。 更具体地说,具有以下优点:
数据标签并非没有挑战。 一些最常见的挑战包括:
无论采用哪种方法,以下最佳实践都有助于优化数据标签的准确性和效率:
虽然数据标签有助于在各行各业的多种背景下增强准确性、质量和易用性,但比较突出的用例包括:
支持高级文本分析的自然语言处理 (NLP) 服务
利用行业领先的本地对象存储,支持 AI 工作负载并整合主要和辅助大数据存储
利用先进的 AI 远程监控和计算机视觉,查看、预测和预防资产和运营方面的问题。