公司集成软件、流程和数据注释器来清理、组织和标记数据。这些训练数据会成为机器学习模型的基础。这些标签可支持分析师隔离数据集的变量，这反过来又可以支持为机器学习模型选择最佳数据预测变量。标签可确定用于模型训练的适当数据向量，然后模型会学习做出最佳预测。

除了机器辅助之外，数据标签任务还需要“人机回圈 (HITL)”的参与。HITL 利用人类“数据标注员”的判断来创建、训练、微调和测试 ML 模型。它们通过提供最适用于给定项目的模型数据集来帮助指导数据标记过程。

标记数据与未标记数据



计算机使用已标记和未标记的数据来训练 ML 模型，但区别在那里？

标记数据用于监督学习，而未标记数据用于无监督学习。

标记数据更难获取和存储（即耗时且昂贵），而未标记数据更容易获取和存储。

标记数据可用于确定可操作的洞察（例如预测任务），而未标记数据的作用则较为有限。无监督学习方法有助于发现新的数据集群，从而在标记时支持新的分类。

计算机还可以结合使用这两种数据进行半监督学习，这样可以减少手动添加数据标记的需求，同时提供带注释的大型数据集。