什么是训练数据？

训练数据是用于教导机器学习模型如何进行预测、识别模式或生成内容的信息。在算法处理大量数据后，它们被认为是“训练完成”的，并且可以用于许多应用。但是没有训练数据，即使是复杂的算法也没什么用，就像一个聪明的学生没有复习考试材料一样。

所有的机器学习都从一个数据集或一组数据开始。数据集可能由电子表格、视频片段、网页、PDF 或任何其他类型的数据组成。一般来说，输入模型的训练数据越多，模型的表现就越好。但重要的不仅仅是数据的数量，数据的质量也非常重要。

AI 训练数据由特征组成，也叫做属性，用来描述数据。例如，关于一台工厂设备的数据集可能包括温度、振荡速度和最后一次维修时间等特征。这些数据被“输入”到机器学习算法中，机器学习算法是一组通过代码表达的指令，用于处理数据输入以产生输出。将数据输入算法意味着提供输入数据，之后这些数据会被处理和分析，以生成输出。经过训练的数学模型是这个过程的结果。这些模型是近期几乎所有人工智能创新的基础。

一些模型用于自然语言处理 (NLP)，可用于教机器用人类语言阅读和说话。计算机视觉使其他模型能够解释视觉信息。但一切都要从训练数据开始。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

训练类型

不同类型的学习算法使用不同的方法来训练数据。监督学习使用标记数据，而无监督学习使用未标记数据。半监督学习将两者结合起来。

监督学习的训练模型

监督学习是一种机器学习技术，它使用带标记的数据集来训练 AI 模型，以识别数据点之间的潜在模式。已标记数据包括功能和标签，以及相应的输出，模型利用这些输出来理解两者之间的关系。

许多企业聘请了大型人类数据标注员团队，有时由机器协助。这些标注者通常需要领域专业知识，以确保数据得到正确标记。例如，在标记法律数据时，标注者可能需要具有法律背景。使用人工标注者帮助确保正确标签的过程有时被称为“人机协同”。

垃圾邮件检测是监督学习的一个典型示例。为了教会模型识别垃圾邮件，可以让它接触一个包含数千封电子邮件的数据集，每封邮件都由人工标注为“垃圾邮件”或“非垃圾邮件”。该模型会分析电子邮件中的模式，并注意到各种模式。例如，主题行中包含“免费”一词的电子邮件更有可能是垃圾邮件。模型会计算主题行中“免费”一词对应“垃圾邮件”标签的统计概率。然后，当收到一封没有标签的新邮件时，该模型就可以应用这种计算方法和许多其他方法来判断这封新邮件是否是垃圾邮件。

这种类型的机器学习称为“监督式”，因为它涉及人工监督来标记所有数据。

无监督学习的训练模型

无监督学习模型自行工作，以发现未标记数据的固有结构。监督学习有助于将输入映射到输出，而无监督学习则更适合在数据本身中发现模式、结构和关系，无需指导要寻找的内容。

例如，假设一个广告商希望根据购买行为将客户分成不同的群体，而事先并不知道这些类别。无标记的数据集可能包括购买频率、平均订单价值、所购产品类型以及自上次购买以来的时间等功能，但它没有“客户类型”列。这就是模型所要解决的问题。可以使用聚类算法来识别三个簇：

高消费、频繁购买者
偶尔光顾折扣店的顾客
新客户或一次性客户

模型自行学习了这些模式，并直接根据训练数据集完成了分组。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

训练数据准备

数据就在我们身边。全球人口每秒钟都会产生海量数据。但原始数据通常对模型训练没有用处。保证数据质量至关重要。首先，必须通过多步骤数据管道对数据进行预处理。对于数据科学家来说，这可能是一个复杂的过程，占据机器学习项目的大部分工作量，并需要复杂的数据科学工具和基础设施。低质量数据可能会引入噪声和偏差，从而阻碍机器学习模型做出准确预测，而高质量的训练数据则使模型能够在无数应用场景中产生更可靠的结果，从自动化、转化到数据驱动的决策制定

数据收集

必须首先收集数据。对于自动驾驶汽车或智能家居等 AI 系统，可能会使用传感器或 IoT 设备收集数据。政府机构、研究机构和企业经常提供公共数据集。广告商使用来自用户的点击流、表单提交和行为数据。

数据清洗与转换

原始数据通常包含缺失值、重复项以及其他错误。收集数据后，必须对数据进行清洗以纠正这些错误。这可以像标准化格式一样简单，例如确保日期显示为 MM/DD/YYYY。清洗后，数据往往需要转换为算法更容易处理的格式。特征工程可将原始数据预处理为机器可读的格式。通过转换并选择相关特征，它可优化 ML 模型性能。

拆分数据集

为了评估模型对新数据的泛化程度，通常将数据集分为三组。第一组是训练集，用于调整模型参数以找到预测与数据之间的最佳匹配点，这个训练过程称为“拟合”。第二组是验证数据集，用于微调超参数和防止过度拟合。最后，测试数据集用于最终评估模型性能。

数据标记

数据标记有时也被称为“人工标注”，是指向原始数据添加有意义的标签，以便模型可以从中学习的过程。标签可以描述数据的任何属性。例如，一条社交媒体帖子写着“这个产品很糟糕”，可以在一个称为情感分析的过程中被标记为“负面情绪”。人类标注者可以将狗的照片标记为“狗”。银行交易可能被标记为“欺诈”。

后续步骤可能包括数据结构化、扩充和版本化。一些工作流程包含反馈循环，通过分析可以发现需要更多或更高质量数据的地方，或可以过滤掉无用数据的部分。

训练数据的趋势

由于数据与模型架构同样重要，因此优化数据训练过程备受关注。合成数据是创新的一个领域。现在，组织不再需要抓取庞大的真实世界数据集，而是利用 AI 自身生成合成数据。

另一个趋势是数据集规模更小，质量更高。大型模型不仅需要更多数据，还需要更好的数据。数据科学家正在构建较小的数据集或特定任务的数据集，这些数据集适用于特定的用例。例如，用于法律服务领域的 LLM 可以仅在法律语料库上进行训练，以获得更好的效果。

本文中介绍的数据预处理工作可以通过 AI 自动完成。新的算法有助于清理庞大的数据集，去除低质量文本、重复内容和无关的样板材料，从而节省时间和计算资源。

这些只是这一快速发展的领域中的几个趋势。

解锁生成式 AI + 机器学习的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

什么是训练数据？