机器学习中的模型选择

作者

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

什么是机器学习中的模型选择？

机器学习中的模型选择，是为特定任务选择最合适的机器学习模型（ML 模型）的过程。所选模型通常是最能概括到未见过的数据，同时最成功地满足相关性能指标的模型。

ML 模型选择过程是对候选模型池中不同模型的比较。机器学习专家会评估每个 ML 模型的性能，然后根据一系列评估指标，选出最佳模型。

大多数机器学习任务的核心都是识别数据中的模式，然后基于这些模式对新数据进行预测。选择性能最佳的预测模型，可以实现更准确的预测并构建更可靠的 ML 应用。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

为什么模型选择很重要？

AI 模型的选择之所以重要，是因为它决定了机器学习系统的最终表现。不同的模型各有优劣，选择合适的模型直接影响项目的成败。在创建和部署 ML 模型的更大机器学习管道中，模型选择处于早期阶段。

某些任务需要复杂的模型来捕捉大型数据集的细节，但可能难以泛化到新数据。这可能还会带来更高的计算和资源需求。另一些任务则更适合使用体量较小、结构简单、专为单一目的而设计的模型。

为任务选择正确的模型可以：

优化效率： 在所有候选模型中，最出色的一个能够在性能、泛化性、复杂性和资源使用之间取得最佳平衡。
最大限度地提升模型性能：一个工具的价值取决于它所适用的任务。对候选模型进行测试和评估，能够找出最适合该任务的模型，从而让 AI 应用在现实世界中获得最佳的成功机会。
推动项目成功：模型的复杂性直接影响训练时间、资源需求以及最终结果。预测模型的复杂性从简单到复杂不等。越简单的模型训练起来越快速、越便宜，而复杂的模型则需要更多的数据、资金和时间。

AI 学院

成为 AI 专家

获取相关知识，以确定 AI 投资的优先级，从而推动业务增长。立即开始观看我们的免费 AI 学院视频，引领 AI 在组织中的未来应用。

观看系列视频

模型选择过程

模型选择过程旨在生成专为目标用例而量身定制的模型。机器学习专家先概述问题，然后从可能表现良好的模型类型中进行筛选，最后对候选模型进行训练和测试，以确定综合表现最佳的选择。

模型选择过程通常包括以下阶段：

确立 ML 的挑战
选择候选模型
确定模型评估指标
模型训练与评估

确立 ML 的挑战

依据任务的特点，某些机器学习算法比其他算法更合适。机器学习的挑战通常分为以下三类：

回归问题任务模型识别输入特征与某个特定的连续输出变量（例如价格）之间的关系。回归问题的示例包括预测薪资基准，或根据天气状况预测自然灾害发生的可能性。该模型的预测基于相关的输入特征，例如一年中的特定时间或人口统计信息。时间序列预测是一种回归挑战，旨在某个预测变量随时间推移的变化。时间序列预测模型是一种专门用于应对此类挑战的一类计算高效的模型。
分类问题根据一组输入变量将数据点分类到类别中。分类问题的示例包括对象识别和电子邮件垃圾邮件过滤器。训练集可能包括带有标记输出的数据点，以便模型可以学习输入和输出之间的关联。这种做法被称为监督学习。
聚类问题会根据相似性对数据点进行分组。聚类与分类不同，其目标是发现数据点中的自然分组，而不是将其归类到预先已知的类别中。模型必须在无监督学习环境中自行辨别相似之处。市场细分就是一个聚类问题的例子。

确定模型评估指标

测试过程会候选模型进行比较，并根据一组预选的评估指标来评估其性能。虽然存在许多评估指标，但某些指标比其他指标更适用于应对特定类型的 ML 挑战。

分类问题的模型评估指标包括：

准确率： 正确预测数占总预测数的百分比。
精确率： 在所有预测为正的样本中，真实为正的比例，用于衡量正类预测的准确性。
召回率： 在所有实际正向实例中，正向预测的比率，用于衡量模型识别正向实例的能力。
F1 分数： 结合精确度和召回率，综合评估识别并正确分类正向实例的能力。
混淆矩阵： 通过在表格中显示真阳性、假阳性、真阴性和假阴性，来总结分类器模型的性能。
AUC-ROC：将真阳性率和假阳性率绘制成接收者操作特征曲线 (ROC) 的图表。曲线下方区域 (AUC) 显示模型的性能。

回归问题的评估指标包括：

均方误差 (MSE)：对预测值和实际值之间的差值的平方求平均值。MSE 对异常值高度敏感，会对较大的误差施加重罚。
均方根误差 (RMSE)：MSE 的平方根，以与变量相同的单位显示误差率，并提升指标的可解释性。MSE 显示以平方为单位的误差。
平均绝对误差 (MAE)：目标变量的实际值和实践值之间差值的均值。MAE 的敏感度比 MSE 低。
平均绝对百分比误差 (MAPE)： 将平均绝对误差以百分比而非预测变量单位的形式来表示，这使得模型间的比较更为容易。
R 平方：提供一个介于 0 和 1 之间的模型性能基准测量值。然而，r 平方值可能会因添加更多特征而被“虚增”。
调整后的 r 平方：反映在忽略无关特征的情况下，对提高模型性能有贡献的特征。

模型训练与评估

数据科学家通过将可用数据分成多个集合，来为模型训练和评估做准备。训练数据集用于模型训练，在此期间，候选模型学习识别数据点中的模式和关系。然后，使用数据集的另一部分检验模型的性能。

最简单快捷的测试形式是培训-测试分割。数据科学家将数据集分为两部分，一部分用于训练，一部分用于测试。模型在训练完成前不会接触到测试集 - 测试集用于模拟模型在真实世界中将要处理的、全新的未知数据。

模型选择技术

模型创建者可以使用多种模型选择技术。有些与模型的初始设置和架构有关，进而影响其行为。其他方法则提供更细致、更严格的模型评估，或预测模型在特定数据集上的表现。

模型选择技术包括：

超参数调整
交叉验证
自助法
信息标准

超参数调优

超参数调优是指优化模型外部设置的过程，这些设置决定模型的结构和行为。模型还具有在训练期间实时更新的内部参数。内部参数决定了模型处理数据的方式。复杂模型（例如用于生成式 AI 的模型）可以拥有超过一万亿个参数。

超参数调整不同于微调模型，后者是指在预训练之后进一步训练或调整模型。

几种值得注意的超参数调整技术包括：

网格搜索：对每种可能的超参数组合进行训练、测试和评估。网格搜索是一种详尽的暴力破解方法，可能找到唯一的最佳超参数组合。然而，它既耗时又耗资源。
随机搜索：随机选取超参数组合的样本，子集中的每个样本都用于训练和测试模型。当网格搜索不可行时，随机搜索是一种替代方案。
贝叶斯优化：使用概率模型来预测哪些超参数组合最有可能产生最佳模型性能。贝叶斯优化是一种迭代方法，其效果会随着每一轮训练和测试而改进，并且在处理较大的超参数空间时表现良好。

交叉验证

在 k 倍交叉验证重采样系统中，数据被划分为 k 个集，或称为“倍”。训练数据由 k-1 个子集构成，而模型则在其余数据集上进行验证。这一过程会不断迭代，以便每个子集都充当一次验证集。数据点在不替换的情况下进行采样，这意味着在每次迭代中，每个数据点只出现一次。

与单次训练-测试分割相比，K 倍交叉验证可以提供对模型性能更全面的评估。

自助法

自助法是一种与交叉验证类似的重采样技术，但数据点是用替换方式进行采样的。这意味着采样数据点可能会出现在多“倍”中。

信息标准

信息标准旨在比较模型的复杂程度与其对数据集产生过度拟合或欠拟合的风险。过拟合是指模型对训练集的拟合程度过高，无法推广到新数据。欠拟合则相反，是指模型过于简单，无法捕获数据点之间的关系。

赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC) 都倾向于选择复杂度尽可能低，但又能充分处理该数据集的模型。

影响模型选择的因素

模型性能远非决定模型是否“最佳”的唯一因素。其他因素对决策也同样重要，甚至更为关键。

数据复杂性：数据集越复杂，处理其所需的模型就越复杂。但应用过于复杂的模型可能会导致过拟合。而过于简单的模型可能无法充分捕获数据中的模式。合适的模型能够高效处理数据，同时避免过拟合。
数据质量： 数据预处理和特征选择是为机器学习应用准备数据的两个数据科学过程。异常值、缺失数据及其他阻碍因素对不同模型的影响程度各异，但可以通过合成数据、正则化等对策来克服这些问题。
可解释性：可解释性或可说明性是人类观察者能够理解模型工作原理的程度。“黑匣”模型几乎不具可解释性，其决策工作流在很大程度上是个谜。对于智能自动化和人工智能驱动决策等敏感的商业应用，可解释性是遵循负责任的 AI 使用准则的组织的优先考量。医疗保健、金融等特定行业有着严格的数据隐私和其他法规，这进一步凸显了对清晰可解释性的必要性。
效率与资源消耗：算力可用性和资金等实际限制，可能会完全排除掉某些模型。深度神经网络需要海量数据和资金来进行训练和运行。虽然这类模型令人振奋，但它们并不适用于所有工作。AIC 和 BIC 可以帮助 ML 项目负责人做出明智决策，并降低模型的复杂程度。

LLM 选择

LLM 是许多商业应用的核心人工智能模型，例如 AI 智能体、RAG 驱动的问答系统或客服聊天机器人（具备自动文本生成能力）。自然语言处理 (NLP) 是指运用机器学习算法来理解和生成人类语言，而 LLM 是一种特定类型的 NLP 模型。

值得注意的 LLM 包括 OpenAI 的 GPT 系列（例如 GPT-4o 和 GPT-3.5、基于 ChatGPT 的一些模型）以及 Anthropic 的 Claude、Google 的 Gemini 和 Meta 的 Llama 3。所有 LLM 都能够处理复杂的任务，但机器学习项目的特定需求，将帮助确定最适合这项工作的 LLM。

选择合适的 LLM 取决于一系列因素，包括：

具体用例：机器学习挑战会直接影响 LLM 的选择。某种 LLM 可能更适合长文档的理解和总结，而另一种 LLM 可能更容易针对特定领域的用途进行微调。
性能：与其他模型一样，LLM 可以通过基准测试来评估性能。LLM 的基准测试包括推理、编码、数学、延迟、理解和通用知识等指标。权衡项目需求与基准性能，可帮助确定最佳 LLM 以获得高质量输出。
开源与闭源：开源模型能让观察者监控模型做出决策的过程。不同的 LLM 可能会以各种方式产生偏见和幻觉，即生成不符合现实世界的结果的预测。当内容审核和偏见预防至关重要时，将选择范围限制在开源提供商，以帮助引导 LLM 的选择过程。
资源使用和成本：LLM 是资源密集型模型。许多 LLM 由拥有数十万或更多图形处理单元 (GPU) 的超大规模数据中心提供支持。LLM 提供商对其模型的 API 连接会收取不同费用。模型的可扩展性和定价体系会直接影响项目范围。

数据领导者的数据科学和 MLOps

与其他领导者就 MLOps 和值得信任的 AI 的 3 个关键目标达成一致：信任数据、信任模型和信任流程。