机器学习中的模型选择,是为特定任务选择最合适的机器学习模型(ML 模型)的过程。所选模型通常是最能概括到未见过的数据,同时最成功地满足相关性能指标的模型。
ML 模型选择过程是对候选模型池中不同模型的比较。机器学习专家会评估每个 ML 模型的性能,然后根据一系列评估指标,选出最佳模型。
大多数机器学习任务的核心都是识别数据中的模式,然后基于这些模式对新数据进行预测。选择性能最佳的预测模型,可以实现更准确的预测并构建更可靠的 ML 应用。
AI 模型的选择之所以重要,是因为它决定了机器学习系统的最终表现。不同的模型各有优劣,选择合适的模型直接影响项目的成败。在创建和部署 ML 模型的更大机器学习管道中,模型选择处于早期阶段。
某些任务需要复杂的模型来捕捉大型数据集的细节,但可能难以泛化到新数据。这可能还会带来更高的计算和资源需求。另一些任务则更适合使用体量较小、结构简单、专为单一目的而设计的模型。
为任务选择正确的模型可以:
优化效率: 在所有候选模型中,最出色的一个能够在性能、泛化性、复杂性和资源使用之间取得最佳平衡。
最大限度地提升模型性能:一个工具的价值取决于它所适用的任务。对候选模型进行测试和评估,能够找出最适合该任务的模型,从而让 AI 应用在现实世界中获得最佳的成功机会。
推动项目成功:模型的复杂性直接影响训练时间、资源需求以及最终结果。预测模型的复杂性从简单到复杂不等。越简单的模型训练起来越快速、越便宜,而复杂的模型则需要更多的数据、资金和时间。
模型选择过程旨在生成专为目标用例而量身定制的模型。机器学习专家先概述问题,然后从可能表现良好的模型类型中进行筛选,最后对候选模型进行训练和测试,以确定综合表现最佳的选择。
模型选择过程通常包括以下阶段:
确立 ML 的挑战
选择候选模型
确定模型评估指标
模型训练与评估
依据任务的特点,某些机器学习算法比其他算法更合适。机器学习的挑战通常分为以下三类:
回归问题任务模型识别输入特征与某个特定的连续输出变量(例如价格)之间的关系。回归问题的示例包括预测薪资基准,或根据天气状况预测自然灾害发生的可能性。该模型的预测基于相关的输入特征,例如一年中的特定时间或人口统计信息。 时间序列预测 是一种回归挑战,旨在某个预测变量随时间推移的变化。 时间序列预测模型 是一种专门用于应对此类挑战的一类计算高效的模型。
分类问题根据一组输入变量将数据点分类到类别中。分类问题的示例包括对象识别和电子邮件垃圾邮件过滤器。训练集可能包括带有标记输出的数据点,以便模型可以学习输入和输出之间的关联。这种做法被称为 监督学习 。
聚类问题会根据相似性对数据点进行分组。聚类与分类不同,其目标是发现数据点中的自然分组,而不是将其归类到预先已知的类别中。模型必须在无监督学习环境中自行辨别相似之处。市场细分就是一个聚类问题的例子。
测试过程会候选模型进行比较,并根据一组预选的评估指标来评估其性能。虽然存在许多评估指标,但某些指标比其他指标更适用于应对特定类型的 ML 挑战。
分类问题的模型评估指标包括:
准确率: 正确预测数占总预测数的百分比。
精确率: 在所有预测为正的样本中,真实为正的比例,用于衡量正类预测的准确性。
召回率: 在所有实际正向实例中,正向预测的比率,用于衡量模型识别正向实例的能力。
F1 分数: 结合精确度和召回率,综合评估识别并正确分类正向实例的能力。
混淆矩阵: 通过在表格中显示真阳性、假阳性、真阴性和假阴性,来总结分类器模型的性能。
AUC-ROC:将真阳性率和假阳性率绘制成接收者操作特征曲线 (ROC) 的图表。曲线下方区域 (AUC) 显示模型的性能。
回归问题的评估指标包括:
均方误差 (MSE):对预测值和实际值之间的差值的平方求平均值。MSE 对异常值高度敏感,会对较大的误差施加重罚。
均方根误差 (RMSE):MSE 的平方根,以与变量相同的单位显示误差率,并提升指标的可解释性。MSE 显示以平方为单位的误差。
平均绝对误差 (MAE):目标变量的实际值和实践值之间差值的均值。MAE 的敏感度比 MSE 低。
平均绝对百分比误差 (MAPE): 将平均绝对误差以百分比而非预测变量单位的形式来表示,这使得模型间的比较更为容易。
R 平方:提供一个介于 0 和 1 之间的模型性能基准测量值。然而,r 平方值可能会因添加更多特征而被“虚增”。
调整后的 r 平方:反映在忽略无关特征的情况下,对提高模型性能有贡献的特征。
数据科学家通过将可用数据分成多个集合,来为模型训练和评估做准备。训练数据集用于模型训练,在此期间,候选模型学习识别数据点中的模式和关系。然后,使用数据集的另一部分检验模型的性能。
最简单快捷的测试形式是培训-测试分割。数据科学家将数据集分为两部分,一部分用于训练,一部分用于测试。模型在训练完成前不会接触到测试集 - 测试集用于模拟模型在真实世界中将要处理的、全新的未知数据。
模型创建者可以使用多种模型选择技术。有些与模型的初始设置和架构有关,进而影响其行为。其他方法则提供更细致、更严格的模型评估,或预测模型在特定数据集上的表现。
模型选择技术包括:
超参数调整
交叉验证
自助法
信息标准
超参数调优是指优化模型外部设置的过程,这些设置决定模型的结构和行为。模型还具有在训练期间实时更新的内部参数。内部参数决定了模型处理数据的方式。复杂模型(例如用于生成式 AI 的模型)可以拥有超过一万亿个参数。
超参数调整不同于微调模型,后者是指在预训练之后进一步训练或调整模型。
几种值得注意的超参数调整技术包括:
网格搜索:对每种可能的超参数组合进行训练、测试和评估。网格搜索是一种详尽的暴力破解方法,可能找到唯一的最佳超参数组合。然而,它既耗时又耗资源。
随机搜索:随机选取超参数组合的样本,子集中的每个样本都用于训练和测试模型。当网格搜索不可行时,随机搜索是一种替代方案。
贝叶斯优化:使用概率模型来预测哪些超参数组合最有可能产生最佳模型性能。贝叶斯优化是一种迭代方法,其效果会随着每一轮训练和测试而改进,并且在处理较大的超参数空间时表现良好。
在 k 倍交叉验证重采样系统中,数据被划分为 k 个集,或称为“倍”。训练数据由 k-1 个子集构成,而模型则在其余数据集上进行验证。这一过程会不断迭代,以便每个子集都充当一次验证集。数据点在不替换的情况下进行采样,这意味着在每次迭代中,每个数据点只出现一次。
与单次训练-测试分割相比,K 倍交叉验证可以提供对模型性能更全面的评估。
自助法是一种与交叉验证类似的重采样技术,但数据点是用替换方式进行采样的。这意味着采样数据点可能会出现在多“倍”中。
模型性能远非决定模型是否“最佳”的唯一因素。其他因素对决策也同样重要,甚至更为关键。
LLM 是许多商业应用的核心人工智能模型,例如 AI 智能体、RAG 驱动的问答系统或客服聊天机器人(具备自动文本生成能力)。自然语言处理 (NLP) 是指运用机器学习算法来理解和生成人类语言,而 LLM 是一种特定类型的 NLP 模型。
值得注意的 LLM 包括 OpenAI 的 GPT 系列(例如 GPT-4o 和 GPT-3.5、基于 ChatGPT 的一些模型)以及 Anthropic 的 Claude、Google 的 Gemini 和 Meta 的 Llama 3。所有 LLM 都能够处理复杂的任务,但机器学习项目的特定需求,将帮助确定最适合这项工作的 LLM。
选择合适的 LLM 取决于一系列因素,包括:
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。