什么是模型参数？

模型参数是机器学习模型中学到的数值，它们决定了模型如何将输入数据映射到输出，例如生成的文本或预测的分类。机器学习算法的目的是不断调整参数，直到人工智能 (AI) 模型的输出与预期结果高度一致。

这些参数的值决定了模型的预测结果，并最终决定了模型在给定任务上的性能。模型中的参数数量会直接影响其捕捉数据点间模式的能力。大型模型，例如生成式 AI 中使用的模型，可以拥有数十亿个参数，从而能够生成高度复杂的输出。参数越多，模型就能更准确地捕获更细微的数据模式，但参数过多的风险是过度拟合。

不同的机器学习算法具有不同类型的参数。例如，回归模型有系数，神经网络有权重和偏差，而一些算法，如支持向量机或状态空间模型，则有独特的参数类型。

模型参数（即训练过程中学习到的变量）不应与超参数（即预先设定的参数）混淆。这两种类型的参数都会影响模型的性能和行为，但方式却大不相同。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

简化模型参数

模型参数存在于简单模型中，即使是在最简单的数学模型中，也会存在参数，例如描述某个量以恒定速率变化的模型。

线性回归

要了解房屋面积如何影响房价，可使用简单的线性回归模型，其方程式为 $y = m x + b$ ，其中，斜率 m 和截距 b 是模型参数。通过调整这两个参数，回归线会平移或旋转，直至与数据实现最佳拟合。

分类

一个稍复杂的例子是使用逻辑回归模型，根据房屋在市场上的待售天数来预测其能否成功售出。

逻辑回归使用的公式为：， $p = \frac{1}{1 + e^{- (w x + b)}}$ 其中 p 表示“售出概率”，x 代表“在售天数”。同样地，w 和 b 是模型“学习”的参数。等式变得更加复杂，但仍然只有 2 个参数在起作用。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

模型参数的类型

在机器学习中，模型参数主要分为两类：权重和偏差。以简单线性回归模型为例： $y = m x + b$ 此处的权重即对应斜率 m，其数值决定了输入变量对输出结果的影响强度。权重越大，输入的影响就越大。偏差对应于截距 b。此举可让模型将整条线向上或向下移动。

权重

权重是模型的基本控制旋钮或设置，用于确定模型如何评估新数据并进行预测。

在线性回归模型中，权重决定了用于表征每个数据点的特征所具有的相对影响力。在神经网络中，权重决定了每个神经元的输出对下一层中每个神经元的输出的相对影响。

在预测房屋能否售出的模型中，若以“在售天数”等因素作为判断依据，其中每个因素都对应一个权重，该权重反映了该因素对售出可能性的影响程度。

偏差

偏差使模型能够独立于权重和输入参数来调节输出，其作用类似于阈值或偏移量。偏差有助于模型概括并捕捉数据集中的更大模式和趋势。

以房屋销售模型为例：假设历史上该区域房产的整体成交率稳定在 60%，这个基准数据与房屋在售天数、看房次数等具体因素无关，即使某套房源挂牌已久或看房量极低，仍适用此基准成交概率。偏差允许模型从这个现实的基线概率开始，然后根据其他输入向上或向下调整。

这里的“偏差”与算法偏见是两个不同的概念，后者特指模型产生歧视性结果的现象。偏差也可以指代由于模型对数据做出了不正确的假设，导致预测值与实际值之间出现偏差的错误类型。两者都与参数偏差无关。

其他参数

机器学习领域还有其他类型的参数。上述简单模型与更复杂的神经网络同样使用权重和偏差，并引入用于归一化处理的增益与偏移参数。

以卷积神经网络为例，其包含的滤波器（亦称卷积核）能够检测空间特征模式。采用长短期记忆结构的循环神经网络通过门控参数来调控网络中的信息流动。朴素贝叶斯等概率模型使用参数来定义条件概率或概率分布的性质。支持向量机通过设定特定参数来确定“超平面”在特征空间中的位置与方向，从而实现类别划分。状态空间模型具有观测和噪声参数。

这是一个有限的示例列表，不同模型的参数以不同的方式工作。但在所有这些模型中，参数决定了模型如何将输入数据映射到输出。

模型参数与超参数

参数本质上是模型所求解问题的答案（例如：“基于房屋面积预测房价时，能够实现最高预测精度的最优方程斜率是多少？”）

另一方面，超参数可以被视为告诉模型如何找到答案的游戏规则。训练模型的数据科学家利用他们对问题的理解来设定边界，从而决定模型如何寻找答案。

模型参数是模型内部的固有变量，它们会在学习过程的多次迭代中，根据训练数据不断进行自我更新。模型会在训练期间更新参数值。模型参数决定了模型在处理未见过数据时的响应方式。

模型超参数位于模型外部，并在训练之前通过超参数调整进行设置。一些超参数确定模型在训练期间的行为，例如学习率（梯度下降期间）或训练过程的轮次数。

其他超参数决定模型的形状和结构，例如决策树的数量（随机森林中）、簇的数量（K-means 聚类中）或神经网络中的隐藏层的数量。

神经网络中的模型参数

机器学习模型可能比前面的示例复杂得多。在神经网络（例如大语言模型 (LLM)）中，模型的决策机制类似于生物神经元在人脑中的协同工作方式。每个神经网络都由多层人工神经元构成，其中每个神经元代表一个用于处理数值的数学函数。在深度学习中，神经网络由许多层组成。

从一层到另一层

每个神经元都控制着网络的一个部分对另一个部分的影响程度。权重决定神经元之间连接的强度：一个神经元的输出对下一个神经元的输入的影响程度。

在训练过程中，网络会接收输入。继续以房价为例，这可能包括房屋面积、建造年份、社区人口统计数据以及其他几十个输入。

这些输入特征被传递到第一层神经元。每个输入值都会乘以一个权重，即网络对该神经元重要性的最优估计，并加上一个偏差以增强灵活性，从而使神经元在一定程度上独立于来自前一层神经元的加权输入总和的影响。激活函数决定着该神经元的“激活强度”，并将其处理后的信息作为输入信号，传递给下一层所有神经元的激活函数。这些神经元与神经元之间的每个连接都有各自的权重。

权重构成矩阵，偏差组成矢量；该层级首先计算“输入与偏差的线性组合”，随后将结果通过激活函数（如 sigmoid、tanh、ReLU 或 softmax 函数）进行非线性转换。该函数的作用是引入非线性，使网络能够学习和建模复杂的模式，而不仅仅是线性关系。

数据会移动通过后续的“隐藏”层。第一个隐藏层可能会结合房屋的占地面积和卧室数量，从而得出“总体居住空间”。在神经网络中，后续层级可能会将房屋的地理位置与学区评级相结合，从而生成对"社区宜居度"的综合评估。该模型并不具备人类对“社区宜居度”的语义理解能力，它仅能识别训练数据中的数值模式并建立关联关系。

从一层到另一层，网络开始“理解”哪些模式最相关。这些堆叠的层将简单的运营转化为一个强大的网络，能够学习复杂的、分层的模式。

损失和反向传播算法

在下一阶段，网络将计算损失值，即模型输出与真实标签（训练数据集中固有的数据结构）之间的差异。这个损失值作为一个单一数值，清晰地量化了模型预测结果的误差程度。

随后，在反向传播过程中，网络会计算损失值相对于权重和偏差的梯度。这一梯度信息明确指出了哪些参数对损失值产生影响，以及如何调整这些参数才能使损失最小化。这一过程按照反向顺序逐层推进，并通过梯度下降算法实现参数优化。梯度下降等优化算法旨在最小化损失函数，告诉模型如何有效地改变参数以减少损失。

上述过程将不断重复迭代，直至模型能够以预期性能水平输出预测结果（在此场景中即指房屋价格）。

预测房价的例子说明了神经网络如何同时处理多个特征，以非线性方式将它们组合，并输出有用的预测结果。不过，这本可以通过更简单的线性回归模型来实现。当数据是非结构化的，或者模式过于复杂或高维以至于传统模型无法处理时，神经网络才能真正大显身手。例如，神经网络可通过分析卫星图像和社区地图数据来预测房屋售价。或者，可以训练神经网络来识别房源描述中的关键术语，例如“安静街区”或“新屋顶”。

微调

初始训练完成后，人工智能模型可以进一步适应特定任务或学科领域。微调是指为特定用例调整预训练模型的过程。为此，通过对新数据进行额外训练来更新模型的参数。

其他类型的学习

上述用于预测房价的神经网络示例描述的是监督学习方法，即模型通过已标记数据进行训练。在这种情况下，模型既有输入又有正确的输出。该模型将其预测与基本事实数据（在本例中为标记数据）进行比较。微调通常在监督式编程环境下进行。

无监督学习允许模型通过在未标记数据中寻找模式或结构来学习参数，而无需被告知“正确答案”。这些模型不是将预测结果与基本事实标签进行比较（如监督学习中那样），而是优化衡量模型对数据本身解释能力的目标函数。例如，在聚类中，参数（如 k-means 中的簇质心）会通过迭代更新，使相似的数据点更紧密地分组。在降维技术中，模型通过寻找能捕捉数据最大方差的方向来学习参数。

在强化学习中，模型（或由模型提供支持的智能体）与环境交互，通过正确操作获得奖励。这些参数通常定义一个策略或价值函数来估计预期奖励。模型通过比较预测奖励与实际获得的奖励来更新参数。

验证模型参数性能

提高训练数据的性能是训练的目标，但这只是实现目标的一种手段。主要目标是泛化，即通过训练模型，使其能够很好地推广到训练数据中未见过的实际任务。

当参数捕获训练数据中的噪声或随机波动时，必须注意避免过度拟合等陷阱，从而导致新数据的泛化能力不佳。参数必须足够灵活，以便学习有意义的模式，但又不能灵活到记住不相关的细节。

几种数据科学技术用于评估模型性能。交叉验证是一种模型评估技术，将数据集拆分为多个部分（折叠）。该模型在部分折叠数据上进行训练，并在剩余折叠数据上进行测试，此过程不断重复直至每个折叠数据都曾作为测试集使用。这降低了过度拟合的风险，因为模型是在数据的多个分区上进行测试的。交叉验证并不会直接修改参数，而是评估已学习参数在未见过数据上的泛化能力。若模型在所有数据折叠上均表现一致，则表明参数很可能已得到充分优化。如果没有，则模型参数可能与它已经看到的训练数据的子集过于拟合。在更多样化的数据上进行进一步训练可能会提升模型的泛化能力。

另一种技术是自助法，这是一种统计方法，通过从原始数据集中有放回地随机抽样来生成新的数据集。由于每个自助样本都略有不同，因此自助法会产生许多参数集。通过观察这些自助法模型的差异，可以衡量在稍有不同的数据上训练时，模型参数的可靠性。

从业者还依赖量化模型性能的指标，例如准确性、精度、召回率或均方误差。它们可为当前参数是否使模型朝着正确方向移动提供客观反馈。

解锁生成式 AI + 机器学习的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

什么是模型参数？