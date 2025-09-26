传统梯度下降和随机梯度下降之间的主要区别在于，SGD 一次使用一个训练样本来更新模型权重。每次迭代都会随机选择一个样本。1 梯度下降法在每次参数更新之前都会使用整个训练数据集来计算梯度。这种数据使用差异使得 SGD 的计算成本要低得多，并且更容易扩展到大型数据集。另一方面，SGD 的收敛行为比 GD 的噪声更大，因为单个示例数据点可能无法很好地代表数据集。这种错误的代表行为将要点更新到了一个略微“错误”的方向。然而，这种随机性使 SGD 更快，有时更适合非凸优化问题，因为它可以逃避浅的局部最小值或鞍点。

严格来说，SGD 最初的定义是通过每次只能使用一个训练样本来更新参数。在现代用法中，术语“SGD”广泛用于表示“小批次梯度下降”，这是 GD 的一种变体，一次使用小批次训练数据。与单一样本相比，使用数据子集而不是单一样本的主要优势是噪声水平较低，因为梯度等于小批次损失的平均值。因此，小批次梯度下降是深度学习的默认设置。相反，严格的 SGD 在实践中很少使用。大多数机器学习库（如 PyTorch 和 TensorFlow）甚至将这些术语混为一谈；优化器通常被称为“SGD”，尽管它们通常使用小批次。

下图更清晰地说明了增加训练数据的样本量如何减少波动和“噪声”。