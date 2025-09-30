分布式训练充分利用分布式 ML 技术，将模型训练分散到各个设备上。例如，这种技术常用于大型神经网络。当网络、训练数据集或两者对于单个处理器来说太大时，分布式训练会将工作负载分散到多个服务器、GPU 或机器上。

随机梯度下降 (SGD) 是一种学习算法，它将数据集分成小批量，并在每个批次之后计算损失函数的梯度。使用小批量数据而不是完整数据集可以提高训练效率。

损失函数衡量模型预测中的误差，SGD 的目标是降低 梯度 以最小化函数值。与标准 模型训练 一样，当模型达到收敛时，即当 SGD 算法成功最小化函数值时，训练过程被视为完成。

节点可以并行处理小批量，这是因为在每次迭代中，每个批次都是独立处理的。每个节点计算其梯度，然后将更新的梯度值推送到网络中的其他节点。其他工作节点会将接收到的更新内容应用到自己的模型中，帮助确保模型的所有副本在整个训练过程中保持一致。

AllReduce函数是一个集体通信操作，它使每个节点能够共享其结果，并将聚合结果通过网络传播。AllReduce 允许所有节点同步模型参数更新，保持一致性。AllReduce 长期用于 高性能计算 ，后在 Horovod 等 ML 框架中得到普及。

SGD 可以同步或异步运行。同步 SGD 在同一时间更新所有节点，这样可以保持一致性，但代价是如果某些节点落后则可能产生延迟。异步 SGD 会在更新准备就绪后立即更新参数，但有些节点可能会收到不包含最新值的更新。

通过减少每台设备所需的计算资源，分布式训练可以加快训练时间。因为训练是计算密集型的，所以它是分布式 ML 的主要用例之一。