기존 경사 하강법과 확률적 경사 하강법의 주요 차이점은 SGD가 한 번에 하나의 훈련 예시를 사용하여 모델 가중치를 업데이트한다는 것입니다. 예시는 각 반복에서 무작위로 선택됩니다.1 경사 하강법은 전체 훈련 데이터 세트를 사용하여 각 매개변수가 업데이트되기 전에 경사를 계산합니다. 이러한 데이터 사용량의 차이로 인해 SGD는 계산 비용이 훨씬 적게 들고 대규모 데이터 세트에 대해 확장하기 쉽습니다. 또는 SGD의 수렴 동작은 하나의 예시 데이터 포인트가 데이터 세트를 잘 나타내지 않을 수 있기 때문에 GD의 노이즈보다 더 시끄럽습니다. 이러한 잘못된 표현은 요점을 약간 '잘못된' 방향으로 업데이트합니다. 그러나 이러한 무작위성 덕분에 SGD는 얕은 로컬 최소값 또는 새들 포인트에서 벗어날 수 있기 때문에 비볼록 최적화 문제에서 더 빠르고 때로는 더 나은 결과를 얻을 수 있습니다.

엄밀히 말하면 SGD는 원래 한 번에 정확히 하나의 훈련 샘플을 사용하여 매개변수를 업데이트하도록 정의되었습니다. 오늘날 'SGD'라는 용어는 한 번에 작은 배치의 훈련 데이터를 사용하는 GD의 변형인 '미니배치 경사 하강'을 의미하는 느슨한 의미로 사용됩니다. 단일 샘플 대신 데이터의 하위 집합을 사용할 때의 주요 이점은 경사가 미니배치의 손실 평균과 동일하기 때문에 노이즈 수준이 낮다는 것입니다. 이러한 이유로 미니배치 경사 하강은 딥 러닝의 기본값입니다. 반대로 엄격한 SGD는 실제로 거의 사용되지 않습니다. 이러한 용어는 PyTorch 및 TensorFlow와 같은 대부분의 머신 러닝 라이브러리에서도 혼동됩니다. 옵티마이저는 일반적으로 미니배치를 사용하지만 종종 'SGD'라고 불립니다.

다음 그림은 훈련 데이터의 샘플 크기를 늘리면 진동과 '노이즈'가 어떻게 줄어드는지 더 명확하게 보여줍니다.