O objetivo do algoritmo de otimização é minimizar a função de perda que mede a lacuna entre as previsões de um modelo e os dados do mundo real. Cada vez que o modelo executa seu algoritmo de otimização, ele atualiza seus parâmetros com base no resultado. A taxa de aprendizado, ou tamanho da etapa, é representada pela letra grega η e determina o tamanho das alterações que o modelo têm permissão para fazer.

A taxa de aprendizado ajuda a garantir que um modelo aprenda o suficiente durante o treinamento para fazer ajustes significativos em seus parâmetros sem realizar correções excessivas. Imagine uma descida por uma colina: para chegar ao final com segurança, é necessário ir rápido o bastante para progredir, mas não tão rápido a ponto de perder o controle e cair. A melhor taxa de aprendizado define uma velocidade segura de descida.

Cada etapa de treinamento representa o modelo substituindo sua compreensão anterior do conjunto de dados. Uma rede neural “aprende” mais sobre seus dados de treinamento a cada passagem de seu algoritmo de otimização.