La tasa de aprendizaje es importante porque guía a los modelos de IA en el aprendizaje efectivo a partir de sus datos de entrenamiento.
Una tasa de aprendizaje baja no permite que el modelo "aprenda" lo suficiente en cada paso. El modelo actualiza sus parámetros con demasiada lentitud y tarda demasiado en alcanzar la convergencia. Pero eso no significa que una alta tasa de aprendizaje sea la respuesta.
Con una alta tasa de aprendizaje, el algoritmo puede ser víctima de un exceso de tiempo, es decir, de un exceso de velocidad en la corrección de sus errores. En este caso, el algoritmo necesita una tasa de aprendizaje más pequeña, pero no demasiado pequeña como para que el aprendizaje sea ineficiente.
Como ejemplo, imagine a un extraterrestre que ha venido a aprender sobre la vida en la Tierra. El extraterrestre ve gatos, perros, caballos, cerdos y vacas y concluye que todos los animales tienen cuatro patas. Entonces, el extraterrestre ve una gallina. ¿Esta criatura también es un animal? Dependiendo de la tasa de aprendizaje del extraterrestre, llegarán a una de estas tres conclusiones:
A un ritmo de aprendizaje óptimo, el extraterrestre concluirá que las gallinas también son animales. Y si ese es el caso, esto debe significar que la cantidad de patas no es un determinante clave de si algo es un animal o no.
Si el extraterrestre tiene una tasa de aprendizaje baja, no puede obtener suficiente conocimiento de esta única gallina. El extraterrestre concluirá que los pollos no son animales porque no tienen cuatro patas. La pequeña tasa de aprendizaje del extraterrestre no le permite actualizar su pensamiento hasta que ve más gallinas.
A un ritmo de aprendizaje alto, el extraterrestre sobrecorregirá. Ahora, llegará a la conclusión de que, dado que la gallina es un animal y porque el pollo tiene dos patas, todos los animales deben tener dos patas. Un ritmo de aprendizaje alto significa que la modelo aprende "demasiado" de una vez.
Diferentes tasas de aprendizaje dan como resultado diferentes resultados de aprendizaje. La mejor tasa de aprendizaje es aquella que permite al algoritmo ajustar los parámetros del modelo de manera oportuna sin sobrepasar el punto de convergencia.