La tasa de aprendizaje es importante porque guía a los modelos de IA para que aprendan de manera eficaz a partir de sus datos de entrenamiento.
Una tasa de aprendizaje baja no permite que el modelo “aprenda” lo suficiente en cada paso. El modelo actualiza sus parámetros con demasiada lentitud y tarda demasiado en alcanzar la convergencia. Pero eso no significa que una alta tasa de aprendizaje sea la solución.
Con una tasa de aprendizaje alta, el algoritmo puede caer en excesos, es decir, ir demasiado lejos en la corrección de sus errores. En este caso, el algoritmo necesita una tasa de aprendizaje menor, pero no demasiado pequeña como para que el aprendizaje sea ineficiente.
Como ejemplo, imagine a un extraterrestre que vino a aprender sobre la vida en la Tierra. El alienígena ve gatos, perros, caballos, cerdos y vacas y concluye que todos los animales tienen cuatro patas. Luego, ve una gallina. ¿Es esta criatura también un animal? Dependiendo de la tasa de aprendizaje del alienígena, llegará a una de las siguientes tres conclusiones:
A una tasa de aprendizaje óptima, el extraterrestre concluirá que los pollos también son animales. Y si ese es el caso, esto debe significar que la cantidad de patas no es un determinante clave para definir si algo es un animal o no.
Si el alienígena tiene una tasa de aprendizaje baja, no puede obtener suficiente insight a partir de este único pollo. El alienígena concluirá que los pollos no son animales porque no tienen cuatro patas. La tasa de aprendizaje baja del alienígena no le permite actualizar su razonamiento hasta que ve más pollos.
A una tasa de aprendizaje alta, el extraterrestre se excederá en sus correcciones. Ahora, concluirá que, dado que el pollo es un animal, y dado que el pollo tiene dos patas, todos los animales deben tener dos patas. Una tasa de aprendizaje alta significa que el modelo aprende “demasiado” a la vez.
Las diferentes tasas de aprendizaje derivan en distintos resultados de aprendizaje. La mejor tasa de aprendizaje es aquella que permite que el algoritmo ajuste los parámetros del modelo de manera oportuna sin sobrepasar el punto de convergencia.