Antes de sumergirnos en el descenso del gradiente, puede ser útil revisar algunos conceptos de la regresión lineal. Es posible que recuerde la siguiente fórmula para la pendiente de una línea, que es y = mx + b, donde m representa la pendiente y b es la intersección en el eje y.
Es posible que también recuerde haber trazado un diagrama de dispersión en estadísticas y encontrar la línea de mejor ajuste, lo que requiere calcular el error entre la salida real y la salida prevista (y-hat) utilizando la fórmula del error cuadrático medio. El algoritmo de descenso del gradiente se comporta de manera similar, pero se basa en una función convexa.
El punto de partida es solo un punto arbitrario para que podamos evaluar el rendimiento. A partir de ese punto de partida, encontraremos la derivada (o pendiente), y a partir de ahí, podemos usar una recta tangente para observar la inclinación de la pendiente. La pendiente informará las actualizaciones de los parámetros del modelo,es decir, las ponderaciones y el sesgo. La pendiente en el punto de partida será más pronunciada, pero a medida que se generen nuevos parámetros, la inclinación deberá disminuir gradualmente hasta llegar al punto más bajo de la curva, conocido como punto de convergencia.
De manera similar a encontrar la línea de mejor ajuste en la regresión lineal, el objetivo del descenso de gradiente es minimizar la función de costo, o el error entre el valor “y” previsto y el real. Para ello, requiere dos puntos de datos: una dirección y una tasa de aprendizaje. Estos factores determinan los cálculos de derivadas parciales de iteraciones futuras, lo que le permite llegar gradualmente al mínimo local o global (es decir, al punto de convergencia).
- La tasa de aprendizaje (también conocida como tamaño de paso o alfa) es el tamaño de los pasos que se dan para alcanzar el mínimo. Este suele ser un valor pequeño, y se evalúa y actualiza en función del comportamiento de la función de costo. Las tasas de aprendizaje altas dan como resultado pasos más grandes, pero corren el riesgo de sobrepasar el mínimo. Por el contrario, una tasa de aprendizaje baja tiene pasos pequeños. Si bien tiene la ventaja de brindar una mayor precisión, el número de iteraciones compromete la eficiencia general, ya que se necesitan más tiempo y cálculos para alcanzar el mínimo.
- La función de costo (o pérdida) mide la diferencia, o error, entre la “y” real y la “y” prevista en su posición actual. Esto mejora la eficacia del modelo de machine learning al proporcionar feedback al modelo para que pueda ajustar los parámetros para minimizar el error y encontrar el mínimo local o global. Itera continuamente, moviéndose a lo largo de la dirección de descenso más pronunciada (o el gradiente negativo) hasta que la función de costo esté cerca de cero o en cero. En este punto, el modelo dejará de aprender. Además, si bien los términos “función de costo” y “función de pérdida” se consideran sinónimos, existe una ligera diferencia entre ellos. Cabe señalar que una función de pérdida se refiere al error de un ejemplo de entrenamiento, mientras que una función de costo calcula el error promedio en todo un conjunto de entrenamiento.