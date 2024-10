La literatura a menudo contrasta el aprendizaje por refuerzo con el aprendizaje supervisado y no supervisado. El aprendizaje supervisado emplea datos etiquetados manualmente para producir predicciones o clasificaciones. El aprendizaje no supervisado tiene como objetivo descubrir y aprender patrones ocultos a partir de datos no etiquetados. A diferencia del aprendizaje supervisado, el aprendizaje de refuerzo no emplea ejemplos etiquetados de comportamiento correcto o incorrecto. Pero el aprendizaje por refuerzo también se diferencia del aprendizaje no supervisado en que el aprendizaje por refuerzo aprende por ensayo y error y por función de recompensa en lugar de extraer información de patrones ocultos.2

Los métodos de aprendizaje supervisado y no supervisado suponen que cada registro de datos de entrada es independiente de otros registros del conjunto de datos, pero que cada registro actualiza un modelo común subyacente de distribución de datos. Estos métodos aprenden a predecir con el rendimiento del modelo medido según la maximización de la precisión de la predicción.

Por el contrario, el aprendizaje por refuerzo aprende a actuar. Supone que los datos de entrada son tuplas interdependientes, es decir, una secuencia ordenada de datos, organizadas como estado-acción-recompensa. Muchas aplicaciones de los algoritmos de aprendizaje por refuerzo tienen como objetivo imitar los métodos de aprendizaje biológico del mundo real a través del refuerzo positivo.

Tenga en cuenta que, aunque los dos no se comparan a menudo en la literatura, el aprendizaje por refuerzo también es distinto del aprendizaje autosupervisado . Este último es una forma de aprendizaje no supervisado que emplea pseudoetiquetas derivadas de datos de entrenamiento no etiquetados como verdad fundamental para medir la precisión del modelo. Sin embargo, el aprendizaje por refuerzo no produce pseudoetiquetas ni mide contra una verdad fundamental: no es un método de clasificación sino un aprendiz de acciones. Sin embargo, los dos se combinaron con resultados prometedores.3