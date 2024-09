El aprendizaje por refuerzo es un modelo de machine learning similar al aprendizaje supervisado, pero el algoritmo no se entrena con datos de ejemplo. Este modelo aprende sobre la marcha mediante el método de ensayo y error. A sequence of successful outcomes will be reinforced to develop the best recommendation or policy for a given problem.

El sistema IBM Watson que ganó el desafío Jeopardy! en 2011 es un buen ejemplo. El sistema utilizaba el aprendizaje por refuerzo para aprender cuándo intentar responder (o preguntar, por así decirlo), qué casilla seleccionar en el tablero y cuánto apostar, especialmente en los dobles diarios.

