La letteratura spesso contrappone l'apprendimento per rinforzo all'apprendimento supervisionato e non supervisionato. L'apprendimento supervisionato utilizza dati etichettati manualmente per produrre previsioni o classificazioni. L'apprendimento non supervisionato mira a scoprire e apprendere modelli nascosti da dati senza etichetta. A differenza dell'apprendimento supervisionato, l'apprendimento per rinforzo non utilizza esempi etichettati di comportamento corretto o scorretto. Ma l'apprendimento per rinforzo differisce anche dall'apprendimento non supervisionato in quanto l'apprendimento per rinforzo impara attraverso tentativi ed errori e funzioni di ricompensa, anziché estrarre informazioni da schemi nascosti.2

I metodi di apprendimento supervisionato e non supervisionato presuppongono che ogni record di dati di input sia indipendente dagli altri record nel set di dati, ma che ogni record realizzi un modello di distribuzione dei dati sottostante comune. Questi metodi imparano a fare previsioni con le prestazioni del modello misurate in base alla massimizzazione dell'accuratezza delle previsioni.

Al contrario, l'apprendimento per rinforzo impara ad agire. Suppone che i dati di input siano tuple interdipendenti, ovvero una sequenza ordinata di dati, organizzati come stato-azione-ricompensa. Molte applicazioni degli algoritmi di apprendimento per rinforzo mirano a imitare i metodi di apprendimento biologico del mondo reale attraverso il rinforzo positivo.

Si noti che, sebbene i due non vengano spesso confrontati in letteratura, l'apprendimento per rinforzo è distinto anche dall'apprendimento auto-supervisionato. Quest'ultimo è una forma di apprendimento non supervisionato che utilizza pseudo etichette derivate da dati di addestramento non etichettati come verità di base per misurare l'accuratezza del modello. L'apprendimento per rinforzo, tuttavia, non produce pseudo etichette o misure rispetto a una verità fondamentale: non è un metodo di classificazione ma un apprendimento dell'azione. I due sono stati combinati, tuttavia, con risultati promettenti.3