Sense model (aprenentatge de reforç)
Aparença
En l'aprenentatge per reforç (RL), un algorisme sense model (a diferència d'un basat en models) és un algorisme que no estima la distribució de probabilitat de transició (i la funció de recompensa ) associada al procés de decisió de Markov (MDP),[1] que, en RL, representa el problema a resoldre. La distribució de probabilitat de transició (o model de transició) i la funció de recompensa sovint s'anomenen col·lectivament "model" de l'entorn (o MDP), d'aquí el nom "sense model". Un algorisme de RL sense model es pot pensar com un algorisme d'assaig i error "explícit".[1] Un exemple d'algorisme sense models és Q-learning.[2][3][4]
Algoritmes clau d'aprenentatge de reforç "sense models"
[modifica]Algorisme | Descripció | Model | Política | Espai d'acció | Espai de l'Estat |
---|---|---|---|---|---|
DQN | Xarxa Deep Q | Sense models | Fora de la política | Discret | Contínua |
DDPG | Deep Deterministic Policy Gradient | Sense models | Fora de la política | Contínua | Contínua |
A3C | Avantatge asíncron Algoritme actor-crític | Sense models | En política | Contínua | Contínua |
TRPO | Optimització de la política de la regió de confiança | Sense models | En política | Continu o discret | Contínua |
PPO | Optimització de la política proximal | Sense models | En política | Continu o discret | Contínua |
TD3 | Doble Delayed Deep Deterministic Policy Gradient | Sense models | Fora de la política | Contínua | Contínua |
SAC | Actor-crític suau | Sense models | Fora de la política | Contínua | Contínua |
Referències
[modifica]- ↑ 1,0 1,1 Sutton, Richard S. Reinforcement Learning: An Introduction (en anglès). Second. A Bradford Book, 13 novembre 2018, p. 552. ISBN 0262039249.
- ↑ baeldung. «Model-free vs. Model-based Reinforcement Learning | Baeldung on Computer Science» (en anglès americà), 10-06-2022. [Consulta: 28 setembre 2023].
- ↑ «Model-Free Reinforcement Learning - an overview | ScienceDirect Topics» (en anglès). [Consulta: 28 setembre 2023].
- ↑ Doody, Max; Van Swieten, Maaike M. H.; Manohar, Sanjay G. «Model-based learning retrospectively updates model-free values» (en anglès). Scientific Reports, 12, 1, 11-02-2022, pàg. 2358. DOI: 10.1038/s41598-022-05567-3. ISSN: 2045-2322.