Vés al contingut

SARSA

De la Viquipèdia, l'enciclopèdia lliure

Estat-acció-recompensa-estat-acció (SARSA) és un algorisme per aprendre una política de procés de decisió de Màrkov, utilitzat a l'àrea d'aprenentatge de reforç de l'aprenentatge automàtic. Va ser proposat per Rummery i Niranjan en una nota tècnica [1] amb el nom de "Modified Connectionist Q-Learning" (MCQ-L). El nom alternatiu SARSA, proposat per Rich Sutton, només s'esmentava com a nota a peu de pàgina.[2]

Aquest nom reflecteix el fet que la funció principal per actualitzar el valor Q depèn de l'estat actual de l'agent "S1", l'acció que l'agent tria "A1", la recompensa "R2" que rep l'agent per triar-la. acció, l'estat "S2" en què entra l'agent després de fer aquesta acció, i finalment la següent acció "A2" que l'agent tria en el seu nou estat. L'acrònim del quíntuple (S t, A t, R t+1, S t+1, A t+1) és SARSA.[3] Alguns autors utilitzen una convenció lleugerament diferent i escriuen el quíntuple (St, At,Rt, St+1, At+1), en funció de quin pas de temps s'assigna formalment la recompensa. La resta de l'article utilitza la convenció anterior.

Algorisme

[modifica]

Un agent SARSA interactua amb l'entorn i actualitza la política en funció de les accions realitzades, per això es coneix com a algorisme d'aprenentatge de polítiques. El valor Q d'una acció d'estat s'actualitza per un error, ajustat per la taxa d'aprenentatge α. Els valors Q representen la possible recompensa rebuda en el següent pas de temps per prendre l'acció a a l'estat s, més la recompensa futura descomptada rebuda de la següent observació de l'acció de l'estat.

El Q-learning de Watkin actualitza una estimació de la funció òptima de valor d'acció de l'estat basat en la màxima recompensa de les accions disponibles. Mentre que SARSA aprèn els valors Q associats amb l'adopció de la política que segueix, el Q-learning de Watkin aprèn els valors Q associats amb l'adopció de la política òptima mentre segueix una política d'exploració/explotació.

Algunes optimitzacions del Q-learning de Watkin es poden aplicar a SARSA.[4]

Referències

[modifica]
  1. Online Q-Learning using Connectionist Systems" by Rummery & Niranjan (1994)
  2. «State-Action-Reward-State-Action» (en anglès). [Consulta: 21 març 2024].
  3. Reinforcement Learning: An Introduction Richard S. Sutton and Andrew G. Barto (chapter 6.4)
  4. Wiering, Marco; Schmidhuber, Jürgen (en anglès) Machine Learning, 33, 1, 01-10-1998, pàg. 105–115. DOI: 10.1023/A:1007562800292. ISSN: 0885-6125 [Consulta: free].