Vés al contingut

Aprenentatge per diferències temporals

De la Viquipèdia, l'enciclopèdia lliure

L'aprenentatge per diferències temporals (amb acrònim anglès TD) fa referència a una classe de mètodes d'aprenentatge de reforç sense models que aprenen arrancant a partir de l'estimació actual de la funció de valor. Aquests mètodes agafen mostres de l'entorn, com els mètodes de Monte Carlo, i realitzen actualitzacions basades en estimacions actuals, com els mètodes de programació dinàmica.[1]

Mentre que els mètodes de Monte Carlo només ajusten les seves estimacions un cop es coneix el resultat final, els mètodes TD ajusten les prediccions per fer coincidir les prediccions posteriors i més precises sobre el futur abans que es conegui el resultat final.[2] Aquesta és una forma d'arrencada, tal com s'il·lustra amb l'exemple següent:

Suposem que voleu predir el temps per dissabte i teniu algun model que prediu el temps del dissabte, tenint en compte el temps de cada dia de la setmana. En el cas estàndard, esperaries fins dissabte i després ajustaries tots els teus models. Tanmateix, quan sigui, per exemple, divendres, hauríeu de tenir una bona idea del temps que farà dissabte i així poder canviar, per exemple, el model del dissabte abans que arribi el dissabte.[3]

Els mètodes de diferència temporal estan relacionats amb el model de diferència temporal de l'aprenentatge animal.[4][5][6][7][8]

Formulació matemàtica

[modifica]

El mètode tabular TD(0) és un dels mètodes TD més senzills. És un cas especial de mètodes d'aproximació estocàstica més generals. Estima la funció de valor d'estat d'un procés de decisió de Markov d'estat finit (MDP) sota una política . Deixar denoteu la funció de valor d'estat del MDP amb estats , recompenses i taxa de descompte[9] sota la política :

Eliminarem l'acció de la notació per comoditat. satisfà l'equació de Hamilton-Jacobi-Bellman:

tan és una estimació imparcial de . Aquesta observació motiva el següent algorisme per estimar .

L'algorisme comença inicialitzant una taula arbitràriament, amb un valor per a cada estat del MDP. Una taxa d'aprenentatge positiva és escollit.

Aleshores avaluem repetidament la política , obteniu una recompensa i actualitzeu la funció de valor per a l'estat antic utilitzant la regla:[10]

on i són els estats antic i nou, respectivament. El valor es coneix com l'objectiu TD.

Referències

[modifica]
  1. Richard Sutton. Reinforcement Learning (en anglès). MIT Press, 1998. ISBN 978-0-585-02445-5. 
  2. Richard Sutton Machine Learning, 3, 1, 1988, pàg. 9–44. DOI: 10.1007/BF00115009 [Consulta: free]. (A revised version is available on Richard Sutton's publication page Arxivat 2017-03-30 a Wayback Machine.)
  3. Richard Sutton Machine Learning, 3, 1, 1988, pàg. 9–44. DOI: 10.1007/BF00115009 [Consulta: free]. (A revised version is available on Richard Sutton's publication page Arxivat 2017-03-30 a Wayback Machine.)
  4. Schultz, W, Dayan, P & Montague, PR. Science, 275, 5306, 1997, pàg. 1593–1599. DOI: 10.1126/science.275.5306.1593. PMID: 9054347.
  5. Montague, P. R.; Dayan, P.; Sejnowski, T. J. The Journal of Neuroscience, 16, 5, 01-03-1996, pàg. 1936–1947. DOI: 10.1523/JNEUROSCI.16-05-01936.1996. ISSN: 0270-6474. PMC: 6578666. PMID: 8774460.
  6. Montague, P.R.; Dayan, P.; Nowlan, S.J.; Pouget, A.; Sejnowski, T.J. Advances in Neural Information Processing Systems, 5, 1993, pàg. 969–976.
  7. Montague, P. R.; Sejnowski, T. J. Learning & Memory, 1, 1, 1994, pàg. 1–33. DOI: 10.1101/lm.1.1.1. ISSN: 1072-0502. PMID: 10467583 [Consulta: free].
  8. Sejnowski, T.J.; Dayan, P.; Montague, P.R. Proceedings of Eighth ACM Conference on Computational Learning Theory, 1995, pàg. 15–18. DOI: 10.1145/225298.225300 [Consulta: free].
  9. Discount rate parameter allows for a time preference toward more immediate rewards, and away from distant future rewards
  10. Reinforcement learning: An introduction (en anglès), p. 130.  Arxivat 2017-07-12 a Wayback Machine.