AlphaZero
Tipus | programa informàtic i model d'intel·ligència artificial |
---|---|
Versió inicial | 2017 |
Equip | |
Desenvolupador(s) | Google DeepMind |
Més informació | |
Stack Exchange | Etiqueta |
| |
AlphaZero és un programa informàtic desenvolupat per DeepMind, que utilitza un enfocament generalitzat d'AlphaGo Zero. El 5 de desembre de 2017, l'equip de DeepMind va llançar una preimpressió presentant AlphaZero, que va aconseguir en 24 hores un nivell de joc sobrehumà en escacs, shogi i Go en derrotar els campions del món, Stockfish, Elmo i la versió de 3 dies d'AlphaGo Zero en cada cas. AlphaZero va dominar Stockfish després de només 4 hores d'autoaprenentatge, sense accés a llibres d'obertura o base de dades de taules de finals.[1][2][3]
Relació amb AlphaGo Zero
[modifica]AlphaZero (AZ) és una variant més generalitzada de l'algorisme AlphaGo Zero (AGZ), i és capaç de jugar shogi i escacs, així com Go. Les diferències entre AZ i AGZ inclouen:
- AZ té regles codificades per establir hiperparàmetres de cerca.
- Ara la xarxa neuronal s'actualitza contínuament.
- Go (a diferència dels escacs) és simètric sota certes reflexions i rotacions; AGZ va ser programat per aprofitar aquestes simetries. AZ no és.
- Els escacs (a diferència de Go) poden acabar empatats, per tant, AZ pot tenir en compte la possibilitat de les taules.
AlphaZero vs Stockfish i Elmo
[modifica]En comparar les cerques d'arbre de cerca Monte Carlo, AlphaZero busca només 80,000 posicions per segon en escacs i 40,000 en shogi,[4] en comparació amb 70 milions per Stockfish i 35 milions per Elmo. AlphaZero compensa el nombre més baix d'avaluacions mitjançant l'ús de la seva xarxa neuronal profunda per centrar-se molt més selectivament en la variació més prometedora.[1]
Resultats
[modifica]A les partides d'escacs d'AlphaZero contra Stockfish, a cada programa se li va donar un minut de temps de reflexió per jugada. AlphaZero va guanyar 25 partides amb les blanques, en va guanyar 3 amb les negres i va empatar les 72 restants.[1] El 2017, StockFish 8 era el campió vigent del campionat organitzat per chess.com d'escacs per ordinador, amb un Elo de 3400 punts.[5]
En cent partides de shogi contra Elmo, AlphaZero va guanyar noranta i en va perdre vuit.[1]
Després de 8 hores d'autoaprenentatge de Go tenint com a contrincant una versió prèvia d'AlphaZero, AlphaZero va guanyar seixanta partides i en va perdre quaranta.[1]
En una versió actualitzada d'AlphaZero aquest va vèncer a Stockfish 8 en un matx de 1000 partides, obtenint un resultat de +155 -6 = 839.[6] Calculant aquest resultat a Elo, AlphaZero seria superior a Stockfish 8 en 53 punts Elo. La diferència d'Elo és molt menor del que sembla i s'explica per la gran quantitat de taules al matx. (Alphazero va obtenir 57.45% dels punts vs 42.55% que va obtenir StockFish 8 [7]).
Referències
[modifica]- ↑ 1,0 1,1 1,2 1,3 1,4 ; Hubert, Thomas; Schrittwieser, Julian «Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm» (en anglès). , 05-12-2017, p. 4-5 [Consulta: 7 desembre 2017].
- ↑ «Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours» (en anglès). , 06-12-2017 [Consulta: 6 desembre 2017].
- ↑ «DeepMind’s AI became a superhuman chess player in a few hours, just for fun». , 06-12-2017 [Consulta: 6 desembre 2017].
- ↑ Alphazero, un avance muy significativo en la Inteligencia Artificial
- ↑ «Stockfish gana el Campeonato de módulos de ajedrez». chess.com, 18-11-2017. [Consulta: 7 desembre 2017].
- ↑ https://www.chess.com/es/news/view/alphazero-stockfish-ajedrez
- ↑ https://chess24.com/es/informate/noticias/la-impresionante-fuerza-de-alphazero