Vés al contingut

Aprenentatge amb zero intents

De la Viquipèdia, l'enciclopèdia lliure

L'aprenentatge amb zero intents (amb acrònim anglès ZSL) és un problema de configuració de l'aprenentatge automàtic on, en el moment de la prova, un aprenent observa mostres de classes que no s'han observat durant l'entrenament i ha de predir la classe a la qual pertany. Els mètodes zero-shot funcionen generalment associant classes observades i no observades mitjançant algun tipus d'informació auxiliar, que codifica propietats diferencials observables dels objectes.[1] Per exemple, donat un conjunt d'imatges d'animals a classificar, juntament amb descripcions textuals auxiliars de com són els animals, un model d'intel·ligència artificial que s'ha entrenat per reconèixer cavalls, però que mai no ha rebut una zebra, encara pot reconèixer una zebra. quan també sap que les zebres semblen cavalls ratllats. Aquest problema s'estudia àmpliament en visió per ordinador, processament del llenguatge natural i percepció de màquines.[2]

El primer article sobre l'aprenentatge zero en el processament del llenguatge natural va aparèixer l'any 2008 a l'AAAI'08, però el nom que es va donar al paradigma d'aprenentatge allà era la classificació sense dades.[3] El primer article sobre l'aprenentatge zero-shot en visió per computador va aparèixer a la mateixa conferència, sota el nom d'aprenentatge de dades zero.[4] El terme aprenentatge zero va aparèixer per primera vegada a la literatura en un article de 2009 de Palatucci, Hinton, Pomerleau i Mitchell a NIPS'09.[5] Aquesta direcció es va popularitzar més tard en un altre document de visió per ordinador [6] i el terme aprenentatge zero-shot es va posar al dia, com un enlairament de l'aprenentatge d'un sol cop que es va introduir a la visió per ordinador anys abans.[7]

En visió per computador, els models d'aprenentatge zero-shot van aprendre paràmetres per a classes vistes juntament amb les seves representacions de classe i es basen en la similitud de representació entre les etiquetes de classe perquè, durant la inferència, les instàncies es puguin classificar en classes noves.

En el processament del llenguatge natural, la direcció tècnica clau desenvolupada es basa en la capacitat de "entendre les etiquetes": representar les etiquetes en el mateix espai semàntic que el dels documents a classificar. Això admet la classificació d'un sol exemple sense observar cap dada anotada, la forma més pura de classificació zero-shot. L'article original [8] feia ús de la representació de l'anàlisi semàntica explícita (ESA), però els articles posteriors feien ús d'altres representacions, incloses representacions denses. Aquest enfocament també es va estendre a dominis multilingües,[9][10] mecanografia fina d'entitats [11] i altres problemes. A més, més enllà de confiar únicament en representacions, l'enfocament computacional s'ha estès per dependre de la transferència d'altres tasques, com la implicació textual [12] i la resposta a preguntes.[13]

Referències

[modifica]
  1. . https://arxiv.org/abs/1707.00600
  2. Xian, Yongqin; Schiele, Bernt; Akata, Zeynep Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pàg. 4582–4591. arXiv: 1703.04394. Bibcode: 2017arXiv170304394X.
  3. Chang, M.W. AAAI, 2008.
  4. Larochelle, Hugo. «Zero-data Learning of New Tasks» (en anglès), 2008.
  5. Palatucci, Mark NIPS, 2009.
  6. Lampert, C.H. IEEE Conference on Computer Vision and Pattern Recognition, 2009, pàg. 951–958.
  7. Miller, E. G. CVPR, 2000.
  8. Chang, M.W. AAAI, 2008.
  9. Song, Yangqiu Artificial Intelligence, 274, 2019, pàg. 133–150. DOI: 10.1016/j.artint.2019.02.002 [Consulta: free].
  10. Song, Yangqiu IJCAI, 2016.
  11. Zhou, Ben EMNLP, 2018. arXiv: 1907.03228.
  12. Yin, Wenpeng EMNLP, 2019. arXiv: 1909.00161.
  13. Levy, Omer CoNLL, 2017. arXiv: 1706.04115.