Prova d'esquemes de Winograd
La prova d'esquemes de Winograd (en anglès: Winograd Schema Test; abreujat com WSC), també Test d'esquemes de Winograd, és una prova d'intel·ligència artificial proposada per Hector Levesque, científic computacional de la Universitat de Toronto l'any 2014. Aquesta prova va ser dissenyada com una millora al Test de Turing i consisteix en un qüestionari de preguntes amb múltiples respostes provinents dels esquemes ideats per Terry Winograd, també científic computacional, de la Universitat Stanford.[1]
A primera vista, les preguntes dels esquemes de Winograd semblen requerir, simplement, de la resolució d'anàfores; d'aquesta manera, la màquina ha d'identificar l'antecedent d'un pronom ambigu en una declaració. Això ho fa una tasca de processament de llenguatge natural, però Levesque assegura que per resoldre els esquemes de Winograd cal, també, emplear coneixement i sentit comú.[2]
L'any 2016, l'empresa desenvolupadora de programari, Nuance Communications, va anunciar que patrocinaria una competència anual amb un premi de 25 mil dòlars per al sistema que més s'acostés a l'acompliment humà en un repte d'esquemes de Winograd.[3] No obstant això, el premi no ha estat ofert novament.
Història
[modifica]La prova d'esquemes de Winograd va ser proposada amb el mateix esperit que el Test de Turing, proposat per Alan Turing en 1950, el qual, posseeix un important rol en la filosofia de la intel·ligència artificial. Turing va proposar que en comptes de debatre sobre una definició d'intel·ligència, la ciència computacional hauria de preocupar-se per demostrar la existència de comportament intel·ligent a través de proves. No obstant això, des de llavors, el Test de Turing ha estat sotmès a grans crítiques, especialment, des que l'any 2014, es va al·legar que el robot Eugene havia passat la prova.[4]
La prova d'esquemes de Winograd va ser proposada en part per millorar els problemes del Test de Turing.[5]
La proposta original de Turing era el que ell anomenava el joc d'imitació, que implica converses lliures i sense restriccions en anglès entre jutges humans i programes d'ordinador per un canal només de text (com ara el teletip). En general, la màquina aprova el test si els interrogadors no són capaços de trobar la diferència entre aquesta i un humà en una conversa de cinc minuts.[4]
Eugene Goostman
[modifica]El 7 de juny de 2014, un programa de computadora anomenat Eugene Goostman va ser declarat com la primera Intel·ligència Artificial en passar el Test de Turing en una competició portada per la Universitat de Reading a Anglaterra. Eugene va ser capaç de convèncer a 33% dels jutges que parlaven amb un nen ucraïnès de 13 anys. Aquesta suposada victòria va despertar controvèrsies sobre el Test de Turing. Els crítics van reclamar que Eugene va passar la prova senzillament per que va enganyar als jutges i per que es va aprofitar de la seva suposada identitat. Per exemple, es va saltar preguntes importants mitjançant acudits i canviant de tema. Així i tot, el jurat perdonava les seves equivocacions perquè Eugene es va identificar com un adolescent l'idioma nadiu del qual no era l'anglès.[6][7]
Febleses del Test de Turing
[modifica]Levesque identifica diversos problemes del Test de Turing:[2][8]
- Engany: La màquina és forçada a construir una identitat falsa o a evadir les preguntes, la qual cosa no forma part de la intel·ligència.
- Conversa: Molta interacció pot ser considerada com a conversa legítima —jocs de paraules, acudits, desviaments— sense que això requereixi raonament intel·ligent.
- Avaluació: Els éssers humans que jutgen a la màquina comenten equivocacions i en ocasions difereixen sobre els resultats.
Esquemes de Winograd
[modifica]El factor clau a la prova d'esquemes de Winograd és el format especial de les preguntes, que deriven dels esquemes de Winograd. Les preguntes d'aquest formulari es poden adaptar per requerir coneixements i raonament de sentit comú en diversos àmbits. També s'han d'escriure amb cura per no trair les seves respostes per restriccions de selecció o informació estadística sobre les paraules de l'oració.
Origen
[modifica]El primer exemple citat d'un esquema de Winograd es deu a Terry Winograd:[9]
The town councillors refused to give the angry demonstrators a permit because they [feared/advocated] violence. Els regidors de la ciutat van negar als manifestants l'autorització perquè ells [temien/defensaven] la violència.
El tema central és si el pronom "they/ells" es refereix als regidors o als manifestants, i triar entre les dues instàncies de l'esquema canvia la resposta. La resposta és immediata per a un lector humà, però és difícil d'emular en màquines. Hector Levesque sosté, seguint les conclusions de Winograd, que el coneixement juga una funció central en aquests problemes: la resposta a aquest esquema està relacionat amb el nostre enteniment de les relacions típiques de comportament de regidors i manifestants.[2]
Des de la data en què es va proposar el Test d'esquemes de Winograd, Ernest Davis, professor de la Universitat de Nova York, ha compilat una llista d'uns 140 esquemes de Winograd, provinents de diverses fonts, com a exemples del tipus de preguntes que poden aparèixer en un Test d'esquemes de Winograd.[4]
Descripció formal
[modifica]Una pregunta per a la prova d'esquemes de Winograd consta de tres parts:
- Una oració o frase breu que conté el següent:
- Dues frases nominals (substantius) de la mateixa classe semàntica (masculí, femení, neutre, o un grup de persones o objectes).
- Un pronom ambigu que permeti referir a qualsevol dels substantius anteriors.
- Una paraula especial i una altra alternativa, de tal naturalesa que si si la paraula especial és reemplaçada amb l'alternativa, el sentit natural del pronom canvia.
- Una pregunta sobre la identitat del pronom ambigu.
- Dues opcions de resposta que corresponguin als substantius en qüestió.
Els esquemes seran donats a la màquina d'una manera estandarditzada incloent les opcions de resposta. D'aquesta manera es genera un problema de decisió binària.
Avantatges
[modifica]La prova d'esquemes de Winograd té el següents avantatges:
- És necessari posseir coneixement i sentit comú per solucionar les preguntes.
- Poden dissenyar-se esquemes de dificultat variable que vagin des de relacions senzilles de causa i efecte a narratives complexes d'esdeveniments.
- Poden ser construïts per provar el raonament en àmbits concrets (per exemple: raonament psicològic, social o espacial).
- No requereixen obligatòriamen de jutges humans.[10]
Inconvenients
[modifica]El principal inconvenient de la prova d'esquemes de Winograd és el desenvolupament de les preguntes. Aquestes necessiten ser creades acuradament per assegurar-se que requereixen de sentit comú per ser respostes.
Això comporta dues possibilitats: o les respostes són "massa òbvies" o "no són suficientment òbvies".[4]
En el primer cas ens trobem amb respostes que poden ser determinades pel que en lingüística es coneix com a "restriccions seleccionales", on els predicats dedueixen i limiten el contingut semàntic del seu argument. Un exemple d'això, usat pel mateix Lavesque, seria el següent:[4]
El cotxe de competició va passar brunzint el camió escolar perquè anava molt [ràpid/lent]. Qui anava [ràpid/lent]?
A causa de la forta relació entre velocitat-cotxes de competició, el predicat ofereix una pista del subjecte del que es parla sense necessitat de fer una valoració semàntica de l'esquema íntegrament. En el segon cas, això és, en esquemes no tan obvis que la resposta pugui fàcilment atribuir-se a un o un altre subjecte:[4]
En Frank es va sentir [alegre/enfadat] quan Bill li va explicar que havia guanyat la competició. Qui va guanyar la competició?
Esdeveniments
[modifica]L'any 2016, l'empresa Nuance Communications va patrocinar una competència anual, oferint un premi de 25 mil dòlars a la intel·ligència artificial que pogués passar una prova d'esquemes de Winograd en almenys un round de 60 preguntes. El premi mai va ser atorgat i l'any 2018 Nuance va retirar el patrocini del repte.[11]
Del 23 al 25 de març de 2015, es va dur a terme el Dotzè Simposi Internacional sobre les formalitzacions lògiques del raonament en sentit comú a la Universitat Stanford, amb un enfocament especial a la prova d'esquemes de Winograd. El comitè organitzador incloïa Leora Morgenstern (Leidos), Theodore Patkos (The Foundation for Research & Technology Hellas) i Robert Sloan (Universitat d'Illinois a Chicago).[12]
El repte de l'esquema de Winograd de 2016 es va dur a terme l'11 de juliol, durant la International Joint Conference on Artificial Intelligence d'aquell any. Va haver 4 contendents. La millor puntuació obtinguda va ser de 58% de respostes correctes, per l'equip de Quan Liu, de la Universitat de Ciència i Tecnologia de la Xina.[13] No obstant això, les regles del repte establien que havia d'obtenir-se un percentatge d'encerts de 90%, per la qual cosa el premi no va ser concedit. El comitè organitzador d'aquell any va ser Leora Morgenstern, Ernest Davis, and Charles Ortiz.
El 2017, un model d'associació neuronal dissenyat per a l'adquisició de coneixement de sentit comú va aconseguir un 70% de precisió en 70 problemes seleccionats manualment del conjunt de dades de les 273 proves d'esquemes de Winograd originals.[14] El juny de 2018, un resultat del 63.7% de precisió va ser aconseguit sobre el conjunt de dades complet mitjançant un conjunt de models de llenguatge de xarxes neuronals recurrents,[15] marcant el primer ús de xarxes neuronals profundes que aprenen de corpus independents per adquirir coneixements de sentit comú. L'any 2019, un resultat del 90.1% va ser aconseguit al conjunt de dades de l'esquema Winograd original ajustant el model de llenguatge BERT amb dades d'entrenament adequades semblants a WSC per evitar haver d'aprendre raonaments de sentit comú.[16] El model d'idioma general GPT-3 va aconseguir una puntuació del 88,3% sense un ajustament específic el 2020.[17]
L'any 2019 es va dissenyar un conjunt de dades "Winogrande" més desafiant i adversari amb 44.000 problemes.[16]
Una versió del Test d'esquemes de Winograd forma part de la col·lecció de preguntes de referències de l'estàndard d'avaluació de llenguatge GLUE (General Language Understanding Evaluation) pel que fa a comprensió de llenguatge natural.[18]
Referències
[modifica]- ↑ «Can Winograd Schemas Replace Turing Test for Defining Human-Level AI?» (en anglès). [Consulta: 19 novembre 2021].
- ↑ 2,0 2,1 2,2 Levesque, Hector «On our best behaviour». ScienceDirect, 7-2014.
- ↑ «Nuance Announces the Winograd Schema Challenge to Advance Artificial Intelligence Innovation» (en anglès). [Consulta: 19 novembre 2021].
- ↑ 4,0 4,1 4,2 4,3 4,4 4,5 «The Winograd Schema Challenge». [Consulta: 19 novembre 2021].
- ↑ Morgenstern, Leora; Davis, Ernest; Ortiz, Charles L. «Planning, Executing, and Evaluating the Winograd Schema Challenge». AI Magazine, 37, 1, 13-04-2016, pàg. 50–54. DOI: 10.1609/aimag.v37i1.2639. ISSN: 2371-9621.
- ↑ «Brainy Machines Need An Updated IQ Test, Experts Say» (en anglès). [Consulta: 19 novembre 2021].
- ↑ «Interview with Eugene Goostman, the Fake Kid Who Passed the Turing Test» (en anglès). [Consulta: 19 novembre 2021].
- ↑ Michael, Julian. The Theory of Correlation Formulas and Their Application to Discourse Coherence. UT Digital Repository, 18 maig 2015, p. 6.
- ↑ Winograd, Terry «Understanding natural language». ScienceDirect, 1-1972.
- ↑ "".
- ↑ «Commonsense Reasoning ~ Winograd Schema Challenge» (en anglès). [Consulta: 19 novembre 2021].
- ↑ «AAAI 2015 Spring Symposia Registration». [Consulta: 22 novembre 2021].
- ↑ Liu, Quan; Jiang, Hui; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si «Commonsense Knowledge Enhanced Embeddings for Solving Pronoun Disambiguation Problems in Winograd Schema Challenge». Cornell University.
- ↑ Liu, Quan; Jiang, Hui; Evdokimov, Andrew; Ling, Zhen-Hua «Cause-Effect Knowledge Acquisition and Neural Association Model for Solving A Set of Winograd Schema Problems». , 2017, p. 2344–2350.
- ↑ Trinh, Trieu H.; Le, Quoc V. «A Simple Method for Commonsense Reasoning». arXiv:1806.02847 [cs], 26-09-2019.
- ↑ 16,0 16,1 Sakaguchi, Keisuke; Bras, Ronan Le; Bhagavatula, Chandra; Choi, Yejin «WinoGrande: An Adversarial Winograd Schema Challenge at Scale». arXiv:1907.10641 [cs], 21-11-2019.
- ↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared «Language Models are Few-Shot Learners». arXiv:2005.14165 [cs], 22-07-2020.
- ↑ «GLUE Benchmark» (en anglès). [Consulta: 19 novembre 2021].