Cerca de respostes

La cerca de respostes, en anglès Question-Answering (QA) és un tipus de recuperació de la informació. Donada una certa quantitat de documents (tals com World Wide Web), el sistema hauria de ser capaç de recuperar respostes a preguntes plantejades en llengua natural. QA és observat com un mètode que requereix una tecnologia de Processament de llenguatge natural més complexa que altres tipus de sistemes per a la Recuperació dentos, i, en alguns casos, se li observa com un pas per davant de la tecnologia del cercador.

Un sistema de question answering és un dels sistemes més complexos entorn de la recuperació d'informació. Devem tenir en compte que un sistema basat en el question-answering és molt més difícil que un sistema normal que s'encarrega de buscar una informació en una quantitat més o menys gran de documents, ja que aquests ha d'extreure d'aquests documents un fragment de text (mínim) que respongui a una pregunta donada en llenguatge natural. Aquests sistemes estan molt lligats als cercadors web.

Un sistema de question-answering intenta reconèixer un ampli rang de tipus de qüestions, incloent fets, llestes, definicions, com, quan, on, per què, etc. Aquestes cerques poden variar des de petites col·leccions de documents locals, organitzacions internes de documents, fins a la web sencera (o una part d'ella).

Arquitectura

Els primers sistemes de question-answering es van desenvolupar entorn de 1960 i bàsicament eren interfícies de llenguatge natural per a sistemes experts @centrar dominis específics. En contrast, els sistemes de question-answering actuals utilitzen documents de text com a base de coneixement i combinen diverses tècniques de processament del llenguatge natural.

Els sistemes actuals solen incloure un modulo de classificació de preguntes (question classifier moduli) que s'encarrega de determinar el tipus de pregunta i resposta. Després d'analitzar la pregunta, el sistema utilitza diversos mòduls que apliquen complexes tècniques de processament de llenguatge natural augmentant la complexitat entre cada mòdul. Després d'això, s'aplica un mòdul de recuperació de documents que utilitza motors de cerca per identificar documents i paràgraf en el document que puguin contenir la resposta a la pregunta.

Posteriorment, s'aplica un filtre que s'encarrega de seleccionar petits trossos de text que continguin cadenes del mateix tipus a l'esperat. Per exemple, si la pregunta és Qui és el rei de Bèlgica?, aquest filtre busqués textos que continguin noms. Per finalitzar, el modulo d'extracció de respostes és l'encarregat de buscar pistes en el text que determinin si una resposta candidata és correcta

Mètodes QA

Un sistema de question-answering és molt depenent d'un bon motor de cerca que s'encarregui de seleccionar documents que continguin la resposta. Sembla lògic que grans col·leccions de documents tendeix a produir millor rendiment, tret que el domini de la qüestió sigui ortogonal al de la col·lecció. La noció de redundància de dades en col·leccions massives, com la web, significa que és probable que part de la informació estigui en diversos llocs, contextos i documents diferents. Això té dos beneficis, es redueix la càrrega dels sistemes de processament de llenguatge natural, i que podem considerar les respostes correctes com aquelles que apareixen més vegades.

Podem fer una diferenciació entre dos mètodes diferents profunditat o amplària:

En profunditat s'utilitzen diversos mètodes per localitzar fragments de text de documents per després filtrar-los basant-se en la presència de la resposta desitjada. Finalment, aquestes respostes s'ordenen basant-se en diferents criteris.

No obstant això, en els casos en els quals la reformulació de la pregunta no és suficient, s'ha de realitzar una anàlisi semàntica i contextual. Aquests sistemes solen incloure sistema de gestió del coneixement representats en ontologies, com WordNet o SUMME.

Història

Alguns dels primers sistemes d'intel·ligència artificial eren sistemes de question-answering. Dos dels sistemes de question-answering més famosos per aquells temps eren BASEBALL i PIGA que es van desenvolupar als anys 1960. El primer, BASEBALL responia preguntes sobre els jugadors de beisbol dels Estats Units en el període d'un any. El segon, PIGA, s'encarregava de respondre preguntes sobre anàlisi geològica de les roques que va portar el Apollo en el seu viatge a la Lluna. Tots dos sistemes eren bastant efectius, de fet LUNAR era capaç de respondre al 90 % de les preguntes correctament. Diversos sistemes de question-answering de domini tancat es van construir en els anys posteriors, la funcionalitat comuna dels quals era que tenien nucli basat en les bases de dades de coneixement escrites per experts.

Alguns d'aquests sistemes d'intel·ligència artificial incloïen habilitats de question-answering. Dos dels més importants i famosos sistemes van ser SHRDU i ELIZA. SHRDLU simulava l'operació d'un robot en un món virtual (món dels blockes), i oferia la possibilitat de preguntar al robot sobre l'estat el món virtual. La potència d'aquest sistema va ser l'elecció d'un domini molt específic i un món simple amb regles físiques que eren molt fàcil de codificar. D'altra banda, ELIZA, simulava una conversa amb un psicòleg. ELIZA era capaç de conversar de qualsevol tema mitjançant l'ús de regles molt simples que detectaven paraules importants en l'entrada. Era un sistema molt rudimentari per respondre preguntes, però va generar una sèrie de charrterbots que van participar l'en premi anual Loebner prize.

En les dècades dels 70 i 80 es va apreciar el desenvolupament de les teories de comprensió en lingüística computacional, la qual cosa va permetre el desenvolupament de projectes de comprensió de text i question-answering. Un exemple d'aquests sistemes és l'Unix Consultant (UC), que responia preguntes referents a sistema operatiu Unix. Aquest sistema tenia una base de dades de coneixement comprensible del domini. Un altre projecte va ser LILOG, que va ser un sistema de reconeixedoment text que operava en el domini del turisme en una ciutat alemanya.

A la fi dels 90 la conferència anual Text Retrieval Conference (TREC) incloïa un sistema de question-answering que segueix executant avui dia. Els sistemes que participen en aquesta competició deuen respondre qüestions sobre un tema buscant un tros de text que varia d'un any per a un altre. Aquesta competició va encaminar la cerca i desenvolupament del question-answering en domini obert. Els millors sistemes de l'any 2004 van aconseguir un 77% de les preguntes correctes. Un creixent nombre de sistemes inclouen la web com un dels cossos de text. Actualment hi ha un gran creixement en l'interès de la integració de sistemes de questión answering a la Web. Ask.com és un exemple recent, i Google i Microsoft han començat a integrar les facilitats del question-answering en els seus cercadors Web.

Aspectes

El 2002 un grup d'investigadors una guia sobre question-answering. En ella s'identifiquen els següents aspectes.

Tipus de qüestions: diferents tipus de preguntes requereixen l'ús de diferents estratègies per trobar la resposta. Els tipus de qüestions s'organitzen jeràrquicament en taxonomies.
Processament de qüestions: la mateixa pregunta pot ser expressada de diverses formes (interrogativa o assertivament). Un model semàntic que entengui aquests tipus de preguntes és necessari per reconèixer qüestions equivalents. Aquest model permet la transició d'un qüestió complexa a diverses qüestions simples.
Context del question-answering: les preguntes són usualment preguntades amb un context i respostes amb aquest mateix context. El context es pot usar per aclarir una qüestió, resoldre ambigüitats.
Recursos de dades: abans que una pregunta pugui ser contestada, s'ha de saber que recursos de saviesa estan disponibles. Si la resposta a una pregunta no està en aquests recursos, no importa el formulament de la pregunta, no obtindrem una resposta correcta.
Extracció de la resposta: l'extracció de la resposta depèn de la complexitat de la pregunta, en el tipus de resposta que seleccionada en el processament de qüestions, en les dades que disposem i en el mètode de cerca.
Formulació de la resposta: en resultat del sistema de question-answering ha de ser presentat en un llenguatge tan natural com sigui possible. En alguns casos, l'extracció simple és insuficient. Per exemple, quant la classificació d'una qüestió indica que la pregunta és el tipus nomeni, una quantitat, o una data, l'extracció de la dada és suficient. Per a altres casos, la presentació de la resposta vaig poder requerir l'ús de altres tipus de tècniques.
Question-answering en temps real: la resposta en temps real és molt necessària. Aquests sistemes han de ser capaços de processar grans quantitats de dades en un temps reduït.

Vegeu també

Bibliografia

González, José; Beviá, Rubén; Llopis, Fernando; Muñoz, Rafael «Question Answering in Spanish». Lecture Notes in Computer Science, 3237, 2003, pàg. 541-548. DOI: 10.1007/978-3-540-30222-3_52.
Casimiro Pio Carrino, Marta R. Costa-jussà, José A. R. Fonollosa «Automatic Spanish Translation of the SQuAD Dataset for Multilingual Question Answering». Computation and Language, 2019. arXiv: 1912.05200.

Enllaços externs

«Sistemas Question-Answering - Recuperación y Acceso de la Información» (en castellà). [Consulta: 26 maig 2021].
«Sistemas de Question-Answering» (en castellà). [Consulta: 26 maig 2021].