Desambiguació lèxica

La desambiguació lèxica, anomenada en anglès part-of-speech tagging, consisteix a obtindre la categoria gramatical de cadascuna de les paraules que formen un text, eliminant l'ambigüitat que puguen tindre determinades paraules (al poder pertànyer a més d'una categoria gramatical). A l'hora d'assignar una categoria gramatical a una paraula podem fer-ho bansant-nos únicament en eixa paraula, o utilitzant informació del context (depenent del mètode, emprarem la informació de les paraules veïnes o de tota la frase, paràgraf o text).

Introducció

En diverses tasques del processament del llenguatge natural, com per exemple la traducció automàtica, aquesta desambiguació és necessària perquè moltes paraules poden estar, a priori, en diverses categories gramaticals. Com a exemple, casa pot ser un substantiu (habitatge) o també la primera o tercera persona del singular del present d'indicatiu del verb casar. Per tant, substantiu o verb.

És per això que no és suficient amb tindre una correspondència entre les paraules i la seva categoria gramatical, ja que per resoldre les ambigüitats lèxiques categorials que es presenten en un text es necessita l'estudi del context d'eixes paraules.

Mètodes de desambiguació lèxica

Com en la majoria d'ocasions en el PLN, existeixen dues aproximacions per resoldre el problema de l'ambigüitat categorial lèxica: una basada en regles i una altra basada en corpus (anotats o no), que utilitzen sistemes d'aprenentatge automàtic.

Basats en corpus

Aquest tipus de mètodes necessiten dades per aprendre i generar així un model. S'utilitzen diversos algorismes per aconseguir-ho, però el més utilitzat és el Model ocult de Markov (MOM, o HMM per les seves sigles en anglès - Hidden Markov Model).

Models ocults de Markov

Per entrenar el model, es necessiten corpus marcats amb les categories de cadascuna de les paraules.

Aquesta tècnica ens permet obtenir la seqüència d'etiquetats lèxics més probables a partir d'una frase d'entrada. Els HMM tenen la propietat de què la transició a partir d'un estat només depèn d'eixe estat: el passat o la història no intervé per a res. Tot i això, existeixen modificacions a l'algorisme que permeten tindre en compte una determinada longitud de la història (dos, tres o fins i tot més paraules).

Model de finestra lliscant

Existeixen altres aproximacions, que no necessiten corpus anotat prèviament, com el model de finestra lliscant.^[1]

Referències

↑ Sanchez-Villamil, Enrique; Forcada, Mikel L.; C. Carrasco, Rafael «Unsupervised Training of a Finite-State Sliding-Window Part-of-Speech Tagger». Lecture Notes in Computer Science, 3230, 2004, pàg. 454-463. DOI: 10.1007/978-3-540-30228-5_40.

Vegeu també

[1] Sanchez-Villamil, Enrique; Forcada, Mikel L.; C. Carrasco, Rafael «Unsupervised Training of a Finite-State Sliding-Window Part-of-Speech Tagger». Lecture Notes in Computer Science, 3230, 2004, pàg. 454-463. DOI: 10.1007/978-3-540-30228-5_40.

[1]