Desambiguació lèxica
La desambiguació lèxica, anomenada en anglès part-of-speech tagging, consisteix a obtindre la categoria gramatical de cadascuna de les paraules que formen un text, eliminant l'ambigüitat que puguen tindre determinades paraules (al poder pertànyer a més d'una categoria gramatical). A l'hora d'assignar una categoria gramatical a una paraula podem fer-ho bansant-nos únicament en eixa paraula, o utilitzant informació del context (depenent del mètode, emprarem la informació de les paraules veïnes o de tota la frase, paràgraf o text).
Introducció
[modifica]En diverses tasques del processament del llenguatge natural, com per exemple la traducció automàtica, aquesta desambiguació és necessària perquè moltes paraules poden estar, a priori, en diverses categories gramaticals. Com a exemple, casa pot ser un substantiu (habitatge) o també la primera o tercera persona del singular del present d'indicatiu del verb casar. Per tant, substantiu o verb.
És per això que no és suficient amb tindre una correspondència entre les paraules i la seva categoria gramatical, ja que per resoldre les ambigüitats lèxiques categorials que es presenten en un text es necessita l'estudi del context d'eixes paraules.
Mètodes de desambiguació lèxica
[modifica]Com en la majoria d'ocasions en el PLN, existeixen dues aproximacions per resoldre el problema de l'ambigüitat categorial lèxica: una basada en regles i una altra basada en corpus (anotats o no), que utilitzen sistemes d'aprenentatge automàtic.
Basats en corpus
[modifica]Aquest tipus de mètodes necessiten dades per aprendre i generar així un model. S'utilitzen diversos algorismes per aconseguir-ho, però el més utilitzat és el Model ocult de Markov (MOM, o HMM per les seves sigles en anglès - Hidden Markov Model).
Models ocults de Markov
[modifica]Per entrenar el model, es necessiten corpus marcats amb les categories de cadascuna de les paraules.
Aquesta tècnica ens permet obtenir la seqüència d'etiquetats lèxics més probables a partir d'una frase d'entrada. Els HMM tenen la propietat de què la transició a partir d'un estat només depèn d'eixe estat: el passat o la història no intervé per a res. Tot i això, existeixen modificacions a l'algorisme que permeten tindre en compte una determinada longitud de la història (dos, tres o fins i tot més paraules).
Model de finestra lliscant
[modifica]Existeixen altres aproximacions, que no necessiten corpus anotat prèviament, com el model de finestra lliscant.[1]
Referències
[modifica]- ↑ Sanchez-Villamil, Enrique; Forcada, Mikel L.; C. Carrasco, Rafael «Unsupervised Training of a Finite-State Sliding-Window Part-of-Speech Tagger». Lecture Notes in Computer Science, 3230, 2004, pàg. 454-463. DOI: 10.1007/978-3-540-30228-5_40.