Vés al contingut

Morfologia computacional

De la Viquipèdia, l'enciclopèdia lliure

La morfologia computacional és una àrea d'estudi de la lingüística computacional que tracta del processament automàtic de les formes de les paraules, bàsicament en la seva representació grafèmica, és a dir, en la seva forma escrita. La finalitat d'aquesta disciplina científica és incorporar als ordinadors l'habilitat de tractar el llenguatge natural humà i facilitar el tractament informàtic de les llengües i el seu estudi. Actualment, la lingüística computacional -que rep altres denominacions com llenguatge natural, tecnologies de la llengua o enginyeria lingüística- compta amb tres línies d'investigació que tenen en comú l'aplicació de la informàtica a la investigació lingüística:

  1. la lingüística computacional teòrica
  2. la lingüística computacional aplicada
  3. la informàtica aplicada a la lingüística

La lingüística computacional, d'altra banda, és considerada una subdisciplina de la intel·ligència artificial, una branca de la informàtica encarregada de la comprensió de la intel·ligència i del disseny de màquines i programes amb característiques associades a la intel·ligència humana.

Objectius de la morfologia computacional

[modifica]

Una tasca fonamental en morfologia computacional consisteix en la segmentació del text en unitats discretes i en l'assignació d'informació morfològica a cada una de les unitats identificades. Per a descriure els diferents fenòmens morfològics s'han desenvolupat diversos formalismes. Segons Karlsson i Kartunen[1] la recerca en mètodes eficients per a l'anàlisi i generació de formes ja no és una àrea de recerca activa. Actualment la recerca en morfologia computacional està més centrada en l'aprenentatge automàtic de la morfologia, i també en l'adquisició automàtica d'informació lèxica i morfosintàctica.

Conceptes

[modifica]
  • Morfema: unitat bàsica del procés morfològic. Entenem per morfema la unitat mínima recurrent amb significat, no descomponible en elements menors portadors de significat lèxic o gramatical. Els morfemes estan formats per fonemes, elements mínims del sistema sonor de les llengües, desproveïts de significat, però són capaços de contrastar i distingir significats.

Els morfemes es poden dividir en:

  • Morfemes lliures; morfemes que poden construir paraules, per exemple el morfema casa en català o cat en anglès
  • Morfemes travats o lligats; aquestos només succeeixen en combinació amb altres morfemes. Tots els afixos són morfemes travats. Per exemple la paraula cases consta del morfema lliure casa i del morfema travat s.

Per altra banda els morfemes també es poden dividir en:

  • Morfemes lèxics; les arrels dels mots, on hi ha tota la informació lèxica.
  • Morfemes gramaticals; on hi ha els morfemes flexius i els derivatius.
  • Base: és el mot simple o morfema lèxic al qual afegim afixos per a obtenir un paradigma flexiu o per a formar nous mots.
  • Arrel: morfema lèxic comú a tot un paradigma flexiu o derivatiu un cop eliminats tots els afixos. L'arrel coincideix amb la base si aquesta està formada per un únic morfema.
  • Afix: altres elements que acompanyen a l'arrel i que acostuma a aportar significats addicionals.

Trobem diversos casos d'afixos:

  • Prefix; un afix que es posa davant de la base.
  • Sufix; un afix que es posa després de la base.
  • Circumfix; combinació d'afix i sufix que junts expressen alguna característica.
  • Infix; és un afix on la seva ubicació es determina segons una o més condicions fonològiques, i fins i tot pot aparèixer dins l'arrel a la qual s'afixa.
  • Reduplicació; cas extrem d'afixació. La forma de l'afix depèn de la base a la qual s'afixa (en copia una part d'aquesta) i pot ser completa o parcial.

Tècniques i formalismes

[modifica]
  • Descomposició morfològica. Es basa a tenir:
  1. diccionari: amb la informació morfosintàctica sobre la base o paraula que es considera forma de referència (Ex: "cantar:V1").
  2. regles: amb la informació sobre la morfologia de la llengua (Ex: "o:ar:VMIP1S:V1,es:ar:VMIP2S:V1,a:ar:VMIP3S:V1,em:ar:VMIP1P:V1,eu:ar:VMIP2P:V1,en:ar:VMIP3P:V1").

(Nota: Les etiquetes utilitzades en aquest exemple són les PAROLE (Eagles) que es poden trobar a http://garraf.epsevg.upc.es/freeling/doc/userman/parole-ca.html Arxivat 2008-09-30 a Wayback Machine.)

  • Sistema de dos nivells o morfologia de dos nivells. Aquesta estratègia fou proposada per K. Koskenniemi al principi dels anys vuitanta (Koskenniemi, 1983) per a l'idioma finès. S'inspira en la fonologia generativa (Chomsky i Halle, 1968), en la qual mitjançant regles de reescriptura que operen seqüencialment les representacions fonològiques abstractes (nivell lèxico) es converteixen en formes superficials (nivell superficial) passant per una sèrie de representacions o nivells intermijos.

Programari relacionat

[modifica]
  • FreeLing. Un paquet de programes en codi obert, dissenyat per a ser utilitzat com a biblioteca externa amb diversos serveis d'anàlisi del llenguatge; inclou una interfície de línia d'instruccions que permet analitzar fitxers de text.
  • PC-KIMMO. Processador morfològic capaç de generar i analitzar paraules segons el formalisme dels dos nivells.
  • Linguistica Arxivat 2010-04-28 a Wayback Machine.. Programa de John Goldsmith per a explorar l'adquisició no supervisada de l'estructura morfològica d'una llengua.

Referències

[modifica]
  1. Karlsson i Kartunen (1997). Subsentencial Processing A Survey of the State of the Art in Human Language Technology (ed.) Cole, R. Giardini Editori e Stampatori