Vés al contingut

Usuari:Santhosh.thottingal/WordNet

De la Viquipèdia, l'enciclopèdia lliure

WordNet És una base de dades lèxica per la llengua anglesa.[1] Agrupa paraules angleses als conjunts de sinònims van cridar synsets, proporciona ús i definicions curtes exemples, i enregistra un número de relacions entre aquests conjunts de sinònim o els seus membres. WordNet Així pot ser vist com a combinació de diccionari i tesaurus. Mentre és accessible a usuaris humans via un navegador de web, el seu ús primari és en anàlisi de text automàtic i aplicacions d'intel·ligència artificial. La base de dades i eines de programari han estat alliberades sota una llicència d'estil del BSD i és lliurement disponible per descàrrega del WordNet pàgina web. Tots dos el lexicographic dada (arxius de lexicògraf) i el compilador (cridat moldre) per produir la base de dades distribuïda és disponible.

Història i membres d'equip

[modifica]

WordNet Va ser creat en el Laboratori de Ciència Cognitiu de Princeton Universitat sota la direcció de professor de psicologia George Armitage Miller que comença dins 1985 i ha estat dirigit en aquests darrers anys per Christiane Fellbaum. El projecte va rebre finançar d'agències de govern incloent-hi la Fundació de Ciència Nacional, DARPA, el Disruptive Oficina de Tecnologia (anteriorment la Recerca Avançada i Activitat de Desenvolupament), i REFLEX. George Miller i Christiane Fellbaum va ser atorgat el 2006 Antonio Zampolli Premi per la seva feina amb WordNet.

Continguts de base de dades

[modifica]
Hamburguesa d'entrada "de l'exemple" en WordNet

Tan de novembre 2012 WordNet més tardà En línia-la versió és 3.1.[2] La base de dades conté 155,287 paraules van organitzar dins 117,659 synsets per un total de 206,941 paraula-parells de sentit; forma comprimida dins, és aproximadament 12 megaoctets dins mida.[3]

WordNet Inclou els substantius de categories lèxics, verbs, adjectius i adverbis però ignora preposicions, determiners i altres paraules de funció.

Paraules de la mateixa categoria lèxica que és més o menys sinònim és agrupat a synsets. Synsets Inclou paraules de símplex així com collocations agrada "menja fora" i "piscina de cotxe." Els sentits diferents d'un polysemous forma de paraula és assignada a diferent synsets. El significat d'un synset és més enllà aclarit amb un curt definint glossa i un o més exemples d'ús. Un adjectiu d'exemple synset és:

Bo, dret, madur – (la majoria adequat o correcte per un propòsit particular; "un temps bo per plantar tomàquets"; "el temps correcte per actuar"; "el temps és madur per canvis sociològics grans")

Tot synsets és connectat a altre synsets mitjançant relacions semàntiques. Aquestes relacions, els quals no són tot compartit per totes les categories lèxiques, inclou:

  • Substantius
    • hypernyms: Y És un hypernym de X si cada X és un (classe de) Y (caní és un hypernym de gos)
    • Hipònims: Y és un hipònim de X si cada Y és un (classe de) X (el gos és un hipònim de caní)
    • Termes de coordenada: Y és un terme de coordenada de X si X i Y compartir un hypernym (el llop és un terme de coordenada de gos, i el gos és un terme de coordenada de llop)
    • meronym: Y És un meronym de X si Y és una part de X (la finestra és un meronym de construir)
    • holonym: Y És un holonym de X si X és una part de Y (l'edifici és un holonym de finestra)
  • Verbs
    • hypernym: El verb Y és un hypernym del verb X si l'activitat X és un (classe de) Y (per percebre és un hypernym de per escoltar)
    • troponym: El verb Y és un troponym del verb X si l'activitat Y està fent X dins alguna manera (a lisp és un troponym de per parlar)
    • entailment: El verb Y és entailed per X si per fer X has de ser fer Y (al son és entailed per a ronc)
    • Termes de coordenada: aquells verbs que comparteixen un comú hypernym (a lisp i a yell)

Aquests control de relacions semàntiques entre tots els membres de l'enllaçat synsets. Individual synset membres (paraules) també pot ser connectat amb relacions lèxiques. Per exemple, (un sentit de) el director "de substantiu" és enllaçat a (un sentit de) el verb "dirigeix" de quin és derivat via un "morphosemantic" enllaç.

Estructura de coneixement

[modifica]

Ambdós substantius i els verbs són organitzats a jerarquies, va definir per hypernym o ÉS Unes relacions. Per cas, un sentit del gos de paraula és trobat seguint hypernym jerarquia; les paraules a el mateix nivell representen synset membres. Cadascú posat dels sinònims té un índex únic.

Gos, gos domèstic, Canis familiaris
    => caní, canid
       => carnívor
         => placental, placental mamífer, eutherian, eutherian vertebrat
           => de mamífer
             => del mamífer, craniate
               => chordate
                 => animal, animate ser, bèstia, brute, criatura, fauna
                   => ...

Dalt de tot nivell, aquestes jerarquies són organitzades a 25 arbres "de principiant" per substantius i 15 per verbs (cridat lexicographic arxius a un nivell de manteniment). Tots són enllaçats a un principiant únic synset, "entitat." Jerarquies de substantiu són llunyanes més profund que jerarquies de verb

Els adjectius no són organitzats a arbres jeràrquics. En comptes d'això, dos "antònims" centrals com "forma" calenta "i" freda pols binaris, mentre atellite' sinònims com "steaming" i "chilly" connecta als seus pols respectius via unes "relacions" de semblança. Els adjectius poden ser visualitzats d'aquesta manera tan "dumbbells" més que tan "arbres."

Psycholinguistic Aspectes de WordNet

[modifica]

L'objectiu inicial del WordNet el projecte era per construir una base de dades lèxica que seria compatible amb teories de la memòria semàntica humana desenvolupada en el tardà 1960s. Els experiments psicològics van indicar que els parlants van organitzar el seu coneixement de conceptes en una moda econòmica, jeràrquica. Retrieval El temps requerit per accedir el coneixement conceptual semblat per ser directament relacionat al número de jerarquies el parlant necessitat a "travessada" per accedir el coneixement. Per això, els parlants podrien més de pressa verificar que canaries pot cantar perquè un canary és un songbird ("canta" és una propietat emmagatzemada en el mateix nivell com "canary"), però requerit lleugerament més temps per verificar que canaries pot volar (on van haver de l'ocell "de concepte" en el superordinate nivell) i encara més temps per verificar canaries tenir pell (requerint aspecte-amunt a través de nivells múltiples d'hiponímia, fins a "animal").[4] Mentre tals experiments i les teories subjacents han estat subjectes a crítica, alguns de WordNet l'organització és compatible amb evidència experimental. Per exemple, anomic afàsia, selectively afecta l'habilitat de produir dels parlants paraules d'una categoria semàntica específica, un WordNet jerarquia. Antonymous Adjectius (WordNet adjectius centrals en el dumbbell estructura) és trobat a co-ocórrer lluny més freqüentment que possibilitat, un fet que ha estat trobat per aguantar per moltes llengües.

WordNet Com a ontologia lèxica

[modifica]

WordNet És de vegades cridat una ontologia, un atribut persistent que els seus creadors no fan. El hypernym/relacions d'hipònim entre el substantiu synsets pot ser interpretat tan relacions d'especialització entre categories conceptuals. En altres paraules, WordNet pot ser interpretat i utilitzat com a ontologia lèxica en el sentit d'informàtica. Tanmateix, tal una ontologia normalment hauria de ser corregida abans de ser utilitzat de llavors ençà conté centenars de bàsic semàntic inconsistencies com (i) l'existència d'especialitzacions comunes per categories exclusives i (ii) redundàncies en la jerarquia d'especialització. A més, transformant WordNet a una ontologia lèxica utilitzable per representació de coneixement ha de normalment també implicar (i) distingint les relacions d'especialització a subtypeOf i instanceOf relacions, i (ii) associant identificadors únics intuïtius a cada categoria. Tot i que tals correccions i les transformacions han estat actuades i documentat tan part de la integració de WordNet 1.7 al cooperatively updatable base de coneixement de WebKB-2, (típicament, coneixement-informació orientada retrieval) senzillament re-utilitzar-lo directament.[5] WordNet També ha estat convertit a una especificació formal, mitjançant un híbrid inferior-cap amunt de superior-avall metodologia a automàticament relacions d'associació de l'extracte de WordNet, i interpretar aquestes associacions en termes d'un conjunt de relacions conceptuals, formalment definit en el DOLCE ontologia fundacional.[6]

Dins més feines que reclamen per tenir integrat WordNet a ontologies, el contingut de WordNet ha no senzillament estat corregit quan sembli necessari; en comptes d'això, WordNet ha estat fortament re-interpretat i actualitzat quan sigui que adequat. Això era el cas quan, per exemple, l'ontologia de nivell superior de WordNet era re-estructurat segons el OntoClean aproximació basada o quan WordNet va ser utilitzat com a font primària per construir les classes més baixes del SENSUS ontologia.[7]

Limitacions

[modifica]

WordNet No inclou informació sobre l'etimologia o la pronunciació de les paraules i ell conté informació limitada només aproximadament ús. WordNet Objectius per cobrir la majoria de diari anglès i no inclou molt àmbit-terminologia específica.

WordNet És el més generalment lèxic computacional utilitzat d'anglès per sentit de paraula disambiguation (WSD), una tasca apuntada a assignar el context-significats apropiats (i.e. synset membres) a paraules en un text.[8] Tanmateix, ha estat argumentat que WordNet codifica distincions de sentit que són massa bé-grained. Aquest assumpte impedeix sistemes de WSD d'aconseguir un nivell de l'actuació comparable a allò d'éssers humans, qui no sempre acorda quan afrontat amb la tasca de seleccionar un sentit d'un diccionari que aparella una paraula en un context. L'assumpte de granularitat ha estat emprès per proposar clustering mètodes que automàticament agrupen sentits similars junts de la mateixa paraula.[9][10][11]

Licensed vs. Obert WordNets

[modifica]

Algun wordnets era subsegüentment creat per altres llengües. Una 2012 enquesta llista el wordnets i la seva disponibilitat En un esforç per propagar l'ús de WordNets, el Global WordNet la comunitat hi havia estat a poc a poc re-licensing el seu WordNets a un àmbit obert on els investigadors i els desenvolupadors poden fàcilment accés i ús WordNets mentre recursos de llengua per proporcionar coneixement ontològic i lèxic en tasques de Processament de Llengua Naturals.[12]

L'Obert Multilingüe WordNet proporciona accés per obrir licensed wordnets en una varietat de llengües, tot enllaçat al Princeton Wordnet d'anglès (PWN).[13] L'objectiu és per fer-lo fàcil d'utilitzar wordnets en llengües múltiples.

Aplicacions

[modifica]

WordNet Ha estat utilitzat per un número de propòsits diferents dins sistemes d'informació, incloent sentit de paraula disambiguation, informació retrieval, classificació de text automàtic, text automàtic summarization, traducció automàtica i fins i tot automàtic crossword generació de trencaclosques.

Un ús comú de WordNet és per determinar la semblança entre paraules. Diversos algoritmes han estat proposats, i aquests inclouen mesurar la distància entre les paraules i synsets en WordNet estructura de graf, com per comptar el número de vores entre synsets. La intuïció és que el més proper dues paraules o synsets és, el més proper el seu significat. Un número de WordNet-algoritmes de semblança de paraula basats són implementats en un Perl el paquet va cridar WordNet::Semblança, i en un paquet de Pitó va cridar NLTK.[14] Altre més sofisticat WordNet-tècniques de semblança basada inclouen ADW, la implementació del qual és disponible en Java.[15] WordNet També pot soler inter-enllaçar altres vocabularis.[16]

Interfícies

[modifica]

Princeton Manté una llista de va relacionar projectes que inclou enllaços a alguns de l'aplicació àmpliament utilitzada interfícies de programació disponibles per accedir WordNet utilitzant diversos llenguatges de programació i entorns.[17]

Va relacionar projectes i extensions

[modifica]

WordNet És connectat a diverses bases de dades del Web Semàntic. WordNet És també generalment re-utilitzat via mapatges entre el WordNet synsets i les categories d'ontologies. Més sovint, només les categories de nivell superior de WordNet és mapped.

Global WordNet Associació

[modifica]

El Global WordNet Associació (GWA) és un públic i organització no comercial que proporciona una plataforma per parlar, compartint i connectant wordnets per totes les llengües en el món.[18] El GWA també promou l'estandardització de wordnets a través de llengües diferents per assegurar la seva uniformitat dins enumerant el diferent synsets en llengües humanes. El GWA manté una llista de wordnets desenvolupat al voltant del món.[19]

References

[modifica]
  1. G. A. Miller, R. Beckwith, C. D. Fellbaum, D. Gross, K. Miller. 1990.
  2. «Current WordNet version». Wordnet.princeton.edu, 09-11-2012. [Consulta: 11 març 2014].
  3. «WordNet Statistics». Wordnet.princeton.edu. [Consulta: 11 març 2014].
  4. Collins A., Quillian M. R. 1972.
  5. http://www.phmartin.info.+«most projects claiming to re-use WordNet for knowledge-based applications». Webkb.org. [Consulta: 11 març 2014].
  6. Gangemi, A.; Navigli, R.; Velardi, P. The OntoWordNet Project: Extension and Axiomatization of Conceptual Relations in WordNet (PDF), 2003, p. 820–838. 
  7. (2002) "Restructuring WordNet's Top-Level: The OntoClean approach" a OntoLex'2 Workshop, Ontologies and Lexical Knowledge Bases (LREC 2002). : 17–26. Plantilla:Citeseerx 
  8. R. Navigli.
  9. E. Agirre, O. Lopez. 2003.
  10. R. Navigli.
  11. R. Snow, S. Prakash, D. Jurafsky, A. Y. Ng. 2007.
  12. Francis Bond and Kyonghee Paik 2012a.
  13. http://compling.hss.ntu.edu.sg/omw/
  14. «Ted Pedersen - WordNet::Similarity». D.umn.edu, 16-06-2008. [Consulta: 11 març 2014].
  15. M. T. Pilehvar, D. Jurgens and R. Navigli.
  16. Ballatore A. et al. «Linking geographic vocabularies through WordNet». Annals of GIS, vol. 20, 2, 2014.
  17. «Related projects - WordNet - Related projects». Wordnet.princeton.edu, 06-01-2014. [Consulta: 11 març 2014].
  18. The Global WordNet Association. «globalwordnet.org». globalwordnet.org, 04-02-2010. [Consulta: 11 març 2014].
  19. «Wordnets in the World». Arxivat de l'original el 2011-10-21.

[[Categoria:Lingüística computacional]]