Vés al contingut

Arquitectura General per a Enginyeria de Textos

De la Viquipèdia, l'enciclopèdia lliure
GATE
Modifica el valor a Wikidata
Tipusnatural language processing toolkit (en) Tradueix i programari lliure Modifica el valor a Wikidata
Versió inicial1995 Modifica el valor a Wikidata
Versió estable
8.6.1 (17 gener 2020) Modifica el valor a Wikidata
LlicènciaGNU LGPL Modifica el valor a Wikidata
Característiques tècniques
Sistema operatiumacOS, Linux i Microsoft Windows Modifica el valor a Wikidata
PlataformaMàquina Virtual Java Modifica el valor a Wikidata
Escrit enJava Modifica el valor a Wikidata
Equip
Desenvolupador(s)Universitat de Sheffield Modifica el valor a Wikidata
Més informació
Lloc webgate.ac.uk Modifica el valor a Wikidata

General Architecture for Text Engineering o GATE és un conjunt d'eines Java desenvolupat originalment a la Universitat de Sheffield a partir de 1995 i ara utilitzat a tot el món per una àmplia comunitat de científics, empreses, professors i estudiants per a moltes tasques de processament del llenguatge natural, inclosa l'extracció d'informació en moltes llengües.[1]

El 28 de maig de 2011, 881 persones es troben a la llista de correu dels usuaris de la porta a SourceForge.net, i s'han registrat 111.932 descàrregues de SourceForge des que el projecte es va traslladar a SourceForge el 2005.[2] El document "GATE: A framework and graphical development environment for robust NLP tools and applications" [3] ha rebut més de 2000 cites des de la seva publicació (segons Google Scholar). Els llibres que cobreixen l'ús de GATE, a més de la Guia d'usuari de GATE,[4] inclouen "Building Search Applications: Lucene, LingPipe, and Gate", de Manu Konchady,[5] i "Introduction to Linguistic Annotation and Text Analytics". de Graham Wilcock.[6]

La comunitat i la recerca de GATE ha participat en diversos projectes de recerca europeus, com ara: Transitioning Applications to Ontologies, SEKT, NeOn, Media-Campaign, Musing, Service-Finder, LIRICS i KnowledgeWeb.

GATE inclou un sistema d'extracció d'informació anomenat ANNIE (A Nearly-New Information Extraction System) que és un conjunt de mòduls que inclou un tokenizer, un nomenclàtor, un divisor de frases, una part de l'etiquetatge de parla, un transductor d'entitats amb nom i un etiquetador de correferència. ANNIE es pot utilitzar tal com és per proporcionar una funcionalitat bàsica d'extracció d'informació o proporcionar un punt de partida per a tasques més específiques.

S'inclouen connectors per a l'aprenentatge automàtic amb Weka, RASP, MAXENT, SVM Light, així com una integració LIBSVM i una implementació interna de perceptron, per gestionar ontologies com WordNet, per consultar motors de cerca com Google o Yahoo, per a part de l'etiquetatge de veu. amb Brill o TreeTagger, i molts més. També hi ha disponibles molts connectors externs, per gestionar, per exemple, tuits.[7]

Referències

[modifica]
  1. Languages mentioned on https://gate.ac.uk/gate/plugins/ include Arabic, Bulgarian, Cebuano, Chinese, French, German, Hindi, Italian, Romanian and Russian.
  2. «GATE» (en anglès). [Consulta: 17 desembre 2016].
  3. "GATE: A framework and graphical development environment for robust NLP tools and applications", by Cunningham H., Maynard D., Bontcheva K. and Tablan V. (In proc. of the 40th Anniversary Meeting of the Association for Computational Linguistics, 2002)
  4. «GATE.ac.uk - sale/tao/split.html» (en anglès). [Consulta: 17 desembre 2016].
  5. Konchady, Manu. Building Search Applications: Lucene, LingPipe, and Gate. Mustru Publishing. 2008.
  6. Wilcock, Graham. Introduction to Linguistic Annotation and Text Analytics (en anglès). Morgan & Claypool Publishers, 1 gener 2009. ISBN 9781598297386. 
  7. «GATE.ac.uk - wiki/twitie.html» (en anglès). [Consulta: 17 desembre 2016].