Bitextor
Tipus | programari |
---|---|
Més informació | |
Lloc web | bitextor.readthedocs.io (anglès) |
SourceForge | bitextor |
| |
Bitextor és una aplicació lliure de codi obert que té com a objectiu la generació de memòries de traducció a partir de llocs web multilingües, que són utilitzats com a corpus base. Bitextor ha estat publicat sota llicència GNU GPL v2.
L'aplicació descarrega tots els fitxers HTML del lloc web indicat per l'usuari. Aleshores, realitza un preprocessament per a convertir-los a un format coherent i adequat per a les següents etapes. Seguidament, s'hi aplica un conjunt d'heurístiques (principalment basades en l'estructura d'etiquetes HTML i la longitud de les cadenes de text) per a fer parelles de fitxers que seran considerats com a candidats a contenir el mateix text en diferents idiomes. A partir d'aquests candidats, es generen les memòries de traducció en format TMX mitjançant la llibreria LibTagAligner, que utilitza les etiquetes HTML i la longitud dels blocs de text (també) per a realitzar l'alineament.
L'objectiu d'aquesta eina és el de facilitar l'obtenció de corpus multilingüe a partir d'Internet. Bitextor va ser desenvolupat, en un principi, per a facilitar el procés d'entrenament d'aplicacions de traducció automàtica i, concretament, la de la plataforma Apertium.