BLEU

BLEU (BiLingual Evaluation Understudy, en català «estudi d'avaluació bilingüe») és un mètode d'avaluació de traduccions automàtiques. Una traducció té una millor qualitat com més semblant és respecte d'una referència, que se suposa correcta. BLEU es pot calcular utilitzant més d'una traducció de referència. Això permet una millor robustesa en la mesura enfront d'altres traduccions lliures realitzades per humans.

BLEU es calcula normalment a nivell de frases i troba la precisió en n-grames entre la traducció del sistema i la referència. Nogensmenys, s'utilitza una precisió modificada a fi de solucionar certes deficiències en la mesura.

Definició matemàtica

Precisió modificada

La precisió de n-grames entre dues frases és:

P={\frac {\mbox{n-grames comuns}}{\mbox{n-grames candidata}}}

Tanmateix, la precisió sola no és una mesura adequada per a calcular la semblança entre dues frases, com es pot veure a continuació:

Exemple de mala traducció amb una alta precisió
Candidata	the	the	the	the	the	the
Referència	The	cat	is	on	the	table

En aquest cas tindríem una precisió de ${\frac {6}{6}}=1$ . Per això s'ha de tenir en compte el nombre màxim d'ocurrències d'un n-grama en la frase de referència, sent aquest el límit a l'hora de comptabilitzar les aparicions en la frase candidata. Amb això en compte la precisió modificada seria de ${\frac {2}{6}}$ .

Penalització per brevetat

Si les frases a comparar tenen una llargada molt diferent, no podem afirmar que siguin semblants. Si la frase candidata és més llarga que la referència, aquest aspecte es veu reflectit en la fórmula de precisió modificada. Hi haurà molts n-grames en la frase candidata que no apareixeran en la frase de referència per la qual cosa la precisió serà més petita. Això no ocorre quan la frase de referència és molt més curta, tal com es pot observar en el següent exemple:

Exemple de mala traducció amb alta precisió
Candidata	the	the
Referència	The	cat	is	on	the	table

La precisió modificada seria de ${\frac {2}{2}}=1$ i no reflectiria la semblança entre les dues frases. Per això s'introdueix un penalitzador per brevetat de les frases candidates.

PB={\begin{cases}1\ {\mbox{si}}\ c>r\\e^{1-{\frac {r}{c}}}\end{cases}}

on $c$ és la llargada de la frase candidate i $r$ la llargada de la frase de referència

Càlcul definitiu de BLEU

Per al càlcul de BLEU s'utilitza la mitjana geomètrica per als N n-grames que s'hagin d'emprar. Cada n-grama tindrà un pes $w_{n}$ tal que $\sum _{n=1}^{N}w_{n}=1$ .

La tria més habitual i la recomanada a l'article original és $w_{1}=\cdots =w_{4}={\frac {1}{4}}$ .

Rendiment

Sovint s'ha reportat que BLEU correlaciona bé amb les avaluacions humanes,^[1]^[2]^[3] i roman un punt de referència per a qualsevol nova mètrica d'avaluació. Hi ha però unes quantes crítiques que s'hi han expressat. S'ha constatat que malgrat que en principi sigui capaç d'avaluar traduccions de qualsevol llengua, BLEU no pot tractar amb llengües sense límits de paraules en la seva forma present.^[4]

S'ha argumentat que encara que BLEU tingui avantatges significatius, no hi ha cap garantia que un increment de BLEU indiqui una millora en la qualitat de la traducció.^[5]

Notes

^ Papineni, K., et al. (2002)
^ Coughlin, D. (2003)
^ Doddington, G. (2002)
^ Denoual, E. and Lepage, Y. (2005)
^ Callison-Burch, C., Osborne, M. and Koehn, P. (2006)

Referències

Papineni, K., Roukos, S., Ward, T., and Zhu, W. J. (2002). "BLEU: a method for automatic evaluation of machine translation" en ACL-2002: 40th Annual meeting of the Association for Computational Linguistics pp. 311--318

Vegeu també

[1]

[2]

[3]

[4]

[5]