Vés al contingut

ROUGE (mètrica)

De la Viquipèdia, l'enciclopèdia lliure

ROUGE, o Recall-Oriented Understudy for Gisting Evaluation, és un conjunt de mètriques i un paquet de programari utilitzats per avaluar el resum automàtic i el programari de traducció automàtica en el processament del llenguatge natural. Les mètriques comparen un resum o traducció produït automàticament amb una referència o un conjunt de referències (produït per humans) resum o traducció.[1][2]

Mètriques

[modifica]

Les cinc mètriques d'avaluació següents estan disponibles.[3][4]

  • ROUGE-N: solapament de n-grams entre el sistema i els resums de referència.
    • ROUGE-1 es refereix a la superposició d'unigrames (cada paraula) entre el sistema i els resums de referència.
    • ROUGE-2 es refereix a la superposició de bigrames entre el sistema i els resums de referència.
  • ROUGE-L: estadístiques basades en la subseqüència comuna més llarga (LCS). El problema de subseqüència comú més llarg té en compte la similitud de l'estructura a nivell de frase de manera natural i identifica automàticament els n-grams de seqüència més llargs.
  • ROUGE-W: estadístiques basades en LCS ponderades que afavoreixen els LCS consecutius.
  • ROUGE-S: estadístiques de co-ocurrència basades en Skip-bigram. Skip-bigram és qualsevol parell de paraules en l'ordre de la frase.
  • ROUGE-SU: estadístiques de co-ocurrència basades en unigrames i salt-bigram.

Referències

[modifica]
  1. «An intro to ROUGE, and how to use it to evaluate summaries» (en anglès), 26-01-2017. [Consulta: 1r octubre 2023].
  2. Briggs, James. «The Ultimate Performance Metric in NLP» (en anglès), 02-09-2021. [Consulta: 1r octubre 2023].
  3. Chiusano, Fabio. «Two minutes NLP — Learn the ROUGE metric by examples» (en anglès), 04-08-2023. [Consulta: 1r octubre 2023].
  4. «ROUGE - a Hugging Face Space by evaluate-metric» (en anglès). [Consulta: 1r octubre 2023].