Generació de llenguatge natural

La generació de llenguatge natural (amb acrònim anglès NLG) és un procés de programari que produeix resultats en llenguatge natural. Una enquesta àmpliament citada dels mètodes de NLG descriu NLG com "el subcamp de la intel·ligència artificial i la lingüística computacional que s'ocupa de la construcció de sistemes informàtics que poden produir textos comprensibles en anglès o altres idiomes humans a partir d'alguna representació no lingüística subjacent de la informació".^[1]

Tot i que està àmpliament acceptat que la sortida de qualsevol procés NLG és text, hi ha cert desacord sobre si les entrades d'un sistema NLG han de ser no lingüístiques.^[2] Les aplicacions habituals dels mètodes de NLG inclouen la producció de diversos informes, per exemple el temps ^[3] i els informes de pacients; ^[4] subtítols d'imatge; ^[5] i chatbots.

La NLG automatitzada es pot comparar amb el procés que utilitzen els humans quan converteixen les idees en escrits o en parla. Els psicolingüistes prefereixen el terme producció del llenguatge per a aquest procés, que també es pot descriure en termes matemàtics, o modelar-se en un ordinador per a la investigació psicològica. Els sistemes NLG també es poden comparar amb els traductors de llenguatges informàtics artificials, com ara descompiladors o transpilers, que també produeixen codi llegible per l'home generat a partir d'una representació intermèdia. Els llenguatges humans solen ser considerablement més complexos i permeten molta més ambigüitat i varietat d'expressió que els llenguatges de programació, cosa que fa que NLG sigui més difícil.

NLG es pot veure com a complementari a la comprensió del llenguatge natural (NLU): mentre que en la comprensió del llenguatge natural, el sistema ha de desambiguar la frase d'entrada per produir el llenguatge de representació de màquina, en NLG el sistema ha de prendre decisions sobre com posar un representació en paraules. Les consideracions pràctiques en la construcció de NLU vs. Els sistemes NLG no són simètrics. NLU ha de fer front a les entrades de l'usuari ambigües o errònies, mentre que les idees que el sistema vol expressar mitjançant NLG es coneixen generalment amb precisió. NLG ha de triar una representació textual específica i coherent entre moltes representacions potencials, mentre que NLU generalment intenta produir una representació única i normalitzada de la idea expressada.^[6]

Les etapes típiques de la generació del llenguatge natural, tal com proposen Dale i Reiter,^[7] són:

Determinació del contingut: decidir quina informació esmentar en el text. Per exemple, a l'exemple de pol·len anterior, decidir si esmenta explícitament que el nivell de pol·len és 7 al sud-est.

Estructuració del document: organització global de la informació a transmetre. Per exemple, decidir descriure primer les zones amb nivells alts de pol·len en comptes de les zones amb nivells baixos de pol·len.

Agregació: fusió d'oracions semblants per millorar la llegibilitat i la naturalitat.

Elecció lèxica: Posar paraules als conceptes. Per exemple, decidir si s'ha d'utilitzar mitjà o moderat quan es descriu un nivell de pol·len de 4.

Generació d'expressions de referència: Creació d'expressions de referència que identifiquin objectes i regions. Per exemple, decidir utilitzar a les illes del nord i l'extrem nord-est d'Escòcia continental per referir-se a una regió determinada d'Escòcia. Aquesta tasca també inclou la presa de decisions sobre pronoms i altres tipus d'anàfores.

Realització: Creació del text real, que ha de ser correcte segons les regles de sintaxi, morfologia i ortografia. Per exemple, utilitzar seré be per al temps futur de ésser.

Referències

↑ Reiter, Ehud; Dale, Robert (en anglès) Natural Language Engineering, 3, 1, 3-1997, pàg. 57–87. DOI: 10.1017/S1351324997001502. ISSN: 1469-8110.
↑ Journal of Artificial Intelligence Research, 61, 61, 2018, pàg. 65–170. arXiv: 1703.09902. DOI: 10.1613/jair.5477.
↑ IEEE Expert, 9, 2, 1994, pàg. 45–53. DOI: 10.1109/64.294135.
↑ Artificial Intelligence, 173, 7–8, 2009, pàg. 789–816. DOI: 10.1016/j.artint.2008.12.002.
↑ (2010-09-05) "[1]" a European conference on computer vision.
↑ Dale, Robert. Building natural language generation systems. Cambridge, U.K.: Cambridge University Press, 2000. ISBN 978-0-521-02451-8.
↑ Dale, Robert. Building natural language generation systems (en anglès). Cambridge, U.K.: Cambridge University Press, 2000. ISBN 978-0-521-02451-8.

[1] Reiter, Ehud; Dale, Robert (en anglès) Natural Language Engineering, 3, 1, 3-1997, pàg. 57–87. DOI: 10.1017/S1351324997001502. ISSN: 1469-8110.

[Gatt-2] Journal of Artificial Intelligence Research, 61, 61, 2018, pàg. 65–170. arXiv: 1703.09902. DOI: 10.1613/jair.5477.

[fog-3] IEEE Expert, 9, 2, 1994, pàg. 45–53. DOI: 10.1109/64.294135.

[portet-4] Artificial Intelligence, 173, 7–8, 2009, pàg. 789–816. DOI: 10.1016/j.artint.2008.12.002.

[farhadi-5] (2010-09-05) "[1]" a European conference on computer vision.

[Ehud-6] Dale, Robert. Building natural language generation systems. Cambridge, U.K.: Cambridge University Press, 2000. ISBN 978-0-521-02451-8.

[Ehud2-7] Dale, Robert. Building natural language generation systems (en anglès). Cambridge, U.K.: Cambridge University Press, 2000. ISBN 978-0-521-02451-8.

[1]

[2]

[3]

[4]

[5]

[6]

[7]