Vés al contingut

Usuari:Llangardaix/GPT-3

De la Viquipèdia, l'enciclopèdia lliure

El Generative Pre-trained Transformer 3 —més conegut per les seves sigles, GPT-3— és un model de llenguatge autoregressiu que, fent ús de l'aprenentatge profund, produeix textos que imiten la redacció humana. Es tracta de la tercera generació dels models de llenguatge GPT creats per OpenAI, un laboratori d'investigació dedicat a la intel·ligència artificial, establert a San Francisco. La versió completa del GPT-3 té una capacitat de 175.000 milions de paràmetres d'aprenentatge automàtic. Essent presentat a maig de 2020 i trobant-se en fase beta beta fins a juliol, forma part d'una tendència en els sistemes de processament de llenguatge natural a partir de representacions del llenguatge entrenades prèviament. Abans del seu llançament, el major model de llenguatge era el Turing NLG, de Microsoft, que fou presentat a febrer de 2020 i tenia una capacitat de 17.000 milions de paràmetres: menys d'una desena part de la del GPT-3.

La qualitat del textos generats pel GPT-3 és tan alta que es fa difícil distingir-los dels escrits per un humà, cosa que comporta, alhora, riscos i beneficis. El 28 de maig de 2020, 32 investigadors i tècnics d'OpenAI publicaren un document presentant el GPT-3, en què alertaven dels seus riscos potencials i demanaven més recerca per tal de mitigar-los. David Chalmers, filòsof australià, va descriure'l com «un dels sistemes més interessants i importants mai produïts en el camp de l'IA».

A 22 de setembre de 2020, Microsoft anuncià que havia obtingut la llicència per a un ús «exclusiu» del GPT-3. Se'n segueix mantenint l'accés obert a l'API pública per rebre'n resultats, però només Microsoft té accés al codi implicat en la generació d'aquest resultat.

Rerefons

[modifica]

D'acord amb The Economist, la millora en els algoritmes, l'augment de potència dels ordinadors, i una major quantitat de dades digitalitzades són el que ha avivat una revolució en l'aprenentatge automàtic, amb noves tècniques sorgides en la dècada del 2010 que han resultat en «millores ràpides en tasques» que inclouen la manipulació del llenguatge. Els models de programari estan entrenats per aprendre utilitzants milers de milions d'exemples en una «estructura... vagament basada en l'arquitectura neuronal del cervell». Una de les arquitectures utilitzades en el processament de llenguatge natural (PLN) és la xarxa neuronal basada en un model d'aprenentatge profund que fou presentat el 2017: el Transformer. Les diferents generacions de models GPT estan basades en l'arquitectura fonamentada en el Transformer. (???) A banda dels GPT, hi ha diversos sistemes de PLN capaços de processar, extreure, organitzar, connectar, contrastar, entendre i generar respostes a preguntes.

A 11 de juny de 2018, els investigadors i tècnics d'OpenAI publicaren un document sobre models generadors, models de llenguatge i sistemes d'intel·ligència artificial que podrien ser pre-entrenats amb una quantitat enorme i diversa de corpus lingüístics mitjançant conjunts de dades, en un procés que van anomenar pre-entrenament generatiu. Els autors descrigueren com la comprensió del funcionament del llenguatge en el PLN havia millorat al llarg dels de les generacions de GPTs en un procés de «pre-entrenament generatiu d'un model de llenguatge en un corpus diverse de text no etiquetat, seguit per ajustaments discriminatius en cada tasca específica». Això va eliminar la necessitat de supervisió humana i d'un etiquetatge manual que sol consumir molt temps.

A febrer de 2020, Microsoft va presentar el seu Turing Natural Language Generation (T-NLG), que es convertí llavors en el «major model de llenguatge mai publicat amb 17.000 paràmetres». Va rendir millor que cap altre model de llenguatge en una varietat de tasques que incloïen el resum de textos i la cerca de respostes.