Model de llenguatge extens
Tipus | API |
---|---|
Característiques tècniques | |
Plataforma | Multiplataforma |
Equip | |
Desenvolupador(s) | OpenAI, Google, Microsoft, Amazon... |
Un model de llenguatge extens (amb acrònim, MLE, i també coneguts per les sigles angleses LLM)[1] és un model de llenguatge que consisteix en una xarxa neuronal amb molts paràmetres (normalment milers de milions de pesos o més), entrenats en grans quantitats de text sense etiqueta i mitjançant aprenentatge no supervisat. Els MLE van sorgir al voltant del 2018 i funcionen bé en una gran varietat de tasques. Això ha desplaçat el focus de la investigació sobre el processament del llenguatge natural del paradigma anterior de formació de models supervisats especialitzats per a tasques específiques.[2][3]
Tot i que el terme model de llenguatge extens no té una definició formal, generalment es refereix a models d'aprenentatge profund que tenen un recompte de paràmetres de l'ordre de milers de milions o més. Els LLM són models de propòsit general que destaquen en una àmplia gamma de tasques, en lloc de ser entrenats per a una tasca específica (com ara l'anàlisi de sentiments, el reconeixement d'entitats anomenades o el raonament matemàtic). Tot i que s'ha entrenat en tasques senzilles en la línia de predir la següent paraula en una frase, es troben models de llenguatge neuronal amb un entrenament i un recompte de paràmetres suficients per capturar gran part de la sintaxi i la semàntica del llenguatge humà. A més, els grans models lingüístics demostren un coneixement general considerable sobre el món i són capaços de "memoritzar" una gran quantitat de fets durant l'entrenament.[4]
Arquitectura
[modifica]Els models de llenguatge extensos han utilitzat més habitualment l'arquitectura del transformador, que, des del 2018, s'ha convertit en la tècnica estàndard d'aprenentatge profund per a dades seqüencials (abans, les arquitectures recurrents com la LSTM eren les més habituals). Els LLM es formen de manera no supervisada en text sense anotació. S'entrena un transformador d'esquerra a dreta per maximitzar la probabilitat assignada a la paraula següent de les dades d'entrenament, donat el context anterior. Alternativament, un LLM pot utilitzar un transformador bidireccional (com en l'exemple de BERT), que assigna una distribució de probabilitat sobre paraules que tenen accés tant al context anterior com al següent. A més de la tasca de predir la paraula següent o "omplir els espais en blanc", els LLM poden ser entrenats en tasques auxiliars que posen a prova la seva comprensió de la distribució de dades, com ara la predicció de la següent frase (NSP), en què es presenten parells d'oracions i el model ha de predir si apareixen una al costat de l'altra al corpus de formació.[5]
Llista de models de llenguatge extens
[modifica]Nom | Data sortida | Autor | Nombre de paràmetres | Tamany | Llicència |
---|---|---|---|---|---|
BERT | 2018 | 340 milions | 3.3 mil milion de paraules | Apache 2.0 | |
GPT-2 | 2019 | OpenAI | 1.5 mil milions | 40GB[6] (~10 mil milions de tokens)[7] | MIT |
GPT-3 | 2020 | OpenAI | 175 mil milions | 499 mil milions de tokens[7] | API amb Web pública |
GPT-Neo | Març 2021 | EleutherAI | 2.7 mil milions[8] | 825 GiB | MIT |
GPT-J | Juny 2021 | EleutherAI | 6 mil milions[9] | 825 GiB[10] | Apache 2.0 |
Megatron-Turing NLG | Octubre 2021[11] | Microsoft i Nvidia | 530 mil milions | 338.6 mil milion de tokens | Accés restringit |
Ernie 3.0 Titan | Desembre 2021 | Baidu | 260 mil milions[12][13] | 4 Tb | Propietari |
Claude[14] | December 2021 | Anthropic | 52 mil milions[15] | 400 mil milions de tokens[15] | Versió beta tancada |
GLaM (Generalist Language Model) | Desembre 2021 | 1.2 bilions | 1.6 bilions de tokens | Propietari | |
Gopher | Desembre 2021 | DeepMind | 280 mil milions[16] | 300 mil milions de tokens[17] | Propietari |
LaMDA (Language Models for Dialog Applications) | Gener 2022 | 137 mil milions | 1.56T paraules, 168 billion tokens[17] | Propietari | |
GPT-NeoX | Febrer 2022 | EleutherAI | 20 mil milions[18] | 825 GiB[10] | Apache 2.0 |
Chinchilla | Març 2022 | DeepMind | 70 mil milions | 1.4 bilions de tokens[17] | Propietari |
PaLM (Pathways Language Model) | Abril 2022 | 540 mil milions | 768 mil milions de tokens | Propietari | |
OPT (Open Pretrained Transformer) | Maig 2022 | Meta | 175 mil milions[19] | 180 mil milions de tokens | GPT-3 |
YaLM 100B | Juny 2022 | Yandex | 100.000 milions[20] | 1.7TB[20] | Apache 2.0 |
Minerva | Juny 2022 | 540 mil milions[21] | 38.5B tokens [21] | Propietari | |
BLOOM | Juliol 2022 | Large collaboration led per Hugging Face | 175 mil milions | 350 mil milions de tokens (1.6TB)[22] | ? |
AlexaTM (Teacher Models) | Novembre 2022 | Amazon | 20 mil milions[23] | 1.3 mil milions | API amb Web pública |
LLaMA (Large Language Model Meta AI) | Febrer 2023 | Meta | 65 mil milions | 1.4 mil milions | Recerca no comercial |
GPT-4 | Març 2023 | OpenAI | 100 bilions [24] | Desconegut | API amb Web pública |
Referències
[modifica]- ↑ «Model de llenguatge extens». Cercaterm. TERMCAT, Centre de Terminologia.
- ↑ «Human Language Understanding & Reasoning» (en anglès). https://www.amacad.org,+13-04-2022.+[Consulta: 15 març 2023].
- ↑ «How Large Language Models Will Transform Science, Society, and AI» (en anglès). https://hai.stanford.edu.+[Consulta: 15 març 2023].
- ↑ «Large Language Models: Complete Guide in 2023» (en anglès). https://research.aimultiple.com.+[Consulta: 15 març 2023].
- ↑ «Large Language Models: A New Moore's Law?» (en anglès). https://huggingface.co.+[Consulta: 15 març 2023].
- ↑ «Better language models and their implications» (en anglès). openai.com.
- ↑ 7,0 7,1 «OpenAI's GPT-3 Language Model: A Technical Overview» (en anglès). lambdalabs.com.
- ↑ «GPT Neo» (en anglès), 15-03-2023.
- ↑ «GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront» (en anglès). www.forefront.ai. Arxivat de l'original el 2023-03-09. [Consulta: 28 febrer 2023].
- ↑ 10,0 10,1 .
- ↑ Alvi, Ali. «Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model». Microsoft Research, 11-10-2021.
- ↑ Nast, Condé. «China's ChatGPT Black Market Is Thriving».
- ↑ Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu "ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation", 23-12-2021. arXiv: 2112.12731.
- ↑ «Product» (en anglès). Anthropic. [Consulta: 14 març 2023].
- ↑ 15,0 15,1 .
- ↑ «Language modelling at scale: Gopher, ethical considerations, and retrieval» (en anglès). www.deepmind.com. [Consulta: 20 març 2023].
- ↑ 17,0 17,1 17,2 .
- ↑ (2022-05-01) "[1]" a Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models.
- ↑ «Democratizing access to large-scale language models with OPT-175B» (en anglès). ai.facebook.com.
- ↑ 20,0 20,1 [Consulta: 18 març 2023].
- ↑ 21,0 21,1 Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk arXiv:2206.14858 [cs], 30-06-2022 [Consulta: 20 març 2023].
- ↑ «bigscience/bloom · Hugging Face» (en anglès). huggingface.co.
- ↑ «20B-parameter Alexa model sets new marks in few-shot learning» (en anglès). Amazon Science, 02-08-2022.
- ↑ Stern, Jacob. «GPT-4 Might Just Be a Bloated, Pointless Mess» (en anglès). https://www.theatlantic.com,+06-03-2023.+[Consulta: 5 abril 2023].