Vés al contingut

LLaMA (model d'IA)

De la Viquipèdia, l'enciclopèdia lliure
LLaMA
Modifica el valor a Wikidata
Tipusmodel de llenguatge extens, programari, family of large-language models (en) Tradueix i model de llenguatge Modifica el valor a Wikidata
Versió inicial
febrer 2023 Modifica el valor a Wikidata
Versió estable
3.2 (25 setembre 2024) Modifica el valor a Wikidata
Llicènciallicència GPL 3 de codi obert
Característiques tècniques
Sistema operatiuMultiplataforma
Escrit enPython Modifica el valor a Wikidata
Tipus de nucliArquitectura Transformer GPT-3
Equip
Creador/sMeta AI Modifica el valor a Wikidata
Desenvolupador(s)Meta AI
Més informació
Lloc webllama.meta.com (anglès) Modifica el valor a Wikidata

LLaMA (Large Language Model Meta AI) és un gran model de llenguatge (LLM) llançat per Meta AI el febrer de 2023. Es van entrenar una varietat de mides de models que van des dels 7 mil milions fins als 65 mil milions de paràmetres. Els desenvolupadors de LLaMA van informar que el rendiment del model de 13.000 milions de paràmetres a la majoria de punts de referència de NLP va superar el del GPT-3 molt més gran (amb 175.000 milions de paràmetres) i que el model més gran era competitiu amb models d'última generació com PaLM i Chinchilla. Mentre que els LLM més potents generalment només han estat accessibles mitjançant API limitades (si n'hi ha,), Meta va llançar els pesos del model de LLaMA a la comunitat de recerca sota una llicència no comercial. Una setmana després del llançament de LLaMA, els seus pesos es van filtrar al públic a 4chan a través de BitTorrent.[1][2]

LLaMA utilitza l'arquitectura transformadora, l'arquitectura estàndard per al modelatge de llenguatge des del 2018. Els desenvolupadors de LLaMA van centrar els seus esforços a escalar el rendiment del model augmentant el volum de dades d'entrenament, en lloc del nombre de paràmetres, raonant que el cost dominant per als LLM prové de fer inferència sobre el model entrenat en lloc del cost computacional del procés d'entrenament. LLaMA es va entrenar amb 1,4 bilions de fitxes, extretes de fonts de dades disponibles públicament, incloses: [3][4]

Aplicacions

[modifica]

El Centre d'Investigació sobre Models Fundacionals (CRFM) de l'Institut d'Intel·ligència Artificial Centrada en l'Human de la Universitat Stanford (HAI) va llançar Alpaca, una recepta d'entrenament basada en el model LLaMA 7B que utilitza el mètode "Self-Instruct" d'ajustament d'instruccions per adquirir capacitats comparables a les el model text-davinci-003 de la sèrie OpenAI GPT-3.5 a un cost modest.[5]

Referències

[modifica]