Model de llenguatge de raonament
Els models de llenguatge de raonament són sistemes d'intel·ligència artificial que combinen el processament del llenguatge natural amb capacitats de raonament estructurat. Aquests models solen construir-se mitjançant sol·licituds, ajustament supervisat (SFT) i aprenentatge de reforç (RL) inicialitzats amb models de llenguatge prèviament entrenats.
Indicació
[modifica]Un model de llenguatge és un model generatiu d'un conjunt de dades d'entrenament de textos. Sol·licitar significa construir una indicació de text, de manera que, condicionada a la petició de text, el model de llenguatge generi una solució a la tasca. La sol·licitud es pot aplicar a un model preentrenat ("model base"), un model base que s'ha sotmès a SFT, o RL, o tots dos.
Cadena de pensament
[modifica]L'impuls de la cadena de pensament (CoT) fa que el model respongui una pregunta generant primer una "cadena de pensament", és a dir, passos de raonament que imiten un tren de pensament. Va ser publicat l'any 2022 per l'equip Brain de Google sobre el model PaLM-540B.[1] A la sol·licitud CoT, la sol·licitud té la forma "<Entrada> Pensem pas a pas", i el model respondria amb una cadena de passos de raonament, acabada amb una resposta: De la mateixa manera, l'indicació de l'arbre del pensament generalitza CoT demanant al model que generi un o més "possibles passos següents" i després executant el model en cadascun dels possibles passos següents mitjançant breadth-first, beam, o algun altre mètode de cerca d'arbres. De la mateixa manera, Graph of Thought generalitza CoT de manera que els passos de raonament formin un graf acíclic dirigit.[2]
La descodificació d'autoconsistència realitza diversos llançaments de la cadena de pensament i, a continuació, selecciona la conclusió més freqüent de tots els llançaments. Si els llançaments discrepen molt, es pot demanar a un humà la cadena de pensament correcta.
Generació augmentada amb recuperació
[modifica]Un model d'idioma pot respondre una consulta consultant primer una base de dades de documents mitjançant la consulta. La recuperació del document es pot fer mitjançant una base de dades vectorial, un índex de resum, un índex d'arbre o un índex de taula de paraules clau.[3] Després de la recuperació del document, el LLM genera una sortida que incorpora informació tant de la consulta com dels documents recuperats.[4]
Ús d'eines
[modifica]Els models de llenguatge poden realitzar llargs passos de raonament cridant mètodes externs, com ara receptes numèriques, intèrprets de programes, trucades a l'API, etc. Això es pot dissenyar ràpidament descrivint els mètodes externs en context (un exemple d'aprenentatge en context) o ajustar-se al model.[5]
Ajustament supervisat
[modifica]Un model base es pot afinar en un conjunt de dades de tasques de raonament amb exemples de solucions i traces de raonament. Aleshores, el model afinat seria capaç de generar traces de raonament per a un problema determinat.
Com que és costós aconseguir que els humans escriguin traces de raonament per a un conjunt de dades SFT, els investigadors han proposat maneres de construir automàticament conjunts de dades SFT. En l'afinació del mostreig de rebuig (RFT), es recullen noves traces de raonament mitjançant un bucle:
- Mostra una indicació de tasca
- Genereu moltes traces de raonament per a la sol·licitud.
- Utilitzeu un verificador per eliminar rastres de raonament amb la resposta final incorrecta.
- Per a cada traça restant, extreu el conjunt d'equacions que hi apareixen. Deduplica les traces de manera que cadascuna tingui un conjunt d'equacions diferent. Afegiu-los al conjunt de dades.
Aprenentatge de reforç
[modifica]RL pot entrenar un model de llenguatge prèviament entrenat. En el formalisme RL, un model de llenguatge generatiu és una política . Una indicació que especifica una tasca a resoldre és un estat ambiental , i la resposta del model de llenguatge a la sol·licitud és una acció . La probabilitat que el model lingüístic respongui amb és .
L'entrenament d'un model de llenguatge de raonament per part de RL consisteix llavors a construir un model de recompensa per guiar el procés de RL. Intuïtivament, un model de recompensa descriu com de desitjable/adequada/bona és la resposta per a l'indicador. Per al model de llenguatge de raonament, l'indicador descriu una tasca de raonament, i la recompensa seria alta si la resposta resol la tasca, i baixa si la resposta no resol la tasca.
Per als models de llenguatge de raonament, la resposta del model es pot dividir en diversos passos, en aquest cas s'escriu com .
Model de recompensa de resultats
[modifica]El model de recompensa de resultats, o RM supervisat per resultats (ORM), [6] és un model de recompensa que calcula la recompensa d'un pas determinat per la resposta final: . També s'anomenen "verificadors".
Per a tasques amb una resposta fàcil de verificar, com ara problemes de paraules en matemàtiques, la recompensa del resultat pot ser simplement binària: 1 si la resposta final és correcta i 0 en cas contrari. Si la resposta no és fàcil de verificar programàticament, els humans poden etiquetar manualment les respostes com a correctes o no, llavors les etiquetes es poden utilitzar per afinar un model base que prediu l'etiqueta humana. Per a altres tipus de tasques, com ara l'escriptura creativa, on el rendiment de les tasques no és binari vertader/fals, es pot entrenar un model de recompensa ajustant un model base en dades de preferències classificades per humans, com l'utilitzat en l'aprenentatge de reforç a partir de la retroalimentació humana. Un model base també es pot afinar per predir, donat un rastre de pensament parcial , si la resposta final seria correcta o no. Això es pot utilitzar com a senyal de recompensa binari.
L'ORM sol ser entrenat mitjançant regressió logística, és a dir, minimitzant la pèrdua d'entropia creuada.[7]
Donat un PRM, un ORM es pot construir multiplicant la recompensa total del procés durant el seguiment del raonament, [8] o prenent el mínim, [9] o algun altre mètode per agregar les recompenses del procés.
Model de recompensa del procés
[modifica]El model de recompensa del procés, o RM supervisat pel procés (PRM), és un model de recompensa que calcula la recompensa d'un pas determinat pels passos fins ara: .
Donat un rastre de pensament parcial , es pot preguntar a un humà si els passos fins ara són correctes, independentment de si la resposta definitiva seria correcta. Això es pot utilitzar com a senyal de recompensa binari. Com que les etiquetes humanes són cares, es pot ajustar un model base per predir les etiquetes humanes. El PRM s'entrena normalment mitjançant regressió logística, és a dir, minimitzant la pèrdua d'entropia creuada.[10]
Com a exemple, en un document OpenAI de 2023, es van recollir 800.000 etiquetes de procés per a 75.000 rastres de solució. Es presentarà a un etiquetador amb un rastre de solució, i es mantindria etiquetant "positiu" si el pas avança cap a la solució, "neutre" si no està malament, però no avança cap a la solució, i "negatiu" si és un error. Tan bon punt s'introdueix una etiqueta "negativa", l'etiquetador deixa d'etiquetar aquest rastre de pensament i comença a etiquetar-ne un altre. La idea era que, tot i que etiquetar els passos de raonament posteriors pot proporcionar senyals de supervisió encara més rics, només etiquetar fins al primer error era suficient per formar un PRM competent.
Com que les etiquetes humanes són cares, els investigadors han proposat mètodes per crear PRM sense etiquetes humanes en els processos. Inspirat en la cerca d'arbres de Monte Carlo (MCTS), el mètode Math-Shepherd mostra múltiples continuacions fins al final, començant a cada pas de raonament , i establiu que la recompensa en aquest pas sigui qualsevol en el cas d'"estimació suau", o bé en el cas de "estimació dura". Això crea una recompensa del procés utilitzant només un ORM, que normalment és més fàcil o més barat de construir. Després de crear aquestes etiquetes de recompensa de procés, es pot formar un PRM sobre elles.[11] Alguns han provat un enfocament totalment MCTS.
També es pot utilitzar un ORM per construir implícitament un PRM, de manera similar a l'optimització de preferències directes.
Mostreig guiat
[modifica]Es pot utilitzar un ORM entrenat per seleccionar la millor resposta. La política desplegaria múltiples respostes i un ORM entrenat seleccionaria la millor resposta. Això permet una forma senzilla d'escalat de càlcul del temps de prova ("el millor d'N").[12][13]
Un PRM entrenat també es pot utilitzar per guiar el raonament mitjançant la cerca d'arbres cobdiciosos. És a dir, el model de política genera diversos possibles passos de raonament següents, i el PRM selecciona el millor i el procés es repeteix. Això és similar a com es pot utilitzar un ORM entrenat per seleccionar la millor resposta. La cerca de feix funciona millor que la cerca cobdiciosa.
Aplicacions
[modifica]L'enginyeria ràpida va ser descoberta a GPT-3 com a "aprenentatge de pocs cops", [14] que va iniciar un període d'investigació sobre les capacitats d'"obtenció" dels models lingüístics preentrenats. Aleshores es va trobar que es podria demanar a un model que realitzés un raonament CoT, cosa que millora el seu rendiment en tasques de raonament.
Referències
[modifica]- ↑ Sharan Narang and Aakanksha Chowdhery. «Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance» (en anglès), 04-04-2022.
- ↑ Besta, Maciej; Blach, Nils; Kubicek, Ales; Gerstenberger, Robert; Podstawski, Michal (en anglès) Proceedings of the AAAI Conference on Artificial Intelligence, 38, 16, 24-03-2024, pàg. 17682–17690. DOI: 10.1609/aaai.v38i16.29720. ISSN: 2374-3468.
- ↑ «How Each Index Works - LlamaIndex 🦙 v0.10.17» (en anglès). docs.llamaindex.ai. [Consulta: 8 abril 2024].
- ↑ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir Advances in Neural Information Processing Systems, 33, 2020, pàg. 9459–9474. arXiv: 2005.11401.
- ↑ Schick, Timo; Dwivedi-Yu, Jane; Dessi, Roberto; Raileanu, Roberta; Lomeli, Maria (en anglès) Advances in Neural Information Processing Systems, 36, 15-12-2023, pàg. 68539–68551. arXiv: 2302.04761.
- ↑ Uesato (2022-11-25), Solving math word problems with process- and outcome-based feedback
- ↑ Wang, Peiyi; Li, Lei; Shao, Zhihong; Xu, Runxin; Dai, Damai Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) [Bangkok, Thailand], 8-2024, pàg. 9426–9439. arXiv: 2312.08935. DOI: 10.18653/v1/2024.acl-long.510.
- ↑ Lightman, Hunter; Kosaraju, Vineet & Burda, Yura et al. (2023-05-31), Let's Verify Step by Step
- ↑ Wang, Peiyi; Li, Lei; Shao, Zhihong; Xu, Runxin; Dai, Damai Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) [Bangkok, Thailand], 8-2024, pàg. 9426–9439. arXiv: 2312.08935. DOI: 10.18653/v1/2024.acl-long.510.
- ↑ Wang, Peiyi; Li, Lei; Shao, Zhihong; Xu, Runxin; Dai, Damai Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) [Bangkok, Thailand], 8-2024, pàg. 9426–9439. arXiv: 2312.08935. DOI: 10.18653/v1/2024.acl-long.510.
- ↑ Wang, Peiyi; Li, Lei; Shao, Zhihong; Xu, Runxin; Dai, Damai Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) [Bangkok, Thailand], 8-2024, pàg. 9426–9439. arXiv: 2312.08935. DOI: 10.18653/v1/2024.acl-long.510.
- ↑ Cobbe (2021-11-18), Training Verifiers to Solve Math Word Problems
- ↑ Zhang, Di; Wu, Jianbo & Lei, Jingdi et al. (2024-11-21), LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning
- ↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared Proceedings of the 34th International Conference on Neural Information Processing Systems [Red Hook, NY, USA], 06-12-2020, pàg. 1877–1901.