O1 (transformador generatiu pre-entrenat)
Tipus | sèrie de models d'intel·ligència artificial |
---|---|
Versió inicial | |
Equip | |
Desenvolupador(s) | OpenAI |
Editor | OpenAI |
Més informació | |
Lloc web | openai.com… (anglès) |
| |
o1 és un transformador generatiu pre-entrenat llançat per OpenAI el setembre de 2024. o1 passa temps pensant abans de respondre, fent-lo més eficient en tasques complexes de raonament, ciència i programació.[1]
Història
[modifica]Rerefons
[modifica]Segons la informació filtrada, o1 es coneixia abans dins d'OpenAI com "Q*", i més tard com "Strawberry".[2] El nom en clau "Q*" va aparèixer per primera vegada el novembre de 2023, al voltant de l'època de l'expulsió de Sam Altman i el posterior restabliment, amb rumors que suggereixen que aquest model experimental havia mostrat resultats prometedors en els punts de referència matemàtics. El juliol de 2024, Reuters va informar que OpenAI estava desenvolupant un transformador generatiu pre-entrenat conegut com "Strawberry".[2]
Llançament
[modifica]"o1-preview" i "o1-mini" es van llançar el 12 de setembre de 2024 per als usuaris de ChatGPT Plus i Team.[3] GitHub va començar a provar la integració d'o1-preview al seu servei Copilot el mateix dia.[4]
OpenAI va assenyalar que o1 és el primer d'una sèrie de models de "raonament" i que tenia previst afegir accés a o1-mini a tots els usuaris gratuïts de ChatGPT. o1-preview és diverses vegades més car que GPT-4o.[5]
Capacitats
[modifica]Segons OpenAI, o1 està entrenat en un nou conjunt de dades d'entrenament específicament adaptat i amb un nou algorisme d'optimització. La formació aprofita l'aprenentatge de reforç.[6]
o1 dedica més temps a pensar abans de generar una resposta, cosa que la fa més efectiva per a tasques de raonament complexes, especialment en ciència i programació.[7] En comparació amb el model GPT-4o anterior, el model o1 s'ha entrenat per generar llargues " cadenes de pensament " abans de retornar una resposta final.[8]
o1-mini és més ràpid i un 80% més barat que o1-preview. És especialment adequat per a tasques de programació i STEM, però no té el mateix "ampli coneixement del món" que o1-preview.[9]
OpenAI va assenyalar que les capacitats de raonament d'o1 milloren l'aplicació de les regles de seguretat proporcionades a la finestra de context del missatge. OpenAI també va informar que durant una prova, una instància d'o1-preview va aprofitar una configuració incorrecta per tenir èxit en una tasca que hauria d'haver estat inviable a causa d'un error.[10][11]
Referències
[modifica]- ↑ Metz, Cade. «OpenAI Unveils New ChatGPT That Can Reason Through Math and Science» (en anglès). The New York Times, 12-09-2024. [Consulta: 12 setembre 2024].
- ↑ 2,0 2,1 Tong, Anna. «Exclusive: OpenAI working on new reasoning technology under code name 'Strawberry'» (en anglès). Reuters, 15-07-2024. [Consulta: 12 setembre 2024].
- ↑ Metz, Cade. «OpenAI Unveils New ChatGPT That Can Reason Through Math and Science». The New York Times, 12-09-2024. [Consulta: 12 setembre 2024].
- ↑ Peters, Jay. «GitHub has started testing OpenAI's o1-preview in GitHub Copilot.» (en anglès). The Verge, 12-09-2024. [Consulta: 12 setembre 2024].
- ↑ Robison, Kylie. «OpenAI releases o1, its first model with ‘reasoning’ abilities» (en anglès). The Verge, 12-09-2024. [Consulta: 15 setembre 2024].
- ↑ Robison, Kylie. «OpenAI releases o1, its first model with ‘reasoning’ abilities» (en anglès). The Verge, 12-09-2024. [Consulta: 15 setembre 2024].
- ↑ Metz, Cade. «OpenAI Unveils New ChatGPT That Can Reason Through Math and Science» (en anglès). The New York Times, 12-09-2024. [Consulta: 12 setembre 2024].
- ↑ «Learning to Reason with LLMs» (en anglès). OpenAI. Arxivat de l'original el September 12, 2024. [Consulta: 13 setembre 2024].
- ↑ «OpenAI o1-mini» (en anglès). OpenAI, 12-09-2024.
- ↑ Coombes, Lloyd. «OpenAI's new ChatGPT o1 model 'cheated' on an impossible test — here's what happened» (en anglès). Tom's Guide, 13-09-2024. [Consulta: 15 setembre 2024].
- ↑ «OpenAI o1 System Card» (en anglès). OpenAI p. 16-17, 12-09-2024.