Sora (model de text a vídeo)
Tipus | Intel·ligència artificial |
---|---|
Versió inicial | 15 febrer 2024 |
Epònim | cel |
Equip | |
Creador/s | OpenAI |
Desenvolupador(s) | OpenAI |
Més informació | |
Lloc web | openai.com… (anglès) |
Id. Subreddit | SORA |
| |
Sora és un model de text a vídeo de l'organització de recerca d'intel·ligència artificial (IA) dels Estats Units OpenAI. Pot generar vídeos basats en indicacions descriptives breus, així com ampliar els vídeos existents cap endavant o cap enrere en el temps.[1]
Història
[modifica]Abans del llançament de Sora, s'havien creat diversos altres models de generació de text a vídeo menys realistes, com ara Make-A-Video de Meta, Runway de Gen-2 i Lumiere de Google, l'últim dels quals, es troba en la seva fase de recerca.[2][3] OpenAI, l'empresa darrere de Sora, havia llançat DALL-E 3, el tercer dels seus models de text a imatge DALL-E, el setembre de 2023.[4]
L'equip que va desenvolupar Sora el va anomenar amb la paraula japonesa cel per significar el seu "potencial creatiu il·limitat". El 15 de febrer de 2024, OpenAI va previsualitzar Sora per primera vegada llançant diversos clips de vídeos d'alta definició que va crear, inclòs un SUV conduint per una carretera de muntanya, una animació d'un "monstre curt i esponjós" al costat d'una espelma, dues persones caminant. Tòquio a la neu i imatges històriques falses de la febre de l'or de Califòrnia, i va declarar que era capaç de generar vídeos de fins a un minut de durada.[5][6] Llavors, l'empresa va compartir un informe tècnic, que destacava els mètodes utilitzats per entrenar el model.[7] Es necessita una font no principal ] El CEO d'OpenAI, Sam Altman, també va publicar una sèrie de tuits, responent a les indicacions dels usuaris de Twitter amb vídeos generats per Sora.
OpenAI ha afirmat que té previst posar Sora a disposició del públic però que no ho serà aviat; no ha especificat quan.[8][9] L'empresa va proporcionar un accés limitat a un petit " equip vermell ", inclosos experts en informació errònia i biaix, per realitzar proves adverses sobre el model.[10] La companyia també va compartir Sora amb un grup reduït de professionals creatius, inclosos creadors de vídeos i artistes, per buscar comentaris sobre la seva utilitat en camps creatius.[11]
Capacitats i limitacions
[modifica]La tecnologia de Sora és una adaptació de la tecnologia de DALL-E 3.[12] Segons OpenAI, Sora és una difusió de denoising a l'espai latent amb un Transformer com a eliminador de soroll. Un vídeo es genera a l'espai latent eliminant "pegats" 3D, i després es transforma a un espai estàndard mitjançant un descompressor de vídeo. Els subtítols s'utilitzen durant l'entrenament per crear bons subtítols en vídeos que no tenen bons subtítols.[13]
OpenAI va entrenar el model utilitzant vídeos disponibles públicament, així com vídeos amb drets d'autor amb llicència per a aquest propòsit, però no va revelar el nombre ni la font exacta dels vídeos. En el seu llançament, OpenAI va reconèixer algunes de les mancances de Sora, inclosa la seva lluita per simular la física complexa, per entendre la causalitat i per diferenciar l'esquerra de la dreta. OpenAI també va declarar que, d'acord amb les pràctiques de seguretat existents de l'empresa, Sora restringirà les sol·licituds de text per a imatges sexuals, violentes, d'odi o de celebritats, així com el contingut amb propietat intel·lectual preexistent.[14] Tim Brooks, investigador de Sora, va declarar que el model va descobrir com crear gràfics en 3D només a partir del seu conjunt de dades, mentre que Bill Peebles, també investigador de Sora, va dir que el model creava automàticament diferents angles de vídeo sense que se'ls demani.[15] Segons OpenAI, els vídeos generats per Sora estan etiquetats amb metadades C2PA per indicar que s'han generat per IA.
Recepció
[modifica]Will Douglas Heaven, de la MIT Technology Review, va qualificar els vídeos de demostració d'"impressionants", però va assenyalar que havien d'haver estat escollits amb la cirera i potser no són representatius de la producció típica de Sora.[16] L'acadèmic nord-americà Oren Etzioni va expressar la seva preocupació per la capacitat de la tecnologia per crear desinformació en línia per a campanyes polítiques. Per a Wired, Steven Levy va escriure de manera similar que tenia el potencial de convertir-se en "un xoc del tren de desinformació" i va opinar que els seus clips de previsualització eren "impressionants" però "no perfectes" i que "mostraven una comprensió emergent de la gramàtica cinematogràfica". a causa dels seus canvis de trets no sol·licitats. Levy va afegir: "Passarà molt de temps, si mai, abans que el text a vídeo amenaci la realització de cinema real".[17] Lisa Lacy de CNET va qualificar els seus vídeos d'exemple "notablement realistes, excepte potser quan un rostre humà apareix de prop o quan les criatures marines estan nedant".[18]
Referències
[modifica]- ↑ «Video generation models as world simulators» (en anglès). OpenAI, 15-02-2024. [Consulta: 16 febrer 2024].
- ↑ Mauran, Cecily. «OpenAI announces Sora, a wild AI text-to-video model. See it in action.» (en anglès). Mashable, 15-02-2024. [Consulta: 16 febrer 2024].
- ↑ Levy, Steven. «OpenAI's Sora Turns AI Prompts Into Photorealistic Videos» (en anglès). Wired, 15-02-2024. [Consulta: 16 febrer 2024].
- ↑ Lacy, Lisa. «Meet Sora, OpenAI's Text-to-Video Generator» (en anglès). CNET, 15-02-2024. [Consulta: 16 febrer 2024].
- ↑ Levy, Steven. «OpenAI's Sora Turns AI Prompts Into Photorealistic Videos» (en anglès). Wired, 15-02-2024. [Consulta: 16 febrer 2024].
- ↑ Mauran, Cecily. «OpenAI announces Sora, a wild AI text-to-video model. See it in action.» (en anglès). Mashable, 15-02-2024. [Consulta: 16 febrer 2024].
- ↑ Brooks, Tim. «Video generation models as world simulators» (en anglès). Openai.com. OpenAI, 15-02-2024.
- ↑ Levy, Steven. «OpenAI's Sora Turns AI Prompts Into Photorealistic Videos» (en anglès). Wired, 15-02-2024. [Consulta: 16 febrer 2024].
- ↑ Yang, Angela. «OpenAI teases 'Sora,' its new text-to-video AI model» (en anglès). NBC News, 15-02-2024. [Consulta: 16 febrer 2024].
- ↑ Lacy, Lisa. «Meet Sora, OpenAI's Text-to-Video Generator» (en anglès). CNET, 15-02-2024. [Consulta: 16 febrer 2024].
- ↑ Brooks, Tim. «Video generation models as world simulators» (en anglès). Openai.com. OpenAI, 15-02-2024.
- ↑ Brooks, Tim. «Video generation models as world simulators» (en anglès). Openai.com. OpenAI, 15-02-2024.
- ↑ «Video generation models as world simulators» (en anglès). OpenAI, 15-02-2024. [Consulta: 16 febrer 2024].
- ↑ Lacy, Lisa. «Meet Sora, OpenAI's Text-to-Video Generator» (en anglès). CNET, 15-02-2024. [Consulta: 16 febrer 2024].
- ↑ Levy, Steven. «OpenAI's Sora Turns AI Prompts Into Photorealistic Videos» (en anglès). Wired, 15-02-2024. [Consulta: 16 febrer 2024].
- ↑ Brooks, Tim. «Video generation models as world simulators» (en anglès). Openai.com. OpenAI, 15-02-2024.
- ↑ Levy, Steven. «OpenAI's Sora Turns AI Prompts Into Photorealistic Videos» (en anglès). Wired, 15-02-2024. [Consulta: 16 febrer 2024].
- ↑ Lacy, Lisa. «Meet Sora, OpenAI's Text-to-Video Generator» (en anglès). CNET, 15-02-2024. [Consulta: 16 febrer 2024].