Sora (model de text a vídeo)

De la Viquipèdia, l'enciclopèdia lliure
Sora

TipusIntel·ligència artificial
Versió inicial15 febrer 2024 Modifica el valor a Wikidata
Epònimcel Modifica el valor a Wikidata
Equip
Creador/sOpenAI Modifica el valor a Wikidata
Desenvolupador(s)OpenAI Modifica el valor a Wikidata
Més informació
Lloc webopenai.com… (anglès) Modifica el valor a Wikidata
Id. SubredditSORA Modifica el valor a Wikidata

Sora és un model de text a vídeo de l'organització de recerca d'intel·ligència artificial (IA) dels Estats Units OpenAI. Pot generar vídeos basats en indicacions descriptives breus, així com ampliar els vídeos existents cap endavant o cap enrere en el temps.[1]

Història[modifica]

Abans del llançament de Sora, s'havien creat diversos altres models de generació de text a vídeo menys realistes, com ara Make-A-Video de Meta, Runway de Gen-2 i Lumiere de Google, l'últim dels quals, es troba en la seva fase de recerca.[2][3] OpenAI, l'empresa darrere de Sora, havia llançat DALL-E 3, el tercer dels seus models de text a imatge DALL-E, el setembre de 2023.[4]

Un vídeo generat a partir d'un missatge de text utilitzant Sora d'OpenAI. El missatge és el següent: Diversos mamuts llanosos gegants s'acosten trepitjant un prat nevat, el seu llarg pelatge de llana bufa lleugerament pel vent mentre caminen, arbres coberts de neu i muntanyes nevades espectaculars a la distància, llum de mitja tarda amb núvols febles i un sol alt a la distància crea un resplendor càlid, la vista de la cambra baixa és impressionant capturant el gran mamífer pelut amb una fotografia bella, profunditat de camp.

L'equip que va desenvolupar Sora el va anomenar amb la paraula japonesa cel per significar el seu "potencial creatiu il·limitat". El 15 de febrer de 2024, OpenAI va previsualitzar Sora per primera vegada llançant diversos clips de vídeos d'alta definició que va crear, inclòs un SUV conduint per una carretera de muntanya, una animació d'un "monstre curt i esponjós" al costat d'una espelma, dues persones caminant. Tòquio a la neu i imatges històriques falses de la febre de l'or de Califòrnia, i va declarar que era capaç de generar vídeos de fins a un minut de durada.[5][6] Llavors, l'empresa va compartir un informe tècnic, que destacava els mètodes utilitzats per entrenar el model.[7] Es necessita una font no principal ] El CEO d'OpenAI, Sam Altman, també va publicar una sèrie de tuits, responent a les indicacions dels usuaris de Twitter amb vídeos generats per Sora.

OpenAI ha afirmat que té previst posar Sora a disposició del públic però que no ho serà aviat; no ha especificat quan.[8][9] L'empresa va proporcionar un accés limitat a un petit " equip vermell ", inclosos experts en informació errònia i biaix, per realitzar proves adverses sobre el model.[10] La companyia també va compartir Sora amb un grup reduït de professionals creatius, inclosos creadors de vídeos i artistes, per buscar comentaris sobre la seva utilitat en camps creatius.[11]

Submergeix-te al món de Sora, la IA transformadora d'OpenAI, mitjançant la nostra demostració del seu poder per convertir les indicacions de text en vídeos rics. Observa l'evolució de la creació de contingut i desbloqueja el potencial il·limitat amb la tecnologia avançada de Sora. Més informació: {{format ref}} https://retrofuturista.com/openai-sora/ Avís: una dona elegant camina per un carrer de Tòquio ple de neó brillant i càlid i senyalització animada de la ciutat. Porta una jaqueta de cuir negre, un vestit vermell llarg i botes negres, i porta una bossa negra. Porta ulleres de sol i pintallavis vermell. Ella camina amb confiança i casualitat. El carrer és humit i reflectant, creant un efecte mirall de les llums de colors. Molts vianants passegen.

Capacitats i limitacions[modifica]

La tecnologia de Sora és una adaptació de la tecnologia de DALL-E 3.[12] Segons OpenAI, Sora és una difusió de denoising a l'espai latent amb un Transformer com a eliminador de soroll. Un vídeo es genera a l'espai latent eliminant "pegats" 3D, i després es transforma a un espai estàndard mitjançant un descompressor de vídeo. Els subtítols s'utilitzen durant l'entrenament per crear bons subtítols en vídeos que no tenen bons subtítols.[13]

OpenAI va entrenar el model utilitzant vídeos disponibles públicament, així com vídeos amb drets d'autor amb llicència per a aquest propòsit, però no va revelar el nombre ni la font exacta dels vídeos. En el seu llançament, OpenAI va reconèixer algunes de les mancances de Sora, inclosa la seva lluita per simular la física complexa, per entendre la causalitat i per diferenciar l'esquerra de la dreta. OpenAI també va declarar que, d'acord amb les pràctiques de seguretat existents de l'empresa, Sora restringirà les sol·licituds de text per a imatges sexuals, violentes, d'odi o de celebritats, així com el contingut amb propietat intel·lectual preexistent.[14] Tim Brooks, investigador de Sora, va declarar que el model va descobrir com crear gràfics en 3D només a partir del seu conjunt de dades, mentre que Bill Peebles, també investigador de Sora, va dir que el model creava automàticament diferents angles de vídeo sense que se'ls demani.[15] Segons OpenAI, els vídeos generats per Sora estan etiquetats amb metadades C2PA per indicar que s'han generat per IA.

Recepció[modifica]

Will Douglas Heaven, de la MIT Technology Review, va qualificar els vídeos de demostració d'"impressionants", però va assenyalar que havien d'haver estat escollits amb la cirera i potser no són representatius de la producció típica de Sora.[16] L'acadèmic nord-americà Oren Etzioni va expressar la seva preocupació per la capacitat de la tecnologia per crear desinformació en línia per a campanyes polítiques. Per a Wired, Steven Levy va escriure de manera similar que tenia el potencial de convertir-se en "un xoc del tren de desinformació" i va opinar que els seus clips de previsualització eren "impressionants" però "no perfectes" i que "mostraven una comprensió emergent de la gramàtica cinematogràfica". a causa dels seus canvis de trets no sol·licitats. Levy va afegir: "Passarà molt de temps, si mai, abans que el text a vídeo amenaci la realització de cinema real".[17] Lisa Lacy de CNET va qualificar els seus vídeos d'exemple "notablement realistes, excepte potser quan un rostre humà apareix de prop o quan les criatures marines estan nedant".[18]

Referències[modifica]

  1. «Video generation models as world simulators» (en anglès). OpenAI, 15-02-2024. [Consulta: 16 febrer 2024].
  2. Mauran, Cecily. «OpenAI announces Sora, a wild AI text-to-video model. See it in action.» (en anglès). Mashable, February 15, 2024. [Consulta: February 16, 2024].
  3. Levy, Steven. «OpenAI's Sora Turns AI Prompts Into Photorealistic Videos» (en anglès). Wired, February 15, 2024. [Consulta: February 16, 2024].
  4. Lacy, Lisa. «Meet Sora, OpenAI's Text-to-Video Generator» (en anglès). CNET, February 15, 2024. [Consulta: February 16, 2024].
  5. Levy, Steven. «OpenAI's Sora Turns AI Prompts Into Photorealistic Videos» (en anglès). Wired, February 15, 2024. [Consulta: February 16, 2024].
  6. Mauran, Cecily. «OpenAI announces Sora, a wild AI text-to-video model. See it in action.» (en anglès). Mashable, February 15, 2024. [Consulta: February 16, 2024].
  7. Brooks, Tim. «Video generation models as world simulators» (en anglès). Openai.com. OpenAI, February 15, 2024.
  8. Levy, Steven. «OpenAI's Sora Turns AI Prompts Into Photorealistic Videos» (en anglès). Wired, February 15, 2024. [Consulta: February 16, 2024].
  9. Yang, Angela. «OpenAI teases 'Sora,' its new text-to-video AI model» (en anglès). NBC News, February 15, 2024. [Consulta: February 16, 2024].
  10. Lacy, Lisa. «Meet Sora, OpenAI's Text-to-Video Generator» (en anglès). CNET, February 15, 2024. [Consulta: February 16, 2024].
  11. Brooks, Tim. «Video generation models as world simulators» (en anglès). Openai.com. OpenAI, February 15, 2024.
  12. Brooks, Tim. «Video generation models as world simulators» (en anglès). Openai.com. OpenAI, February 15, 2024.
  13. «Video generation models as world simulators» (en anglès). OpenAI, 15-02-2024. [Consulta: 16 febrer 2024].
  14. Lacy, Lisa. «Meet Sora, OpenAI's Text-to-Video Generator» (en anglès). CNET, February 15, 2024. [Consulta: February 16, 2024].
  15. Levy, Steven. «OpenAI's Sora Turns AI Prompts Into Photorealistic Videos» (en anglès). Wired, February 15, 2024. [Consulta: February 16, 2024].
  16. Brooks, Tim. «Video generation models as world simulators» (en anglès). Openai.com. OpenAI, February 15, 2024.
  17. Levy, Steven. «OpenAI's Sora Turns AI Prompts Into Photorealistic Videos» (en anglès). Wired, February 15, 2024. [Consulta: February 16, 2024].
  18. Lacy, Lisa. «Meet Sora, OpenAI's Text-to-Video Generator» (en anglès). CNET, February 15, 2024. [Consulta: February 16, 2024].