Notebookcheck Logo

Air Head creators say OpenAI's Sora finicky to work with, needs hundreds of prompts, serious VFX work for under 2 minutes of cohesive story

Shy Kids stworzyło Air Head we współpracy z modelem generowania wideo Sora firmy OpenAI. (Źródło obrazu: Shy Kids na YouTube)
Shy Kids stworzyło Air Head we współpracy z modelem generowania wideo Sora firmy OpenAI. (Źródło obrazu: Shy Kids na YouTube)
Firma OpenAI zaprezentowała niedawno imponujące demo stworzone przez dom produkcyjny Shy Kids przy użyciu generatora wideo Sora. Jak się okazuje, Shy Kids włożyło niesamowitą ilość pracy w postprodukcję Air Head, pomimo zapewnień OpenAI, że Sora sprawia, że produkcja wideo jest łatwa.
AI Fail Software

Kiedy OpenAI ogłosiło Sora, swój generator wideo AI, jednym z filmów, które zostały wykorzystane do zademonstrowania jego możliwości, jest film krótkometrażowy Shy Kids zatytułowany Air Head. Podczas gdy wideo było początkowo reklamowane jako imponująca prezentacja modelu OpenAI, niedawny wywiad FX Guide z Shy Kids z Shy Kids ujawnia, że w film włożono znacznie więcej pracy, niż wielu sądziło.

Chociaż to, co potrafi Sora, jest z pewnością imponujące i było prawie niemożliwe do zrobienia zaledwie rok lub dwa lata temu, zespół Shy Kids nadal potrzebował prawie dwóch tygodni, aby stworzyć Air Head - głównie z powodu ograniczeń sztucznej inteligencji. Jedną z największych przeszkód, jakie Shy Kids napotkało w przypadku Sory, był brak spójności, co zmusiło zespół produkcyjny do zastosowania niekonwencjonalnej metody montażu, podobnie jak w przypadku tworzenia filmu found footage lub dokumentu.

To było po prostu zebranie całej masy ujęć i próba pocięcia ich w interesujący dla VO sposób. - Patrick Cederberg, postprodukcja w Air Head

Shy Kids twierdzi, że miało scenariusz filmu, ale zespół musiał być płynny i dostosowywać się do różnorodnych efektów generowanych przez Sorę. Shy Kids miało również trudności z utrzymaniem spójności między ujęciami, ponieważ Sora często generowała inny rodzaj głowy na balonie. Ogólnie rzecz biorąc, Cederberg twierdzi, że potrzeba było "setek pokoleń", aby uzyskać niecałe półtorej minuty zmontowanego materiału wideo. Szacuje również, że stosunek materiału źródłowego do ostatecznej zawartości wynosił 300:1, co oznacza, że Shy Kids wykorzystało tylko około 0,33% wideo wygenerowanego przez Sorę w ostatecznej edycji.

Moja matematyka jest kiepska, ale zgaduję, że prawdopodobnie 300:1 pod względem ilości materiału źródłowego do tego, co trafiło do finału.

Praca z Sorą oznaczała jednak coś więcej niż tylko generowanie setek klipów. Zespół musiał również ręcznie wykonać wszystkie zwykłe zadania, takie jak korekcja kolorów, retiming, a nawet VFX, aby usunąć niechciane elementy z kadru. W jednym z wygenerowanych klipów Sora wyświetliła balon z twarzą nadrukowaną z przodu, a w innych balon miał różne kolory lub miał niechciany sznurek zwisający z dołu - wszystko to musiało zostać usunięte.

Bardziej zaawansowane zastosowania VFX sprawiły, że zespół Shy Kids usunął całą głowę, która została wygenerowana na Sonny'ego, głównego bohatera, zamiast balonu. Takie rzeczy zostały usunięte w programie Adobe After Effects(który kosztuje 34,99 USD miesięcznie i jest dostępny na Amazon) w celu uzyskania ostatecznego produktu.

Chociaż Sora i generatywna sztuczna inteligencja wideo przeszły długą drogę, wydaje się, że daleko im do zastąpienia artystów za kulisami - zwłaszcza jeśli tworzone treści mają być spójne lub dłuższe niż kilka sekund. Prawdopodobnie wyjaśnia to również, dlaczego, z wyjątkiem dwóch, wszystkie "nieedytowane" klipy, które OpenAI opublikowało na swojej stronie S ora, są rzędu 20 sekund lub mniej.

Please share our article, every link counts!
> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2024 04 > Sora OpenAI jest trudna w obsłudze, wymaga setek podpowiedzi, poważnej pracy VFX, aby uzyskać mniej niż 2 minuty spójnej historii
Julian van der Merwe, 2024-04-27 (Update: 2024-08-15)