Naukowcy Adobe demonstrują postępy w zakresie sztucznej inteligencji VideoGigaGAN w celu skalowania filmów o niskiej jakości przy jednoczesnym zachowaniu wysokiego poziomu szczegółowości
Badacze Adobe zademonstrowali obecne postępy swojej sztucznej inteligencji VideoGigaGAN w zakresie skalowania filmów o niskiej jakości. Po pełnym rozwinięciu, sztuczna inteligencja może generować wysokiej jakości filmy bez uciekania się do kosztownych przeróbek. Adobe ulepsza wcześniejsze prace, redukując artefakty i migotanie, zachowując jednocześnie drobne szczegóły w przetwarzanych filmach.
Technologia skalowania obrazu i superrozdzielczości jest wykorzystywana od wielu lat w celu poprawy jakości i rozdzielczości zdjęć niskiej jakości. Niektóre aparaty Sony Cyber-shot wykorzystują technologię By Pixel Super Resolution do skalowania obrazów o niskiej rozdzielczości przy użyciu bazy danych referencyjnych danych obrazu, ale jest ograniczona przez dyskretne informacje o pikselach do skalowania obrazów od dwóch do trzech razy w stosunku do oryginalnego rozmiaru. Ostatnio, Generative Adversarial Networks (GAN) (GAN) wyszkolone na miliardach obrazów mogą skalować obrazy 8x i więcej.
Zastosowanie takich technik do filmów jest trudne ze względu na wprowadzenie aliasingu i zacinania. Wygładzanie szczegółów obrazu może wyeliminować te problemy, ale wiąże się z gorszą jakością. VideoGigaGAN wykorzystuje kilka technik, aby obejść te ograniczenia, w tym śledzenie ruchu obiektów, rozmycie obrazu oraz uczenie się i odmalowywanie szczegółów. Mimo to sztuczna inteligencja nie skaluje dobrze małego tekstu lub długich klipów wideo, więc potrzebne są dalsze badania. W międzyczasie czytelnicy mogą nagrywać wysokiej jakości filmy za pomocą wysokiej klasy lustrzanki cyfrowej(takiej jak ta w Amazon), aby uniknąć niepotrzebnego skalowania.
Szczegóły techniczne
Aby utrzymać płynny przepływ wideo między klatkami w czasie, przed główną siecią GAN dodawany jest moduł sztucznej inteligencji sterowany przepływem. Moduł ten "uczy się" ruchu obiektów w czasie w oryginalnym materiale wejściowym, dzięki czemu ten sam płynny ruch jest stosowany w przeskalowanym wideo. Ponadto, warstwy upsamplingu w GAN zawierają warstwy uwagi czasowej, które pomagają utrzymać płynne przejścia między klatkami.
Aby poradzić sobie z aliasingiem, klatki są przepychane przez blok antyaliasingu w środku GAN, co niestety obniża jakość obrazu z powodu rozmycia szczegółów. Skutkuje to przeskalowaniem wideo z płynnym ruchem, bez aliasingu, ale z miękkimi szczegółami obrazu. VideoGigaGAN radzi sobie z tym poprzez wprowadzenie wahadłowca o wysokiej częstotliwości, który wyciąga drobne szczegóły z początkowych warstw downsamplingu GAN i stosuje je później do warstw upsamplowanych. Rezultatem wielowarstwowego przetwarzania obrazu jest wideo w super rozdzielczości, które zawiera wysoki poziom szczegółowości bez aliasingu i migotania.