Google prezentuje generatywną sztuczną inteligencję Lumiere do tworzenia bardziej realistycznych obrazów i filmów z tekstu

Google prezentuje Lumiere - najnowszą generatywną sztuczną inteligencję, która tworzy realistyczne klipy wideo z tekstu. (Źródło: Google Research)

Firma Google zaprezentowała Lumiere - najnowsze rozwiązanie do realistycznego generowania tekstu na obraz i tekstu na wideo przy użyciu uczenia maszynowego. Kluczową innowacją jest możliwość tworzenia realistycznego ruchu, takiego jak chodzenie, z którym obecne generatywne SI mają trudności. Oprogramowanie robi to, tworząc wszystkie klatki wideo jednocześnie, zamiast używać klatek kluczowych i treningu, aby dowiedzieć się, jak powinny wyglądać poruszające się obiekty.

David Chien (tłumaczenie Ninh Duy), Opublikowany 31/01/2024 🇺🇸 🇩🇪 ...

Google zaprezentowało Lumiere, najnowocześniejsze rozwiązanie w zakresie realistycznego generowania tekstu na obraz i wideo. Oprogramowanie znacznie poprawia ruch, wykorzystując nowatorskie podejście do generowania klatek wideo, które tworzy wszystkie klatki w jednym przejściu, aby złagodzić błędy ruchu.

Generatywna sztuczna inteligencja obrazu tworzy obrazy z tekstu. Jednym z kluczy umożliwiających to jest ogromna ilość obrazów i filmów online dostępnych do treningu. Innym jest opracowanie metod kojarzenia ze sobą wszystkich słów w języku za pomocą wektorów. Dlatego sztuczna inteligencja może zrozumieć, że para słów lub w zdaniu "jestem" jest bardziej prawdopodobna niż "jednostronnie". Sztuczna inteligencja tworząca obrazy, taka jak Stable Diffusion, kojarzy słowa z obrazami obiektów. Taka sztuczna inteligencja rozumie, że słowa "rezydencja królewska" są ściślej powiązane z obrazem "zamku" niż z obrazem "domu".

Generatywna sztuczna inteligencja wideo rozszerza sztuczną inteligencję obrazu, aby tworzyć filmy z tekstu. Konkurenci Lumiere najpierw tworzą klatki kluczowe, a następnie klatki pomiędzy nimi. Przypomina to sytuację, w której mistrz animacji rysuje początkowy i końcowy obraz rzutu do kosza, a następnie zleca asystentowi narysowanie obrazów pomiędzy nimi. Problem polega na tym, że często pojawiają się błędy ruchu, ponieważ obrazy pomiędzy nimi nie są rysowane poprawnie, więc Lumiere omija ten problem, tworząc wszystkie klatki wideo bez klatek kluczowych. Ponadto, Lumiere jest przeszkolony w zakresie tego, jak wyglądają poruszające się obiekty przy różnych rozmiarach obrazu, dzięki czemu jego filmy wyglądają lepiej.

Z technicznego punktu widzenia Lumiere wykorzystuje dyfuzyjne modele probabilistyczne do generowania obrazów w połączeniu z przestrzenno-czasową siecią U-Net, architekturą sieci U-net z czasowym skalowaniem w górę i w dół oraz blokami uwagi dodanymi do zwykłego skalowania rozdzielczości obrazu. Skalowanie w dół jednocześnie z rozdzielczością znacznie zmniejsza obciążenie obliczeniowe, podczas gdy skalowanie w górę w połączeniu z czasowo świadomym, przestrzennym modelem superrozdzielczości generuje wynik o wysokiej rozdzielczości. Mimo to segmentacja klatek obrazu jest wymagana ze względu na ograniczenia pamięci, więc Multidiffusion jest używany na nakładających się granicach segmentów klatek, aby pomóc złagodzić czasowe artefakty ruchu.

Lumiere można połączyć z innymi sztucznymi inteligencjami, aby uzyskać szerszy zakres wyników. Obejmuje to:

Cinemagraphs - jedna sekcja obrazu jest animowana
Inpainting - jeden obiekt w filmie jest zastępowany innym
Stylizowane generowanie - wygląd jest odtwarzany w innym stylu artystycznym
Obraz-wideo - żądany obraz jest animowany
Video-to-video - filmy są odtwarzane w innym stylu artystycznym

Długość wideo jest ograniczona do 5 sekund, a możliwość tworzenia przejść wideo i wielu kątów kamery nie istnieje. Czytelnicy zainteresowani eksperymentowaniem z generatywną sztuczną inteligencją na swoich komputerach stacjonarnych powinni uaktualnić do potężnej karty graficznej(takiej jak ta w Amazon), aby uzyskać najlepszą wydajność podczas treningu.

Lumiere może tworzyć obrazy i filmy z tekstu, stylizowane na inną sztukę, a nawet zastępować obiekty. (Źródło: Google Research)

Lumiere może animować część obrazu, a dane wyjściowe można łatwo wprowadzić do innej sztucznej inteligencji. (Źródło: Google Research)

▶ load Youtube video

Źródło(a)

Badania Google - Lumiere, Inbar Mosseri na YouTube

Powiązane artykuły

Kilka decyzji projektowych przyczynia się do stosunkowo dużych ramek Pixel Fold. (Źródło obrazu: Notebookcheck)

Google Pixel Fold 2 podobno przeskoczy na Tensor G4 SoC z prawdopodobną premierą jesienią 2024 roku wraz z Pixel 9, Pixel 9 Pro i Pixel Watch 3 07/02/2024

Zegarki Google Pixel otrzymają aktualizację z lutego 2024 roku. (Źródło zdjęcia: Google)

Google Pixel Watch otrzyma aktualizację z lutego 2024 r 07/02/2024

"Bard" może wkrótce stać się "Gemini" (źródło obrazu: Google Blog)

Google zmieni nazwę Bard na "Gemini" i wyda aplikację 05/02/2024

Obraz "steampunkowej mody" stworzony przez Barda. (Źródło: Google)

Aktualizacje Google Bard do generowania obrazów i czatu w większej liczbie języków 03/02/2024

Pixel 8 Pro w nowej opcji kolorystycznej "Mint". (Źródło zdjęcia: Google)

Google wypuszcza nowe opcje kolorystyczne Pixel 8 i Pixel 8 Pro z bonusami premierowymi 26/01/2024

Pixel 8 Pro otrzymał kilka nowych funkcji w ramach tegorocznej edycji Pixel Feature Drop. (Źródło obrazu: Notebookcheck)

W styczniu 2024 r. Pixel Feature Drop pojawi się na smartfonach Google Pixel 5a i Pixel 6, a zmiany obejmą również smartwatche Pixel Watch i Pixel Watch 2 26/01/2024

Spadek funkcji Pixel umożliwia Google Pixel 8 Pro odczytywanie temperatury ciała (źródło obrazu: Google)

Google Pixel 8 Pro wreszcie ma możliwość odczytywania temperatury ciała 25/01/2024

Pixel Watch 2 jest jednym z niewielu smartwatchy z waniliowym systemem Wear OS 4 po wyjęciu z pudełka. (Źródło obrazu: Notebookcheck)

Google i Samsung podobno opracowują Wear OS 5 w oparciu o Android dla Galaxy Watch7, Pixel Watch 3 i innych smartwatchy 25/01/2024

Pixel 9 może być pierwszym mniejszym flagowcem Google z trzema kamerami skierowanymi do tyłu. (Źródło zdjęcia: @OnLeaks)

Google Pixel 9 ujawniony z elementami designu Apple iPhone, peryskopową kamerą z zoomem i możliwym czujnikiem temperatury 25/01/2024

Nowy moduł aparatu Pixel 9 Pro lepiej pasuje do etui ochronnych. (Zdjęcie: Gizmochina)

Google Pixel 9 Pro: Etui ochronne podkreśla zupełnie nowy design flagowca Google 25/01/2024

Pixel 7a jest ograniczony do ładowania 18 W. (Źródło: Google)

Wyciekłe opakowanie Google Pixel 8a potwierdza design i ulepszone ładowanie 24/01/2024

AYANEO FLIP to pierwszy gamingowy h...

2K potwierdza, dlaczego Spec Ops: T...

Editor of the original article: David Chien - Tech Writer - 525 articles published on Notebookcheck since 2023

Translator: Ninh Ngoc Duy - Editorial Assistant - 521685 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2024 01 > Google prezentuje generatywną sztuczną inteligencję Lumiere do tworzenia bardziej realistycznych obrazów i filmów z tekstu

David Chien, 2024-01-31 (Update: 2024-08-15)