Naukowcy Google prezentują Genie - sztuczną inteligencję, która wie, jak tworzyć sceny mini-gier na podstawie przykładowych obrazów
Naukowcy z Google DeepMind zaprezentowali Genie, pierwszą na świecie generatywną interaktywną sztuczną inteligencję środowiskową. Sztuczna inteligencja może stworzyć grywalną scenę po obejrzeniu obrazu przykładowej gry. Otwiera to drzwi dla graczy do tworzenia grywalnych gier bez programowania.
Genie jest szkolony w zakresie rozgrywki w platformówkach 2D, oglądając 30 000 godzin filmów (6,8 miliona 16-sekundowych klipów). Sztuczna inteligencja upraszcza to, co widzi, reprezentując obrazy wideo i działania, które widzi, jako zestawy liczb, podobnie jak człowiek używający słów do opisania sceny gry.
Po przeszkoleniu, pojedynczy przykład sceny z gry jest wszystkim, czego Genie potrzebuje do stworzenia grywalnej mini-sceny. Za kulisami sztuczna inteligencja może rozszerzyć obraz początkowy przy użyciu wyrafinowanych metod generowania brakujących części obrazu, dzięki czemu Genie może rysować nowe części świata gry, gdy gracz porusza się do przodu. Robi to, odnosząc się do milionów klipów, które widział, dając postaci grywalne akcje, takie jak bieganie lub skakanie.
Co ważne, Genie uczy się akcji poprzez obserwowanie rozgrywki, a nie poprzez wskazywanie ich przez ludzi. Kiedy więc w grze pojawia się most z przepaścią, sztuczna inteligencja wie na podstawie tego, co widziała, że postać prawdopodobnie będzie musiała przeskoczyć nad przepaścią i robi to, gdy ludzki gracz naciśnie przycisk w górę na kontrolerze.
Wszystko to wymaga ogromnej mocy obliczeniowej do treningu (tysiące teraflopów w ciągu tygodni na komputerach z setkami chipów) i rozgrywki, którą może wykonywać tylko z bardzo powolną prędkością 1 klatki na sekundę.
Dla technicznie zorientowanych, klatki wideo i wywnioskowane ukryte działania są tokenizowane przy użyciu van den Oord's VQ-VAE. Określone przez użytkownika ukryte akcje wraz z tokenizowanymi klatkami wideo są wprowadzane do modelu dynamiki przy użyciu transformatora MaskGIT Changa aby wygenerować iteracyjne tokeny klatek, które są używane do generowania wyjściowych filmów wideo z wykorzystaniem Gupta's MaskViT. Transformatory ST przejęte od Xu są używane przez cały czas, aby uwzględnić uwagę czasową oprócz przestrzennej, aby poprawić przewidywania, a także zmniejszyć wymagania dotyczące pamięci.
Tak więc, dopóki nie nadejdzie dzień, w którym komputery będą wystarczająco potężne, aby tworzyć platformówki 2D całkowicie samodzielnie, proszę cieszyć się klasycznymi platformówkami za pomocą przenośnej konsoli do gier(takiej jak ta w Amazon).