Narzędzie sztucznej inteligencji DiffUHaul firmy Nvidia może przesuwać obiekty na obrazach
Naukowcy z firmy Nvidia opublikowali na stronie artykuł na temat nowego narzędzia sztucznej inteligencji, DiffUHaul, które może rozumieć i przenosić obiekty na obrazie bez zmiany rozmiaru lub tła. W artykule stwierdzono, że narzędzie "wykorzystuje przestrzenne zrozumienie zlokalizowanego modelu tekst-obraz do zadania przeciągania obiektów"
Obecne modele tekstowo-obrazowe zmagają się ze złożonymi zadaniami edycji obrazu, ponieważ brakuje im "rozumowania przestrzennego" DiffuHaul rozwiązuje ten problem, wprowadzając to do modelu, pozwalając mu śledzić obiekty na obrazie, "płynnie" przenosząc je bez zmiany czegokolwiek innego.
Aby to osiągnąć, narzędzie maskuje obiekt podczas etapów odszumiania, pomagając mu zrozumieć jego lokalizację i oddzielić go od tła. Następnie interpoluje różnicę między oryginalnym a wygenerowanym obrazem, aby umieścić obiekt w nowej pozycji bez dotykania tła. Następnie drobniejsze szczegóły i funkcje z oryginalnego obrazu są przenoszone do nowego w celu zachowania spójności.
DiffUHaul jest oparty na BlobGENmodel, który wykorzystuje zrozumienie przestrzenne do komponowania obrazów ze złożonych podpowiedzi. W artykule stwierdzono, że narzędzie nie wymaga szkolenia, co oznacza, że zostało stworzone bez żadnych zestawów danych i działa od razu po wyjęciu z pudełka.