CheckMag | Jak hostować własny generator obrazów AI za pomocą Invoke AI i Stable Diffusion
Istnieje wiele powodów, dla których warto hostować własny generator obrazów AI. Niezależnie od tego, czy chcą Państwo uniknąć znaków wodnych i reklam, wygenerować wiele obrazów bez subskrypcji, czy też popchnąć generowanie obrazów poza to, co jest dozwolone etycznie przez usługę, hostowanie własnej instancji i korzystanie z danych szkoleniowych od firmy takiej jak Stable Diffusion pozwala zachować pełną kontrolę nad tym, co generuje sztuczna inteligencja.
Aby rozpocząć, należy pobrać wersję społecznościową Invoke AI ze strony tutaj. W systemie Windows prawie cały proces instalacji jest teraz zautomatyzowany, a wszystkie wymagane zależności są instalowane. Może to jednak nie mieć miejsca w przypadku wersji dla systemów Linux i macOS, więc Państwa doświadczenia mogą się różnić. Do naszych eksperymentów wykorzystaliśmy maszynę wirtualną z systemem Windows 11, z 8 rdzeniami z przydzielonego procesora Ryzen 9 5950, kartą graficzną RTX 4070(dostępną na Amazon) przekazywaną do maszyny wirtualnej i 24 GB pamięci RAM działającej na dysku SSD NVMe o pojemności 1 TB. Procesory graficzne AMD są obsługiwane, ale tylko w systemie Linux.
Po przejściu przez proces instalacji, proszę uruchomić Invoke AI, aby wygenerować pliki konfiguracyjne, a następnie je zamknąć. Powodem tego jest to, że zaleca się wprowadzenie kilku zmian w różnych częściach systemu, aby aktywować "tryb Low-VRAM".
Chociaż Invoke AI nie określa, co stanowi niski poziom pamięci VRAM, 12 GB pamięci RAM w RTX 4070 prawdopodobnie nie uruchomi modelu 24 GB. Aby to zrobić, należy edytować plik invokeai.yaml znajdujący się w folderze instalacyjnym za pomocą edytora tekstu i dodać linię:
enable_partial_loading: true
Po edycji, w przypadku użytkowników systemu Windows korzystających z procesorów graficznych Nvidia, należy ustawić CUDA - Sysmem Fallback Policy na "Prefer No Sysmem Fallback" w ustawieniach globalnych paneli sterowania Nvidia. Można dostosować ilość pamięci podręcznej, którą chce się przydzielić do pamięci VRAM, ale dla większości ludzi wystarczy włączyć "tryb Low-VRAM", aby rozpocząć.
Niektóre modele można pobrać natychmiast, takie jak Dreamshaper i CyberRealistic, ale aby korzystać ze Stable Diffusion, należy utworzyć konto HuggingFace i wygenerować token umożliwiający Invoke AI pobranie modelu. Istnieją jednak sposoby dodawania modeli za pośrednictwem adresu URL, ścieżki lokalnej lub skanowania folderu. Aby utworzyć token, proszę kliknąć w awatar swojego konta w prawym górnym rogu i wybrać "Access Tokens". Token można nazwać w dowolny sposób, ale należy zapewnić dostęp do następujących elementów:
Proszę skopiować token i wkleić go w polu w sekcji Hugging Face na karcie modeli. Może być konieczne zezwolenie na dostęp z potwierdzeniem na stronie internetowej. Nie trzeba zapisywać się na aktualizacje, a Invoke AI powinno wyświetlić monit o przyznanie dostępu.
Proszę pamiętać, że różne modele zajmą sporo miejsca na dysku, w zależności od tego, co zdecydują się Państwo pobrać. Stabilna wersja Diffusion 3.9 zajmuje około 19 GB.
Jeśli wszystko zostało poprawnie skonfigurowane, powinni Państwo być gotowi do pracy. Dostęp do interfejsu można uzyskać za pośrednictwem przeglądarki internetowej na komputerze hosta, przechodząc na stronę http://127.0.0.1:9090. Nic nie stoi na przeszkodzie, aby udostępnić go innym maszynom w sieci lokalnej.
W zakładce "canvas" można wpisać monit tekstowy w celu wygenerowania obrazu. Tuż poniżej można ustawić rozdzielczość obrazu, który ma zostać wygenerowany; należy pamiętać, że im wyższa rozdzielczość, tym dłużej trwa proces, choć można wygenerować obraz w niższej rozdzielczości i użyć jednego z narzędzi do skalowania w celu uzyskania wyższej rozdzielczości. Poniżej można wybrać model, którego chce się użyć. Spośród 4 testowanych modeli, Juggernaut XL, Dreamshaper 8, CyberRealistic v4.8 i Stable Diffusion 3.5 (Large), Stable Diffusion generował bardziej fotorealistyczne obrazy, choć miał problemy z interpretacją podpowiedzi tekstowych, podczas gdy pozostałe generowały obrazy przypominające wycięte sceny w grach.
Oczywiście najlepszym modelem jest ten, który zapewnia najlepsze wyniki dla danego przypadku użycia. Stable Diffusion był zdecydowanie najwolniejszym modelem, który potrzebował około 30 do 50 sekund na wygenerowanie obrazu, ale wyniki z pewnością wydawały się najbardziej realistyczne i przyjemne ze wszystkich 4 testowanych modeli.
Podpowiedzi:
- U góry po lewej: Elegancka kobieta idąca ulicą i patrząca w kamerę z ruchem ulicznym po lewej stronie
- U góry po prawej: Pies mops liżący banana
- Na dole po lewej: Zabawkowy kosmonauta siedzący w połówce skorupki jajka na powierzchni Księżyca
- Na dole po prawej: Dziewczyna z blond włosami i niebieskimi oczami w domu jedząca popcorn
Invoke AI ma jeszcze wiele do odkrycia. Narzędzie umożliwia przerabianie części obrazu, tworzenie iteracji, udoskonalanie obrazów i tworzenie przepływów pracy. Do jego uruchomienia nie jest potrzebny wygórowany sprzęt, wersja dla systemu Windows będzie działać na dowolnym procesorze graficznym Nvidia z serii 10xx lub nowszym, choć można spodziewać się nieco wolniejszego działania podczas generowania obrazów. Chociaż istnieją mieszane uczucia co do szkolenia modeli AI i wymaganego zużycia energii, uruchamianie AI lokalnie na własnym sprzęcie to świetny sposób na tworzenie obrazów bez tantiem do różnych celów.
Źródło(a)
Invoke AI (via GitHub), Hugging Face