Fotograf podkreśla pole minowe praw autorskich generatywnej sztucznej inteligencji, tworząc przekonujące kopie "najbardziej kultowych zdjęć wszechczasów"
Odkąd systemy generatywnej sztucznej inteligencji, takie jak Midjourney i DALL-E, eksplodowały popularnością mniej więcej od początku do połowy 2022 roku, nie brakowało nie brakuje artystów w ramionach przeciwko systemom z powodu naruszenia praw autorskich. To naturalne, że pojawiła się pewna reakcja, ponieważ systemy sztucznej inteligencji są w dużej mierze szkolone na obrazach chronionych prawem autorskim, na które nie uzyskano licencji.
Jeden z fotografów, Matt Growcoot z PetaPixel, postanowił sprawdzić, jak łatwo byłoby skłonić dwie SI do generowania obrazów - Midjourney i DALL-E - do odtworzenia niektórych z najbardziej kultowych i rozpoznawalnych obrazów w historii. Jak się okazuje, nie było to wcale szczególnie trudne.
Lista zdjęć, które sztuczna inteligencja miała odtworzyć, była następująca: V-J Day in Times Square Alfreda Eisenstaedta, okładka Abbey Road The Beatles, Migrant Mother Dorothei Lange, Lunch Atop a Skyscraper (autor nieznany), The Tetons and the Snake River Ansela Adamsa, the Afghan Girl Steve'a McCurry'ego, Podniesienie flagi na Iwo Jimie Joe Rosenthala, Za Gare Saint-Lazare Henri Cartier-Bressona, Zwycięstwo Muhammada Alego nad Sonnym Listonem Johna Rooneya, Wschód Ziemi Williama Andersa i zdjęcie Dona McCullina przedstawiające amerykańskiego żołnierza piechoty morskiej w stanie szoku podczas wojny w Wietnamie.
Chociaż systemy sztucznej inteligencji nie stworzyły dokładnych kopii omawianych obrazów, wyniki (które można zobaczyć w poście Growcoota na PetaPixel lub przewijając w dół do osadzonego postu X, dawniej Twittera) są w wielu przypadkach niesamowicie podobne. Obrazem, który okazał się najtrudniejszy do odtworzenia zarówno dla Midjourney, jak i DALL-E, był Behind the Gare Saint-Lazare Cartiera-Bressona, podczas gdy estetyka i ton obrazów takich jak Afgańska dziewczyna i zwycięstwo Alego nad Listonem były uderzająco podobne do oryginału, nawet jeśli nie były dokładnymi replikami.
Krajobraz Adamsa był prawdopodobnie najbardziej podobny pod względem dokładnego odtworzenia, podczas gdy Migrant Mother, Abbey Road, V-J Day in Times Square i Lunch Atop a Skyscraper były również bardzo podobne do swoich stworzonych przez człowieka odpowiedników.
Te dokładne odwzorowania oryginalnych zdjęć były pomimo dość szczegółowych, ale niespecyficznych podpowiedzi, takich jak "Stwórz czarno-białe fotorealistyczne zdjęcie z 1945 roku marynarza całującego ubraną na biało dziewczynę, gdy świętują na Times Square w Nowym Jorku" i "Stwórz dramatyczne czarno-białe zdjęcie zrobione w 1942 roku w Parku Narodowym Grand Teton w Wyoming. Na pierwszym planie widać rzekę Snake, a w tle góry."
Warto również zauważyć, że chociaż wszystkie odtworzenia obrazów były dość reprezentatywne dla oryginalnych dzieł sztuki, każdy algorytm generatywnej sztucznej inteligencji nadal ma swój własny wygląd. Obrazy Midjourney były nadal konsekwentnie bardziej realistyczne, podczas gdy obrazy DALL-E miały rodzaj miękkiej mgiełki, której wszyscy oczekujemy od generatywnej sztucznej inteligencji - tak jakby obrazy zostały nakręcone za pomocą czegoś w rodzaju filtra dyfuzyjnego (który można znaleźć na Amazon za jedyne 10,49 USD) lub obiektywu z wazeliną rozmazaną z przodu.
Sukces tego eksperymentu nie tylko podkreśla znaczenie wysiłków takich jak Leica Content Credentials, ale po raz kolejny rodzi poważne pytania o przyszłą rolę fotografii w przedsięwzięciach dokumentalnych i dziennikarskich.
Jeśli są Państwo zainteresowani dłuższą drogą do tworzenia artystycznych obrazów, proszę sprawdzić Fujifilm X-S20 na Amazon (obecnie 1,151 USD)
Using Midjourney and DALL-E, we attempted to recreate some of the greatest photographs ever taken.https://t.co/8nlO7Q8Drm
— PetaPixel (@petapixel) March 7, 2024