Największy treningowy zbiór obrazów AI został wyłączony po odkryciu niepokojących nielegalnych materiałów
Badanie opublikowane przez Stanford Internet Observatory stanford Internet Observatory dokonało niepokojącego odkrycia - LAION-5B, największy zbiór danych obrazowych używany do szkolenia Modeli generowania obrazów zawiera 3 226 obrazów podejrzanych o wykorzystywanie seksualne dzieci (CSAM). Od tego czasu LAION wycofał swój zbiór danych z publicznego dostępu, dopóki nie upewni się, że są one wolne od jakichkolwiek niebezpiecznych treści.
LAION-5B, zbiór danych o otwartym kodzie źródłowym składający się z ponad 5,8 miliarda par adresów URL obrazów online i odpowiadających im podpisów, jest wykorzystywany do trenowania modeli sztucznej inteligencji, w tym bardzo popularnego modelu Stable Diffusion. Został on stworzony przy użyciu Common Crawl do przeszukiwania Internetu w poszukiwaniu szerokiej gamy obrazów.
David Thiel i zespół naukowców ze Stanford, którzy byli autorami tego badania, zaczęli od filtrowania zbioru danych za pomocą klasyfikatorów NSFW firmy LAION, a następnie polegali na PhotoDNA, narzędziu powszechnie wykorzystywanym do moderowania treści w tym kontekście. Ponieważ oglądanie CSAM jest nielegalne, nawet w celach badawczych, zespół wykorzystał haszowanie percepcyjne, które tworzy unikalny podpis cyfrowy dla każdego obrazu i wykorzystuje ten podpis do dopasowania go do obrazu testowego w celu sprawdzenia, czy jest on identyczny lub podobny. Ponadto zespół wysłał "ostateczne dopasowania" do zatwierdzenia przez Kanadyjskie Centrum Ochrony Dzieci.
Po opublikowaniu badania rzecznik Stable Diffusion powiedział 404 Media, że firma ma wewnętrznie wiele filtrów, które nie tylko wyeliminują CSAM i inne nielegalne i obraźliwe materiały z danych faktycznie wykorzystywanych w szkoleniu, ale także zapewnią, że podpowiedzi wejściowe i obrazy generowane przez model sztucznej inteligencji zostaną wyczyszczone.
Zgodnie z prawem federalnym USA nielegalne jest posiadanie i przesyłanie nie tylko CSAM, ale także "niewywołanego filmu, niewywołanej taśmy wideo i danych przechowywanych elektronicznie, które można przekształcić w obraz wizualny". Ponieważ jednak zbiory danych, takie jak LAION-5B, zawierają jedynie adresy URL, a nie same obrazy, dokładna legalność wokół nich jest niejasna. Szerszą kwestię dodatkowo pogarsza fakt, że CSAM generowany przez sztuczną inteligencję jest trudny do odróżnienia od rzeczywistego CSAM i stale rośnie. Chociaż 3200 obrazów spośród 5 miliardów może wydawać się nieistotne, nie można zignorować potencjalnego wpływu takich "zanieczyszczonych" danych szkoleniowych na wyniki generatywnych modeli sztucznej inteligencji.
Badanie opublikowane przez Davida Thiela i jego zespół podkreśla jedną z bardziej niepokojących konsekwencji konsekwencji nagłego rozprzestrzeniania się sztucznej inteligencji. Znalezienie rozwiązań dla takich obaw będzie powolnym i trudnym zadaniem w nadchodzących latach, angażującym w równym stopniu ustawodawcę, organy ścigania, branżę technologiczną, naukowców i ogół społeczeństwa.