Wyciekły wewnętrzne komunikaty ujawniające, że Nvidia codziennie pobiera filmy z YouTube o wartości całego życia, aby trenować model sztucznej inteligencji wideo, a Jensen jest zadowolony z postępów

Inżynierowie Nvidii pobierają filmy z YouTube i innych źródeł, aby trenować model Cosmos firmy. (Źródło obrazu: Nvidia)

Wewnętrzna komunikacja Nvidia Slack uzyskana przez 404 Media ujawniła, że personel firmy pracujący nad modelem Cosmos Video Foundation zebrał do tej pory 38,5 miliona godzin wideo z różnych źródeł, głównie z YouTube. Pracownicy zwrócili uwagę na możliwe obawy związane z prawami autorskimi, ale dyrektorzy wyższego szczebla najwyraźniej wydali "parasolową zgodę" na kontynuowanie i skrobanie treści.

Vaidyanathan Subramaniam (tłumaczenie Ninh Duy), Opublikowany 06/08/2024 🇺🇸 🇫🇷 ...

AI Cyberlaw Nvidia

Nvidia szkoli swoje Omniverse, samojezdne samochody i samochody "cyfrowego człowieka" w oparciu o dane pobrane z "80 lat filmów dziennie" z YouTube i innych źródeł, ujawniło dochodzenie przeprowadzone przez 404 Media.

Wyciekła wewnętrzna komunikacja uzyskana przez 404 Media wskazuje, że Nvidia wykorzystuje te dane do trenowania swojego modelu świata wideo AI o nazwie Cosmos (nie mylić z istniejącą usługą Deep Learning firmy Cosmos)). Cosmos jest wewnętrznie planowany jako model, który zasilałby inne linie Nvidii, w tym GeForce, architekturę GPU, DGX, ramy głębokiego uczenia, Omniverse, Avatar, Project GR00T i pojazdy autonomiczne.

Kierownictwo Nvidii określiło Cosmos jako najnowocześniejszy model fundamentalny, "który obejmuje symulację transportu światła, fizyki i inteligencji w jednym miejscu, aby odblokować różne dalsze aplikacje o krytycznym znaczeniu dla Nvidii"

404 Media uzyskało dostęp do wewnętrznych wiadomości pracowników Slack, które ujawniły, w jaki sposób pracownicy korzystali z wiersza poleceń yt-dlp do pobierania filmów z YouTube przy użyciu od 20 do 30 maszyn wirtualnych AWS, które odświeżają adresy IP, aby uniknąć zablokowania przez YouTube. Witryna do udostępniania filmów była głównym źródłem skrobania filmów, a pracownicy zastanawiali się również nad innymi źródłami, takimi jak Netflix i Discovery Channel.

Komunikacja na Slacku pokazuje, że pracownicy dyskutują o prawnych konsekwencjach skrobania treści chronionych prawem autorskim w celu szkolenia sztucznej inteligencji tylko po to, by zostać odrzuconym przez kierowników projektów jako decyzja wykonawcza, o którą nie muszą się martwić.

Popularne kanały YouTube, które pracownicy Nvidii znaleźli na krótkiej liście, to między innymi MKBHD, PickUpLimes, Architectural Digest, Expedia, Mediastorm6801, 8kEarth i The CriticalDrinker.

Po skontaktowaniu się z 404 Media, zarówno YouTube, jak i Netflix stwierdziły, że skrobanie treści na ich platformach w celu trenowania modeli sztucznej inteligencji stanowi wyraźne naruszenie ich warunków świadczenia usług.

Wykorzystanie danych chronionych prawem autorskim do trenowania modeli sztucznej inteligencji jest nadal prawnie szarą strefą. Publiczne zbiory danych, takie jak InternVid-10M, HD-VG-130Mi inne oparte na milionach filmów z YouTube istnieją, ale są one przeznaczone wyłącznie do badań akademickich, a nie do celów komercyjnych. Chociaż Nvidia zatrudnia badaczy akademickich, ich wyniki ostatecznie trafią do produktów komercyjnych.

Na stronie pojawiło się kilka przepisów które narzucają standardy przejrzystości i wymagają od firm pracujących nad podstawowymi modelami sztucznej inteligencji współpracy z FTC i urzędem ds. praw autorskich. Jednak firmy niekoniecznie ujawniają swoje źródłowe zbiory danych, co znacznie utrudnia audyt.

Ponieważ główne firmy zajmujące się sztuczną inteligencją nadal kładą ręce na wszystkich dostępnych publicznie danych, aby trenować bardziej efektywne modele, zmiany legislacyjne są pilnie potrzebne, aby zapewnić bezpieczeństwo konsumentów i chronić własność intelektualną twórców.

W ubiegłym roku The New York Times pozwał OpenAI i Microsoft za nieautoryzowane wykorzystanie artykułów chronionych prawem autorskim do trenowania modeli sztucznej inteligencji. W maju artyści wizualni złożyli pozew przeciwko Stability AI, Midjourney, DeviantArt i Runway AI za wykorzystywanie kopii ich prac do trenowania modeli sztucznej inteligencji bez pozwolenia.

YouTube okazuje się być kopalnią danych dla firm zajmujących się sztuczną inteligencją. Niedawno Wired poinformował że największe firmy, w tym Apple, Nvidia, Anthropic i Salesforce, zeskrobały napisy ze 173 536 filmów na YouTube z ponad 48 000 kanałów, aby trenować swoją sztuczną inteligencję.

Do końca maja pracownicy Nvidii ogłosili wewnętrznie, że skompilowali 38,5 miliona adresów URL filmów, z których większość to treści kinowe. Inżynierowie dodali również zbiory danych, takie jak Ego-Exo4D, Ego4D, HOI4Doraz dane gier z GeForce Now.

Podczas gdy Ego-Exo4D i Ego4D mogą być licencjonowane zarówno do użytku akademickiego, jak i komercyjnego, HOI4D jest rozpowszechniany na licencji CC BY-NC, która wyraźnie zabrania użytku komercyjnego.

Zespół obecnie trenuje model 1B, każdy z 16 węzłami, z planami skalowania go do 10B.

Nvidia powiedziała 404 Media za pośrednictwem poczty elektronicznej:"nasze modele i nasze wysiłki badawcze są w pełni zgodne z literą i duchem prawa autorskiego"

Tymczasem dyrektor generalny Nvidii, Jensen Huang, wydaje się być zadowolony z postępów poczynionych przez jego pracowników.

Podobno wykrzyknął: "Świetna aktualizacja. Wiele firm musi budować wideo FM [modele fundamentalne]. My możemy zaoferować w pełni przyspieszony potok"

Zbiory danych przekazane na potrzeby szkolenia Cosmos przez głównego naukowca Nvidii Francesco Ferroniego (źródło: 404 Media)

Popularne kanały YouTube polecane przez pracowników Nvidia do szkolenia Cosmos. (Źródło: 404 Media)

Wykres przedstawiający dystrybucję wideo skompilowaną z 38,5 miliona adresów URL. (Źródło: 404 Media)

SCOOP from @samleecole: Leaked Slacks and documents show the incredible scale of NVidia's AI scraping: 80 years — "a human lifetime" of videos every day. Had approval from highest levels of company despite staff legal/ethical concerns:https://t.co/DydXOyffUQ
— Jason Koebler (@jason_koebler) August 5, 2024

Źródło(a)

404 Media (wymaga rejestracji)

@jason_koebler na X

Powiązane artykuły

EaseUS uruchamia bezpłatną usługę zamiany wideo na transkrypcję dla filmów z YouTube. (Źródło obrazu: EaseUS)

EaseUS prezentuje darmowy generator transkrypcji YouTube 11/02/2025

Nvidia G-Sync będzie teraz działać bezpośrednio na skalerach wyświetlaczy MediaTek bez konieczności stosowania dedykowanego modułu. (Źródło obrazu: Nvidia)

Nvidia G-Sync stanie się tańsza i bardziej rozpowszechniona dzięki współpracy z MediaTek 21/08/2024

Zeromouse V35 to niewiarygodnie lekka, minimalistyczna mysz do gier, która wymaga pewnego montażu. (Źródło zdjęcia: Zeromouse)

YouTuber buduje ultralekką mysz do gier Zerømouse 16 g z wnętrznościami Razer Viper V2 Pro 16/08/2024

Karta GeForce RTX 4070 zostanie wkrótce wprowadzona na rynek w nieco wolniejszej wersji. (Źródło obrazu: Nvidia)

Potencjalnie tańsza Nvidia GeForce RTX 4070 z pamięcią GDDR6 VRAM zadebiutuje 20 sierpnia 13/08/2024

eGPU z ultraprzenośnym procesorem graficznym Nvidia RTX z serii 40 jest już w drodze (źródło obrazu: Notebookcheck)

Producent potwierdza nowe eGPU Nvidia RTX z serii 40 z niewydanym GPU z serii M 08/08/2024

Nowy wariant Nvidia GeForce RTX 4070 jest w przygotowaniu (źródło obrazu: Nvidia)

Nvidia GeForce RTX 4070 wariant z GDDR6 VRAM podobno w przygotowaniu 06/08/2024

Nvidia łączy siły z Falcon Northwest, aby rozdawać komputery PC do gier z RTX 4090 06/08/2024

Nvidia otrzymała zakaz sprzedaży procesorów graficznych H100 dla centrów danych chińskim klientom. (Źródło zdjęcia: Nvidia, ridvan-selli na Pixabay, edytowane)

Przemytnicy podobno dostarczają Chinom zakazane chipy Nvidia AI warte miliony dolarów, ponieważ USA chcą zaostrzyć embargo handlowe 06/08/2024

Nvidia RTX 3060 jest obecnie najpopularniejszym procesorem graficznym na liście ankiet sprzętowych Steam (Źródło obrazu: Nvidia)

Insider twierdzi, że Nvidia po cichu zaprzestała produkcji najpopularniejszego obecnie układu GPU 05/08/2024

Microsoft dodaje opcje procesorów graficznych Nvidia i AMD do oferty Windows 365 Cloud PC. (Źródło obrazu: Microsoft)

Microsoft dodaje opcje procesorów graficznych Nvidia i AMD do oferty Windows 365 Cloud PC 04/08/2024

Nvidia wprowadziła na rynek RTX 4080 w listopadzie 2022 r. w cenie 1199 USD. (Źródło zdjęcia: Notebookcheck, Ally Griffin na Unsplash, edytowane)

Gracze otrzymają podwyżki cen serii RTX 40, ponieważ Nvidia podobno inicjuje masowe cięcie dostaw 02/08/2024

Nvidia pracuje nad nowym wariantem GeForce RTX 3050 (źródło obrazu: Nvidia)

Nvidia GeForce RTX 3050 z GPU Ada Lovelace podobno w przygotowaniu 25/07/2024

Znany przeciek twierdzi, że Nvidia ma przygotowaną co najmniej jedną jednostkę SKU Titan opartą na Blackwell (źródło obrazu: Nvidia)

Linia Nvidia Titan podobno powróci z Blackwell 23/07/2024

Snapdragon 8 Gen 4: przeciek mówi o...

Konsumenci unikają Intela w Niemcze...

Editor of the original article: Vaidyanathan Subramaniam - Managing Editor - 1997 articles published on Notebookcheck since 2012

contact me via: @Geeky_Vaidy

Translator: Ninh Ngoc Duy - Editorial Assistant - 522633 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2024 08 > Wyciekły wewnętrzne komunikaty ujawniające, że Nvidia codziennie pobiera filmy z YouTube o wartości całego życia, aby trenować model sztucznej inteligencji wideo, a Jensen jest zadowolony z postępów

Vaidyanathan Subramaniam, 2024-08- 6 (Update: 2024-08- 6)