Nvidia тайно е събрала милиони видеоклипове от YouTube, за да

80 години видео на ден: такъв е апетитът на новия проект Cosmos на Nvidia

Nvidia скрито е събрала милиони видеоклипове от YouTube, с цел да образова своя нов изкуствен интелект.

Nvidia е употребила видеоклипове от YouTube и други източници, с цел да образова своите ИИ артикули излиза наяве от вътрешната преписка и документите, получени от изданието 404 Media.

При разискването на правните и етичните аспекти на потреблението на наличие, предпазено с авторски права, за образование на ИИ модели, Nvidia съобщи, че дейностите им са в цялостно сходство със закона за авторското право. Вътрешните диалози сред чиновниците на Nvidia демонстрират, че когато чиновниците са повдигали въпроси за евентуални правни проблеми, мениджърите са ги уверявали, че имат позволение за потребление на данните от висшето управление на компанията.

Бивш чиновник на Nvidia съобщи, че чиновниците са били помолени да смъкват видеоклипове от Netflix, YouTube и други източници, с цел да образоват ИИ модели, като да вземем за пример генератора на 3D свят Omniverse, разнообразни системи за безпилотни коли и артикули с „ цифрови хора “. Проектът, носещ забавното име Cosmos, към момента не е показан обществено.

Целта на Cosmos е да се сътвори най-съвременен модел за генериране на видео, кадърен да моделира светлината, физиката и интелекта на едно място, което ще разреши Cosmos да се употребява в разнообразни приложения. Вътрешните доклади демонстрират, че чиновниците са употребявали програмата с отворен код yt-dlp, с цел да теглят видеоклипове от YouTube, заобикаляйки блокадите посредством виртуални машини с актуализиращи се IP адреси.

Ръководителите на плана са обсъждали потреблението на 20-30 виртуални машини в Amazon Web Services за евакуиране на еквивалента на 80 години видеопрегледи всеки ден. През месец май представител на Nvidia съобщи, че компанията завърши първата версия на своя конвейер за данни и се приготвя да построи фабрика за видео данни, която „ ще генерира данни, еквивалентни на цялостен човешки живот всеки ден “.

Представителят на Nvidia съобщи, че компанията е уверена, че нейните модели са в сходство със закона за авторското право, защото законът пази изразите, само че не и обстоятелствата, концепциите, данните или информацията, които могат да се употребяват за основаване на лични изрази.

Гугъл и Netflix потвърдиха, че потреблението на тяхното наличие от страна на Nvidia е нарушаване на изискванията за прилагане. На чиновниците на Nvidia, загрижени за правните аспекти, мениджърите са споделили, че това е „ изпълнително решение “ и не би трябвало да се тормозят за него.

Много откриватели и адвокати обаче настояват, че потреблението на предпазено с авторски права наличие за образование на ИИ е отворен юридически въпрос. През миналите няколко години учените са все по-склонни да лицензират своите проучвателен данни за некомерсиална приложимост, с цел да лимитират комерсиалното потребление на своя труд.

Проектът Cosmos включва потреблението както на обществени, по този начин и на вътрешни видеоклипове, както и на данни, събрани от откривателите. Лицензите на доста от тези набори от данни обаче лимитират потреблението им единствено за университетски цели.

Дискусиите в границите на Nvidia повдигнаха и въпроса за евентуалното потребление на видеата от филми за обучаване на ИИ моделите. Служителите са предложили да се теглят филми като „ Аватар “ и „ Властелинът на пръстените “, с цел да се получат висококачествени данни. Това обаче е породило опасения за евентуални спорове с Холивуд и други заинтригувани страни.

Проектът се сблъска с редица механически и правни провокации, свързани с прихващането на видео от игри и други източници. Въпреки това през март Nvidia е съумяла да изтегли 100 000 видеоклипа единствено за две седмици, което бележи значим стадий за плана.

За отбелязване е, че водещият академик на Nvidia Франческо Ферони сътвори канал в Slack, с цел да приготви голям набор от видео данни за плана Cosmos. В канала Ферони е добавил линк към таблица, в която са изброени наборите от данни, в това число:

MovieNet (база данни с над 1 000 кино лентата и 60 000 трейлъра); WebVid (набор от видео данни от GitHub, формиран от изображения от фондови тържища и заличен от основателя си след искане за преустановяване от Shutterstock); InternVid-10M (набор от данни, съдържащ 10 милиона видеоидентификатора от YouTube); няколко вътрешни набори от данни със непокътнати фрагменти от видеоигри.

Ситуацията с плана Cosmos ясно демонстрира по какъв начин огромните софтуерни компании употребяват сивите правни зони, с цел да натрупват големи количества данни, нужни за обучаването и тренирането на нови модели на изкуствен интелект. В същото време това заплашва правата на основателите на наличие и провокира угриженост измежду откривателите и деятелите за човешките права.

Скандалът разкри също по този начин, че в ИИ промишлеността доминира културата „ не искай позволение “, което подкопава доверието в технологията и повдига въпроси за нуждата от по-строго контролиране. Докато не бъдат въведени ясна правна рамка и стандарти за бистрота, обстановки като тази ще продължат да се повтарят, застрашавайки както правата на основателите на наличие, по този начин и публичното доверие в нововъведенията в региона на изкуствения разсъдък.

Съвсем неотдавна Европейският съюз публично утвърди Закона за изкуствения разсъдък, който съставлява повсеместен набор от правила за контролиране на активността на софтуерните компании. Новият закон, чието правене лиши две години, не разрешава избрани използва на ИИ и постанова строги условия към активността на разработчиците. Но явно има още доста какво да се направи по този въпрос.