Инструментите за създаване на кратки клипове са смайващо добри въпреки

Генеративното видео е на прага, какво ще правим?

Инструментите за основаване на къси клипове са смайващо положителни макар ранния си стадий

Видеото е медията на интернет, само че скоро и то ще е дело на генеративни логаритми – какво следва? (снимка: CC0 Public Domain)

Когато OpenAI разкри новия си генеративен модел за видео Sora, компанията предложения неколцина режисьори да го тестват. Наскоро компанията разгласява резултатите: седем сюрреалистични късометражни кино лентата, които не оставят подозрение, че бъдещето на генеративното видео е на прага ни.

Първата партида от модели, които могат да трансфорат текст във видео, се появи в края на 2022 година Сред основателите им имаше разнообразни компании, в това число Meta, Гугъл и видеотехнологичния стартъп Runway. Предложението звучеше примамливо, само че резултатите не бяха очарователни – зърнести, неравномерни видеа и траеха единствено няколко секунди.

Ето, че 18 месеца по-късно най-хубавото от фотореалистичната продукция на Sora с висока разграничителна дарба е реалност – толкоз зашеметяващо, че някои въодушевени наблюдаващи предсказват гибелта на Холивуд. Най-новите модели на Runway могат да създават къси клипове, които съперничат на тези, направени от хитови анимационни студиа. Midjourney и Stability AI, компаниите зад два от най-популярните модели за превръщане на текст в изображение, в този момент работят и върху видео-модели.

Редица компании се надпреварват да създадат бизнес на крилете на тези пробиви. Повечето схващат „ в придвижване “ защо става дума. „ Иде ми да викам „ Леле майко, това е необикновено положително “, до момента в който си играя с тези принадлежности “, споделя Гари Липковиц, основен изпълнителен шеф на Vyond – компания, която дава платформа за основаване на къси анимирани видеоклипове. „ Но по какъв начин можете да употребявате това в работата си? “

Какъвто и да е отговорът на този въпрос, той евентуално ще преобърне необятен кръг от бизнеси и ще промени функциите на доста експерти, от аниматори до рекламодатели. Страховете от корист също нарастват. Общодостъпната опция за генериране на подправени видеоклипове ще направи по-лесно от всеки път наводняването на интернет с измислици, както и така наречен 3D офанзиви. Виждаме, че сходно нещо се случва всеки път с новите технологии. Проблемът? Никой няма положително решение.

Докато продължаваме да се чудим по какъв начин ще се оправяме с това, което следва – положително и неприятно – ето няколко неща, за които да помислим.

Sora е единствено началото

В момента Sora на OpenAI е с глава над конкуренцията в генерирането на видео. Но други компании работят интензивно, с цел да наваксат. Пазарът ще стане препълнен през идващите няколко месеца, защото от ден на ден компании усъвършенстват своите технологии и стартират да пускат съперници на Sora.

Базираният в Обединеното кралство стартъп Haiper излезе от стелт-режима си този месец. Основана е през 2021 година от някогашни откриватели на Гугъл DeepMind и TikTok, които желаеха да работят върху технология, наречена ‘полета на невронно излъчване’, в резюме NeRF. Тя може да трансформира 2D изображения в 3D виртуални среди. Създателите й считат, че инструмент, който трансформира моментни фотоси в подиуми, в които потребителите могат да влязат, ще бъде потребен за основаване на видео-игри.

Но преди шест месеца Haiper мина от виртуалните среди към видеоклипове, адаптирайки технологията си, с цел да пасне на това, което изпълнителният шеф Ийшу Миао има вяра, че ще бъде даже по-голям пазар от игрите. „ Разбрахме, че генерирането на видео е най-хубавото място “, споделя Мяо. „ Ще има супер огромно търсене за него. “

Подобно на Sora на OpenAI, генеративната видео технология на Haiper употребява дифузионен модел за ръководство на образните резултати и трансформатор (компонент в огромните езикови модели като GPT-4, който ги прави по-добри в предсказването на това, което следва), с цел да ръководи съгласуваността сред фрагментите. „ Видеоклиповете са поредици от данни, а трансформаторите са най-хубавият модел за проучване на поредици “, споделя Миао.
още по темата
Консистентността е огромно предизвикателство за генеративното видео и главната причина съществуващите принадлежности да са в положение да създават единствено няколко секунди видео. Трансформаторите за генериране на видео могат да покачат качеството и дължината на клиповете. Недостатъкът е, че трансформаторите си измислят неща – „ халюцинират “. В текст това не постоянно е явно. Във видео може да докара до, да речем, човек с голям брой глави. Поддържането на трансформаторите в добра форма изисква големи силози с данни за образование, както и халета, цялостни с изчислителни машини.

Ето за какво Irreverent Labs, учредена от някогашни откриватели на Microsoft, възприема друг метод. Подобно на Haiper, хората в Irreverent Labs започнаха да генерират среди за игри, преди да преминат към цялостно видеогенериране. Но компанията не желае да следва стадото, като копира това, което OpenAI и други вършат. „ Защото тогава това е борба за калкулации, тотална война за GPU “, споделя Дейвид Раскино, съосновател и механически шеф на Irreverent. „ И има единствено един победител в този сюжет – и той носи кожено яке “. (става дума за Дженсън Хуанг, основен изпълнителен шеф на чип-гиганта Nvidia)

Вместо да употребява трансформатор, технологията на Irreverent комбинира дифузионен модел с модел, който предсказва какво има в идващия кадър въз основа на физиката на здравия разсъдък, като да вземем за пример по какъв начин топката отскача или по какъв начин водата се пръска по пода. Раскино споделя, че този метод понижава както разноските за образование, по този начин и броя на халюцинациите. Моделът към момента основава проблеми, само че те са изкривявания на физиката (като подскачаща топка, която не следва гладка крива, например) с известни математически корекции, които могат да бъдат приложени към видеото, откакто бъде генерирано, споделя той.

Кой метод ще се оправи по-добре, това остава да забележим. Миао съпоставя днешната технология с огромните езикови модели от времето на GPT-2. Преди пет години новаторският ранен модел на OpenAI удиви хората, тъй като сподели какво е допустимо. Но бяха нужни още няколко години, преди технологията да промени разпоредбите на играта.

Какво ще вършат хората с генеративното видео?

Видеото е носителят на интернет. YouTube, TikTok, новинарски летописи, реклами: очаквайте да видите синтетично видео, изскачащо на всички места, където към този момент има видео.

Маркетинговата промишленост е един от най-ентусиазираните мераклии за генеративните технологии. Две трети от експертите по маркетинг са опитали с генеративен AI в работата си, съгласно скорошно изследване, извършено от Adobe в Съединени американски щати. Над от половината споделят, че са употребявали технологията за основаване на изображения.

Генеративното видео е на ред. Няколко маркетингови компании към този момент пуснаха къси филми, с цел да показват капацитета на технологията. Последният образец е 2,5-минутният „ Somme Requiem “, изработен от Myles.

„ Somme Requiem “ изобразява заснежени бойци по време на коледното преустановяване на огъня през Първата международна война през 1914 година Филмът е формиран от десетки разнообразни фрагменти, които са основани благодарение на генеративен видео модел от Runway, след което са съшити, поправени по цвят и допълнени с музика от човешки видео редактори в Myles. „ Бъдещето на разказването на истории ще бъде хибриден работен развой “, споделя създателят и основен изпълнителен шеф Джош Кан. „ Независимото правене на филми някак умира “, прибавя Кан. „ Мисля, че това ще докара до необикновено възобновление. “

Раскино също се надява на сходно развиване. „ Жанрът на филмите на ужасите е мястото, където хората тестват нови неща, пробват нови неща “, споделя той. „ Мисля, че ще забележим хитов филм на ужасите, основан от четирима души в едно мазе някъде – благодарение на AI. “

Дали генеративното видео скоро ще убие Холивуд? Все още не. Сценарийните фрагменти в „ Somme Requiem ” – пусти гори, запустял боен лагер – наподобяват ужасно. Но хората в него към момента са зле изобразени, с изкривени пръсти и изкривени лица. Това са отличителни белези на технологията. Генеративното видео е най-хубаво при широкоъгълни панорами или продължителни близки проекти, което основава злокобна атмосфера, само че има малко деяние.

И въпреки всичко, в пълнометражните филми непрестанно се борави с неколкосекундни фрагменти с малко деяние. Повечето са с дължина единствено няколко секунди, само че снимането им може да отнеме часове. Раскино допуска, че генеративни видео модели скоро могат да бъдат употребявани за основаване на тези междинни фрагменти. И ще се създават за дребна част от цената, при която се вършат в този момент. Това може да се направи и в придвижване в по-късните стадии на продукцията, без да се постанова наново снимане.

Михал Печучек, механически шеф в Gen Digital, колос в киберсигурността, е склонен. „ Мисля, че натам се е насочила технологията “, споделя той. „ Ще забележим доста разнообразни модели, всеки особено подготвен в избрана област на филмовата продукция. Това ще бъдат просто принадлежности, употребявани от надарени екипи за видеопродукция “.

Дезинформацията не е оригиналност, само че дълбоките имитации ще влошат обстановката

Онлайн дезинформацията подкопава вярата ни в медиите, в институциите и един в различен от години. Някои се притесняват, че прибавянето на генеративното видео към микса от модерни принадлежности ще унищожи всички стълбове на споделената действителност, които са ни останали.

„ Заменяме доверието с съмнение, комплициране, боязън и ненавист “, споделя Печучек. „ Обществото без основателна истина ще се изроди. “