Сложното редактиране на видео вече не изисква нито опит, нито

...
Сложното редактиране на видео вече не изисква нито опит, нито
Коментари Харесай

Китай срещу Силициевата долина. Създателите на Video O1 твърдят, че тяхната невронна мрежа превъзхожда решенията на Google и Runway

Сложното редактиране на видео към този момент не изисква нито опит, нито дълги часове работа.

Надпреварата за водачество на пазара за генериране на видео с изкуствен интелект продължава, защото китайската компания Kling AI показа „ Video O1 “, който съчетава основаването и редактирането на видео в едно решение. Играчи като Гугъл, OpenAI, Runway и други все по-активно основават нови благоприятни условия и новият артикул на Kling се вписва идеално в тази конкуренция.

Според Kling AI „ Video O1 “ е умислен като единна мултимодална система, която се оправя със задания, за които преди е трябвало да се употребяват разнообразни принадлежности. Моделът основава три- до десетсекундни клипове от текстово изложение или примерна фотография, както и модифицира съществуващи видеоклипове – от смяна на основния воин и времето до поправяне на стила и цветовата скица. Няколко промени могат да се приложат с една поръчка: можете по едно и също време да зададете нов воин, да измененията фона и цялостния образен жанр на сцената.

Системата обработва няколко типа входни данни по едно и също време, като интерпретира до седем изображения, видеоклипове, обекти и текстови низове като подсказки. Управлението се основава на общи текстови команди – да вземем за пример премахването на минувачи от фрагмента или преобразуването на сцената от дневна светлина в здрач се прави без ръчно избиране на маски или анимация кадър по кадър. Потребителските герои, атрибут и подиуми се зареждат настрана и по-късно могат да се употребяват в разнообразни клипове. Клинг споделя, че моделът схваща задоволително добре входните данни, с цел да поддържа целостта на обектите, хората и стоките при смяна на проектите и ъглите.

В основата на Video O1 е архитектурата на мултимодалния трансформър. Компанията разказва личния си формат „ Multimodal Visual Language “ (MVL), който работи като мост сред текста и образните сигнали. Освен това тя твърди, че употребява вериги от разсъждения, с цел да изведе събитията в фрагмента, тъй че генерирането на клиповете да разчита освен на статистическите съвпадения. По отношение на терминологията си Kling частично повтаря формулировката, която Гугъл ползва към последните модели

. При извършените вътрешни проби Kling AI съпоставя „ Video O1 “ с Гугъл Veo 3.1 и Runway Aleph. В задания, в които клиповете се основават от образцово изображение, китайският модел, съгласно изказванията на компанията, се е показал видимо по-добре от функционалността „ ingredients to video “ на Гугъл. При конвертиране на съществуващи клипове оценителите са били по-склонни да изберат Video O1, в сравнение с решението на Runway Aleph. Всички данни обаче се основават на затворени проби на самата компания Kling и към момента не са доказани от самостоятелни съпоставения.

Достъпът до „ Video O1 “ към този момент е разполагаем посредством уеб интерфейса на Kling AI. На пазара за генериране на видео с изкуствен интелект моделът се сблъсква със мощна конкуренция: съвсем по едно и също време Runway показа „ Gen-4.5 “ като най-мощното си решение досега, а измежду съперниците са Гугъл, OpenAI, Midjourney и китайските компании Hailuo, Seedance и Vidu, които разчитат на понижаване на цената на сходни услуги.

(function() { const banners = [ // --- БАНЕР 1 (Facebook Messenger) --- `
Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР