Китай срещу Силициевата долина. Създателите на Video O1 твърдят, че тяхната невронна мрежа превъзхожда решенията на Google и Runway
Сложното редактиране на видео към този момент не изисква нито опит, нито дълги часове работа.
Надпреварата за водачество на пазара за генериране на видео с изкуствен интелект продължава, защото китайската компания Kling AI показа „ Video O1 “, който съчетава основаването и редактирането на видео в едно решение. Играчи като Гугъл, OpenAI, Runway и други все по-активно основават нови благоприятни условия и новият артикул на Kling се вписва идеално в тази конкуренция.
Според Kling AI „ Video O1 “ е умислен като единна мултимодална система, която се оправя със задания, за които преди е трябвало да се употребяват разнообразни принадлежности. Моделът основава три- до десетсекундни клипове от текстово изложение или примерна фотография, както и модифицира съществуващи видеоклипове – от смяна на основния воин и времето до поправяне на стила и цветовата скица. Няколко промени могат да се приложат с една поръчка: можете по едно и също време да зададете нов воин, да измененията фона и цялостния образен жанр на сцената.
Системата обработва няколко типа входни данни по едно и също време, като интерпретира до седем изображения, видеоклипове, обекти и текстови низове като подсказки. Управлението се основава на общи текстови команди – да вземем за пример премахването на минувачи от фрагмента или преобразуването на сцената от дневна светлина в здрач се прави без ръчно избиране на маски или анимация кадър по кадър. Потребителските герои, атрибут и подиуми се зареждат настрана и по-късно могат да се употребяват в разнообразни клипове. Клинг споделя, че моделът схваща задоволително добре входните данни, с цел да поддържа целостта на обектите, хората и стоките при смяна на проектите и ъглите.
Kling Omni Launch Week Day 1: Introducing Kling O1 — Brand-New Creative Engine for Endless Possibilities!
— Kling AI (@Kling_ai) December 1, 2025
Input anything. Understand everything. Generate any vision.
With true multimodal understanding, Kling O1 unifies your input across texts, images, and videos — making… pic.twitter.com/v7XZmvht6t
В основата на Video O1 е архитектурата на мултимодалния трансформър. Компанията разказва личния си формат „ Multimodal Visual Language “ (MVL), който работи като мост сред текста и образните сигнали. Освен това тя твърди, че употребява вериги от разсъждения, с цел да изведе събитията в фрагмента, тъй че генерирането на клиповете да разчита освен на статистическите съвпадения. По отношение на терминологията си Kling частично повтаря формулировката, която Гугъл ползва към последните модели
. При извършените вътрешни проби Kling AI съпоставя „ Video O1 “ с Гугъл Veo 3.1 и Runway Aleph. В задания, в които клиповете се основават от образцово изображение, китайският модел, съгласно изказванията на компанията, се е показал видимо по-добре от функционалността „ ingredients to video “ на Гугъл. При конвертиране на съществуващи клипове оценителите са били по-склонни да изберат Video O1, в сравнение с решението на Runway Aleph. Всички данни обаче се основават на затворени проби на самата компания Kling и към момента не са доказани от самостоятелни съпоставения.
Достъпът до „ Video O1 “ към този момент е разполагаем посредством уеб интерфейса на Kling AI. На пазара за генериране на видео с изкуствен интелект моделът се сблъсква със мощна конкуренция: съвсем по едно и също време Runway показа „ Gen-4.5 “ като най-мощното си решение досега, а измежду съперниците са Гугъл, OpenAI, Midjourney и китайските компании Hailuo, Seedance и Vidu, които разчитат на понижаване на цената на сходни услуги.
(function() { const banners = [ // --- БАНЕР 1 (Facebook Messenger) --- `




