ИИ Voyager на Tencent превръща едно изображение в 3D-свят, който може да се изследва
Във вторник, 2 септември, Tencent показа новия ИИ-модел HunyuanWorld-Voyager, който може да основава поредни 3D-видеоклипове от едно изображение.
Потребителите могат също да управляват камерата, с цел да изследват генерираните светове. Моделът по едно и също време генерира RGB-видео и информация за дълбочината, което разрешава непосредствено модифициране на детайлите без потребност от обичайни принадлежности за моделиране.
Не очаквайте обаче HunyuanWorld-Voyager скоро да се трансформира в пълноценна опция на обичайните видеоигри. Генерираните резултати не са действителни 3D-модели, само че реализират сходен резултат.
По-конкретно, изкуственият разсъдък генерира 2D-видеокадри, които поддържат пространствена консистентност, като че ли камерата фактически се движи в 3D пространство. Всяко генериране създава 49 фрагмента, всеки с дълготрайност към 2 секунди.
Представители на Tencent означават, че голям брой видеоклипове могат да бъдат комбинирани поредно дружно за обща дълготрайност от няколко минути. Обектите остават в една и съща относителна позиция, до момента в който камерата се движи към тях, а вероятността се трансформира вярно, както се чака в действителна 3D среда.
Крайният резултат е видео с карти на дълбочината, а не същински 3D-модели, само че могат да се преобразуват в трийзмерни облаци от точки за реорганизация. На входа системата приема от потребителя едно изображение и заложена траектория на придвижване на камерата.
Потребителите могат да избират по какъв начин да се движи камерата — напред-назад, наляво-надясно или да се завърта, употребявайки интерфейса. HunyuanWorld-Voyager комбинира данни за изображението и дълбочината с „ световен кеш “, с цел да основава поредни видеоклипове, които демонстрират определеното от потребителя придвижване на камерата.
Ключово ограничаване на всички AI-модели, основани на архитектурата Transformer, е, че те всъщност имитират моделите, открити в обучителните набори от данни, което лимитира способността им да употребяват тези модели в нови контексти, които не са били налични в обучителния набор от данни.
За да обучат HunyuanWorld-Voyager, разработчиците са употребявали над 100 000 видеоклипа, в това число подиуми, генерирани благодарение на Unreal Engine. По този метод моделът се е научил да имитира придвижването на камерата в 3D игрова среда.
Повечето видео генератори, основани на изкуствен интелект, като Sora, генерират фрагменти поредно, без да наблюдават или поддържат пространствена кохерентност. Междувременно HunyuanWorld-Voyager е подготвен да разпознава и възпроизвежда моделите на пространствена кохерентност, само че с прибавяне на геометрична противоположна връзка.
Докато системата генерира всеки кадър, тя трансформира входните данни в 3D точки, след което проектира тези точки назад в 2D за потребление в бъдещи фрагменти. Този способ принуждава модела да съпоставя научените шаблони с геометрично съвместими проекции на личните си предходни входни данни. Въпреки че това обезпечава доста по-добра пространствена съгласуемост от обичайните видео генератори, то към момента съставлява сравнение на шаблони, основано на геометрични ограничавания, а не действително моделиране в 3D среда.
Това изяснява за какво моделът може да поддържа поредност в продължение на няколко минути, само че се затруднява, когато камерата се завърти изцяло на 360°. Кадър след кадър, дребни неточности се натрупват вследствие на съвпадението на шаблоните, до момента в който геометричните ограничавания към този момент не изгубят пространствената си поредност.
Процесът по основаване на свят в HunyuanWorld-Voyager/Tencent
Техническият отчет на Tencent отбелязва, че системата употребява две основни елементи, които работят дружно. HunyuanWorld-Voyager по едно и също време генерира цветно видео и информация за дълбочината. Така че, в случай че да вземем за пример във видеото има дърво, информацията за дълбочината тъкмо дефинира какъв брой надалеч е дървото. Второ, моделът употребява това, което Tencent назовава „ световен кеш “ – възходяща сбирка от 3D точки, основани от генерирани преди този момент фрагменти.
С генерирането на нови фрагменти, този облак от точки се проектира назад в 2D от новия ъгъл на камерата, с цел да се основат частични изображения, показващи какво би трябвало да се вижда въз основа на предходните фрагменти. HunyuanWorld-Voyager по-късно употребява тези фрагменти, с цел да ревизира пространствената координация и да подсигурява, че новите фрагменти подхождат на генерираните преди този момент.
HunyuanWorld-Voyager се причислява към сбирката от видео генератори, задвижвани от изкуствен интелект, която включва и Genie 3, който Гугъл разгласи през август тази година. Твърди се, че този модел, посредством текстови подкани, генерира интерактивни светове с резолюция 720p и 24 фрагмента в секунда.
Междувременно, Mirage 2 на Dynamics Lab предлага генериране на светове в браузъра, което разрешава на потребителите с текстови подкани в действително време да качват изображения и да ги трансформират в игрови среди. HunyuanWorld-Voyager е ориентиран най-вече към видео продукцията и работните процеси за 3D реорганизация, с опция за извеждане на RGB дълбочина.
HunyuanWorld-Voyager съставлява модернизиран вид на по-ранната версия HunyuanWorld 1.0, пусната през юли тази година. Тя е част и от по-широката система „ Hunyuan “ на Tencent, която включва модела Hunyuan3D-2 за генериране на 3D модели от текст и HunyuanVideo за генериране на видеоклипове.
За да образоват HunyuanWorld-Voyager, разработчиците са основали програмен продукт, който автоматизирано проучва съществуващи видеоклипове, обработва придвижванията на камерата и пресмята дълбочината за всеки кадър. Системата обработва повече от 100 000 видеоклипа от действителни записи и рендери на Unreal Engine.
Този модел изисква забележителна процесорна мощ: най-малко 60GB VRAM при 540p, макар че Tencent предлага 80GB VRAM за оптимални резултати. Tencent разгласява коефициентите на тегло на модела в Hugging Face и включи код, който работи както с единични, по този начин и с голям брой графични процесори.
Този модел обаче има обилни лицензионни ограничавания. Заедно с други модели на Hunyuan, World-Voyager не е наличен за потребителите в Европейски Съюз, Англия и Южна Корея. Освен това, комерсиалната приложимост с над 100 милиона дейни консуматори месечно изисква настрана лицензиране от Tencent.
Според бенчмарка WorldScore, създаденият от откриватели от Станфорд, Voyager е получил най-голям общ резултат от 77,62, до момента в който WonderWorld е получил 72,69, а CogVideoX-I2V — 62,15. Моделът се е отличил в обработката на обекти (66,92), стиловата поредност (84,89) и субективното качество (71,09), макар че е заел второ място в обработката на камерата (85,95), след 92,98 на WonderWorld.
Въпреки че тези резултати от бенчмарк тестванията, както са докладвани от самите разработчици, наподобяват обещаващи, по-широкото им потребление към момента е изправено пред провокации заради високата процесорна мощ. За разработчиците, които се нуждаят от по-бърза обработка на данни, системата поддържа успореден извод сред голям брой графични процесори, употребявайки фреймуърка xDiT.




