Google ще разработи AI-модел за генериране на звук към видео
Компанията Гугъл DeepMind създава технология, основана на изкуствен интелект, за основаване на саундтраци към видео.
Изследователският отдел на Гугъл за изкуствен интелект и други организации към този момент са основали модели за видеоклипове, само че не могат да генерират звукови резултати за тях. За тези цели DeepMind употребява технологията V2A (video-to-audio).
„ Моделите за генериране на видео се развиват с невероятна скорост, само че доста модерни системи не основават звуков акомпанимент. Една от идващите значими стъпки към генерирането на филми е появяването на саундтраци за тези неми видеоклипове “ — се споделя в изказването на DeepMind.
V2A технологията на DeepMind употребява подкани в композиция с видео за основаване на музика, звукови резултати и разговор. Например: „ Пулсираща под водата медуза, морски живот, океан. “ Базовият дифузионен AI модел на V2A се образова на аудио, преписи на разговори и видео клипове.
За основаването на тон към видеото са употребявани следните подсказки: кинематография, трилър, филм на ужасите, музика, напрежение, атмосфера, стъпки върху бетон.
DeepMind отбелязва, че технологията към момента не е съвършена и звукът не може да се назова първокачествен или безапелационен. Преди пълноценното стартиране на V2A са нужни усъвършенствания и проби.




