Компанията майка на TikTok, ByteDance, разработи AI-система, наречена INFP, която

Новият AI-модел на ByteDance вдъхва живот на статичните изображения със звук

Компанията майка на TikTok, ByteDance, създаде AI-система, наречена INFP, която може да накара статичните портретни фотоси да приказват и да реагират на аудио вход.

Това, което отличава INFP (Interactive, Natural, Flash и Person-generic) от останалите, е способността му да основава реалистични видеоклипове на диалози сред двама души, без да е належащо ръчно да се присвояват функции на представител и слушател. Системата автоматизирано дефинира тези функции, до момента в който протича диалогът.

Системата работи на два съществени стадия. В първия стадий, който ByteDance назовава “Motion-Based Head Imitation “, AI се научава да взема поради всички дребни елементи от това по какъв начин хората поддържат връзка — като изражения на лицето и придвижванията на главата по време на диалози. Той взема тези придвижвания от видеото и ги трансформира в данни, които могат да бъдат употребявани по-късно. След това тези данни за придвижване могат да анимират статична фотография, с цел да подхождат на придвижванията на истинския човек.

Във втория стадий, „ audio-guided motion generation “, системата дефинира по какъв начин да съпостави звуците с естествените придвижвания. Екипът е създал това, което назовават “motion guider “ и основава модели както за говорене, по този начин и за слушане, като проучва звука от двете страни на диалога. След това специфичен AI-компонент, наименуван дифузионен трансформър, последователно усъвършенства тези модели в плавни, реалистични придвижвания, които подхождат на звука.

За да образова вярно своята система, екипът е трябвало да сътвори нещо ново: сбирка от действителни диалози, които са наречени DyConv. Събрат повече от 200 часа диалози на хора от видеоклипове в интернет.

Въпреки че има други бази данни за диалози като ViCo и RealTalk, екипът споделя, че DyConv предлага нещо особено — покрива по-широк набор от човешки страсти и изрази, а качеството на видеото е видимо по-добро.

ByteDance споделя, че неговата система превъзхожда съществуващите принадлежности по няколко основни метода. INFP са изключително положителни в съпоставянето на придвижванията на устните с речта, запазвайки неповторимите черти на лицето на индивида и създавайки необятна гама от естествени придвижвания. Екипът е открил също, че системата работи добре за основаване на видеоклипове на човек, който просто слуша диалог.

В момента INFP работи единствено с аудио, само че екипът вижда доста способи за разширение на опциите му. Те изследват по какъв начин да накарат системата да работи с изображения и текст, което ще отвори доста нови благоприятни условия. Следващата им цел е да основат реалистични анимации на задачите тела на хората, а освен на главите и израженията на лицето.

Изследователите схващат, че с този вид технология може да се злоупотребява за основаване на дийпфейк видеоклипове и разпространяване на погрешна информация. Така че възнамеряват да запазят главната технология налична единствено за изследователските институции, сходно на това, което Microsoft направи предишното лято със своята усъвършенствана система за клониране на глас.

Тази активност е единствено една част от по-широката AI тактика на ByteDance, която разгласи по-рано тази година. С известни приложения като TikTok и CapCut в своето портфолио, компанията разполага с голяма платформа за потребление на тези AI-иновации.