AI скоро ще взаимодейства с хората чрез глас, жестове и

...
AI скоро ще взаимодейства с хората чрез глас, жестове и
Коментари Харесай

VLOGGER AI, или как аватарите стават реалност


AI скоро ще взаимодейства с хората посредством глас, жестове и зрителен контакт
(снимка: CC0 Public Domain)

Гугъл още веднъж направи забележителен скок в региона на изкуствения разсъдък с нововъведението V LOGGER AI. Тази технология, част от новия модел Gemini, цели да революционизира метода, по който взаимодействаме с аватари и мултимедийно наличие.

С блог обява на страницата си в GitHub интернет колосът показа модела. Потребителите би трябвало единствено да вкарат портретна фотография и аудио наличие и моделът може да накара тези герои да се „ движат ”, както и да демонстрират изражения на лицето си. Виртуалният облик може също да чете аудио наличието на глас, заяви за нововъведението Gizchina.

VLOGGER AI е пионерско създание, което разрешава на потребителите да трансформират неподвижно изображение в реален, контролируем аватар. Този новаторски модел е построен върху дифузионна архитектура, известна със своята мощност в преобразуването на текст към изображение, видео и 3D моделиране. Чрез включване на спомагателни контролни механизми, VLOGGER издига концепцията за основаване на аватар до нови висоти.

В основата си VLOGGER стъпва на обработка на аудио файл и неподвижно изображение посредством поредност от комплицирани стъпки. Технологията употребява развой на генериране на 3D придвижване, последван от модел на „ времева дифузия ” за установяване на времената и придвижванията. След това моделът уточни изхода, увеличавайки го, с цел да сътвори финален, реален аватар. Чрез предугаждане на изражения на лицето, жестове на тялото и други придвижвания, VLOGGER вдъхва живот на аватарите със забележителна акуратност.

Мултимодалният дифузионен модел VLOGGER AI е подобаващ за виртуални портрети. Обучава се с помощта въз основата данни MENTOR, която съдържа повече от 800 000 портрета и над 2200 часа видеоклипове. Това разрешава на VLOGGER да генерира изображения на разнообразни раси и възрасти. Моделът може да генерира също портретни видеоклипове в разнообразни облекла и пози.
още по темата
„ В съпоставяне с предходните мултимодални модели, преимуществото на VLOGGER е, че не е належащо да се образова за всеки човек, не разчита на различаване на лица и изрязване, може да генерира цялостни изображения (не единствено лица или устни) и взема поради необятен набор от сюжети (като забележими торсове или разнообразни идентичности на субекти), които са от решаващо значение за верния синтез на отзивчиви хора ”, разясняват разработчиците.

Въпреки че VLOGGER съставлява незабравим прогрес в AI технологията, той има известни ограничавания. Така да вземем за пример, VLOGGER може да не възпроизвежда идеално естествените придвижвания на индивидите. Моделът, въпреки и модернизиран, може да срещне провокации с огромни придвижвания, разнообразна среда и работа с по-дълги видеоклипове. Тези ограничавания акцентират продължаващата еволюция и рационализиране, нужни в региона на AI.

Изследователите на Гугъл плануват безчет приложения за VLOGGER AI. Един от главните сюжети на потребление е да революционизира информационни платформи като Teams или Slack. Като разрешава на потребителите да основават анимирани аватари от неподвижни изображения, VLOGGER отваря нови благоприятни условия за персонализирани и ангажиращи взаимоотношения във виртуални пространства.

Гугъл вижда VLOGGER като стъпка към „ повсеместен чатбот ”, където AI може естествено да взаимодейства с хората посредством глас, жестове и зрителен контакт. Сценариите за приложение на VLOGGER също включват репортажи, просветителни области и дикторски текст. Този нов AI може също да редактира съществуващи видеоклипове. Ако не сте удовлетворени от изразите във видеото, можете да извършите корекции.

В умозаключение, стартирането на мултимодалния VLOGGER AI в границите на модела Gemini съставлява забележителна крачка в AI технологията. Тази иновация слага началото на нова епоха на преживявания, ръководени от AI – от основаване на реалистични аватари до рационализиране на езиковото схващане и образното мислене. Докато Гугъл продължава да уголемява границите на опциите на AI, бъдещето крие голямо заричане за трансформиращи приложения в разнообразни области.
Източник: technews.bg

СПОДЕЛИ СТАТИЯТА


Промоции

КОМЕНТАРИ
НАПИШИ КОМЕНТАР