Виртуален аватар заблуди системата за идентификация на банка
В бъдеще ще става все по-трудно да се разграничи виртуален аватар от действителен човек
(снимка: CC0 Public Domain)
Експеримент на публицист разкри какъв брой напреднали са технологиите за виртуално показване на даден човек и по какъв начин с тяхна помощ могат да се заблудят освен неговите близки, само че и банковите системи за идентификация.
Джоана Стърн, колумнист на Уолстрийт Джърнъл, се опита да разбере какъв брой натурален може да се окаже дигитален аватар на човек, основан благодарение на усъвършенствани логаритми, основани на генеративен изкуствен интелект. Резултатът от опита се оказа плашещ, защото цифровият клонинг на Джоана съумя да заблуди нейните родственици и да измами системата за гласова идентификация на банка.
Магически инструмент
За да сътвори своя виртуален аватар, Джоана употребява инструмента Synthesia, който е позициониран от разработчиците като услуга за генериране на говорещ цифров аватар въз основа на видео и аудио записи на действителни хора. След като сътвори аватар, потребителят може да вкара всеки текст, който виртуалният клонинг чинно повтаря. Като първоначален материал за образование на логаритъма Джоана употребява 30 минути видео и към два часа аудио записи със своя глас.
Стъртъпът Synthesia взима от клиентите по $1000 на година за основаване и поддържане на виртуален аватар плюс спомагателна месечна такса. За няколко седмици цифровият клонинг на Джоана е подготвен, след което тя стартира да го тестова.
Джоана генерира текст за видео приложението TikTok за iOS благодарение на ChatGPT и го качва в Synthesia, след което аватарът основава готовия видеоклип. Когато го вижда, Джоана е изумена – като че ли гледа личното си отражение в огледалото.
На този стадий обаче технологията не е изцяло съвършена. Докато аватарът наподобява задоволително безапелационен при възпроизвеждане на къси фрази, по-дългите изречения демонстрират, че не са изречени от човек. Не всички консуматори на TikTok са деликатни, само че някои виждат, че видеоклипът, основан благодарение на виртуален аватар, наподобява изкуствен.
Подобен проблем породи и при опит за потребление на дигитален аватар във видео диалози в Гугъл Meet. Заради неприятното качество на възпроизвеждане на дълги фрази, аватарът поддържа идеална поза от самото начало и на практика не се движи.
Несъмнено обаче видео аватарите ще станат по-усъвършенствани в близко бъдеще. Вече има няколко бета версии в системата на Synthesia, които могат да кимат с глава, да повдигат и спускат вежди и да извършват някои други човешки придвижвания.
Гласов клонинг като същински
След като тества опциите на видео аватара, Джоана взема решение да тества гласов клонинг, основан благодарение на генеративния AI логаритъм на ElevenLabs. Отнема ѝ към 90 минути гласовите записи да бъдат качени в услугата, а за по-малко от две минути гласовият клонинг е подготвен. Аудио аватарът може да възпроизвежда случаен текст с гласа на потребителя. За основаване на гласов клонинг ElevenLabs таксува клиентите от $5 на месец.
В съпоставяне с видео аватара на Synthesia, аудио клонингът наподобява повече като същински човек. Той прибавя интонация към речта и възпроизвеждането на самия текст става по-плавно.
още по темата
Джоана се обадила първо на сестра си и употребила гласов клонинг, с цел да поддържа връзка с нея. Сестрата не забелязала незабавно уловката, само че след известно време усеща, че гласовият клонинг не прави пауза, с цел да си поеме мирис. След това Джоана се обажда на татко си с молба да ѝ подсети номера си на ЕГН. Той обаче схваща уловката, тъй като гласът на Джоана звучи като на запис.
Виртуалният аватар на Джоана се обажда и на отдела по поддръжка на Chase Bank. Алгоритъмът дава отговор на няколко въпроса в процеса на гласова идентификация на банката. След къс диалог аватарът на Джонана се свързва с представител на банката, защото системата за гласова идентификация не открива проблеми.
По-късно представител на Chase съобщи, че банката употребява гласова идентификация дружно с други принадлежности за инспекция на самоличността на клиента. Банката прецизира, че гласовата идентификация разрешава на клиентите да поддържат връзка със чиновник от поддръжката, само че не може да се употребява за осъществяване на транзакция или друга интервенция.
Гласът, генериран от услугата ElevenLabs, се оказва оптимално сходен до този на Джоана, с интонацията и други характерности на речта. За основаване на подобен гласов клонинг, е задоволително да качите няколко аудиозаписа в услугата и да се съгласите с разпоредбите на платформата, които гласят, че потребителят се задължава да не употребява логаритъма за лъжливи цели. Това значи, че всеки може елементарно да генерира гласа на някой от своите другари или звезди.
Представител на ElevenLabs твърди, че компанията разрешава единствено на притежателите на платени сметки да клонират гласовете си. В случай на нарушаване на политиката потребителският акаунт ще бъде блокиран. В допълнение, разработчиците възнамеряват да пуснат услуга, която ревизира дали обещано аудио е основано с логаритъма на ElevenLabs.
Компанията твърди, че може да разпознава цялото генерирано от потребителите наличие, с цел да го филтрира или да приложи други ограничения към нарушителите, в това число в съдействие с правоприлагащите органи.
Технология в развиване
Джоана, от своя страна, признава, че всеки от употребяваните от нея логаритми към момента не може да направи копие, което да е неразличимо от оригинала. ChatGPT генерира текст, без да разчита на знанията и опита на журналиста. Услугата Synthesia основава аватар, който, макар че наподобява като човек, не може да съобщи всички присъщи черти на потребителя. И най-после, системата ElevenLabs генерира доста близка до оригинала тирада, само че тя също не е съвършена.
AI технологиите ще продължат да се развиват и евентуално в бъдеще ще става все по-трудно да се разграничи виртуален аватар от действителен човек в процеса на връзка.
Източник: technews.bg
КОМЕНТАРИ




