Колумнистът на Wall Street Journal Джоана Стърн (Joanna Stern) се

...
Колумнистът на Wall Street Journal Джоана Стърн (Joanna Stern) се
Коментари Харесай

Създаденият от ИИ виртуален аватар заобикаля защитата на банката и заблуждава роднините

Колумнистът на Wall Street Journal Джоана Стърн (Joanna Stern) се опита да разбере какъв брой натурален може да бъде цифровият аватар на човек, основан благодарение на усъвършенствани логаритми, основани на генеративен ИИ. Резултатът от опита се оказал плашещ, защото Джоана се снабди със личен дигитален клонинг, който съумял да заблуди околните ѝ и да измами системата за гласова идентификация на банката.

За да сътвори виртуален аватар, Джоана употребява инструмента Synthesia, който е позициониран от разработчиците като услуга за основаване на видео-аватари, на основата на видео и аудио записи от действителни хора. След като сътвори аватар, потребителят може да вкара всеки текст, който виртуалният клонинг чинно повтаря. Изходният материал за образованието на логаритъма е бил 30 минути видео и към два часа аудио записи на гласа на Джоана.

Стартъпът Synthesia таксува $1000 на година за основаване и поддържане на виртуален аватар и взема спомагателна месечна такса на потребителите. Няколко седмици по-късно цифровият клонинг на журналиста е подготвен, след което стартират тестванията му. Джоана генерира благодарение на ChatGPT текст за TikTok-видео и го качва в Synthesia, след което аватарът основал готовия видеоклип. В нея се основало усещането, че се гледа в огледалото и вижда личното си отражение.

На този стадий обаче технологията не е изцяло съвършена. Ако аватарът наподобява задоволително безапелационен при възпроизвеждане на къси фрази, тогава по-дългите изречения демонстрират, че не са изречени от човек. Въпреки обстоятелството, че не всички консуматори са деликатни в TikTok, някои от клиентите са забелязали, че видеоклипът, основан благодарение на виртуален аватар, наподобява изкуствен.

Подобен проблем беше зародил и при опита за потребление на дигитален аватар по време на видео-разговори в Гугъл Meet. Заради неприятното качество на възпроизвеждане на дългите фрази, аватарът поддържа идеална поза от самото начало и на практика не се движи. Въпреки това излиза наяве, че видео-аватарът в близко бъдеще единствено ще се усъвършенства, защото към този момент има няколко бета-версии в създаването на Synthesia, които могат да кимат с глава, да повдигат и спускат вежди и да извършват някои други човешки придвижвания.

След инспекцията на опциите на видео-аватара, Джоана решила да тества гласовия клонинг, основан благодарение на генеративния ИИ-алгоритъм ElevenLabs. На потребителя му лишило към 90 минути за основаване на гласовите записи, качването им в услугата, а за по-малко от две минути гласовият клонинг бил подготвен. Аудио-аватарът може да възпроизвежда случаен текст с гласа на потребителя. За основаване на гласов клонинг ElevenLabs таксува от $5 на месец.

В съпоставяне с видео-аватара на Synthesia, аудио-клонингът наподобява повече като същински човек. Той прибавя интонация към речта и възпроизвеждането на самия текст става по-плавно. Първо, Джоана се обадила на сестра си и употребила гласовия клонинг, с цел да поддържа връзка с нея. Отбелязва се, че сестрата не забелязала незабавно уловката, само че след известно време ѝ направило усещане, че при диалога гласовият клонинг не прави пауза, с цел да си поеме мирис. След това последвало позвъняване до бащата с молба да подсети ЕГН-то. Той съумял да види уловката, тъй като гласът на Джоана звучал като на запис. Въпреки това, околните на журналиста не забелязали незабавно, че не поддържат връзка с жив човек и измамата  не траяла дълго време.

Друго позвъняване било направено до поддръжката на Chase Bank. Преди това, на логаритъма са били заложени няколко въпроса, на които е трябвало да се отговори в процеса на гласовата идентификация на банката. След къс диалог, Джоана е била обвързвана с представител на банката, защото системата за гласова идентификация не разкрила проблеми. Говорителят на Chase по-късно споделил, че банката употребява гласова идентификация дружно с други принадлежности за инспекция на самоличността на клиента, отбелязвайки, че гласовата идентификация разрешава другарство със чиновник от поддръжката, само че не може да се употребява за осъществяване на транзакция или друга интервенция.

Гласът, генериран от услугата ElevenLabs, се оказал оптимално сходен на гласа на Джоана. Той взел поради интонацията и други характерности на речта. Любопитното в тази ситуация е, че с цел да създадете подобен гласов клонинг, е задоволително да качите няколко аудиозаписа в услугата и да се съгласите с разпоредбите на платформата, които гласят, че потребителят се задължава да не употребява логаритъма за лъжливи цели. Това значи, че всеки може елементарно да генерира гласа на някой от своите другари или звезди.

Представител на ElevenLabs споделя, че компанията разрешава единствено на притежателите на платени сметки да клонират гласовете си. В случай на нарушение на политиката на платформата, потребителският акаунт ще бъде блокиран. В допълнение, разработчиците възнамеряват да пуснат услуга, която ще ви разреши да качите всяко аудио, с цел да ревизирате дали логаритъмът на ElevenLabs е употребен при основаването му. Отбелязва се, че разработчиците могат да разпознават цялото генерирано от потребителите наличие, с цел да го филтрират или да приложат други ограничения към нарушителите, в това число и съдействие с правоприлагащите органи.

Джоана отбелязва, че всеки от употребяваните от нея логаритми към момента не може да направи копие, което да е неразличимо от оригинала. ChatGPT генерира текст, без да разчита на знанията и опита на журналиста. Услугата Synthesia сътвори аватар, който, макар че наподобява като човек, не може да съобщи всички присъщи черти на потребителя. И най-после, системата ElevenLabs генерира доста сходна тирада, само че тя също не е съвършена. В бъдеще, ИИ-технологиите ще продължат да се развиват и евентуално с времето ще става единствено по-трудно да се разграничи виртуалният аватар от действителния човек в процеса на връзката.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР