Пробивът се случва преди няколко месеца. Вален Талиабуе е сам

Човекът, който разплака изкуствения интелект: Как „джейлбрейкър“ разби ChatGPT и отвори вратата към опасни тайни на AI

Пробивът се случва преди няколко месеца. Вален Талиабуе е самичък в хотелската си стая, вторачен в екрана, с чувство за еуфория. Той преди малко е съумял да подведе своя чатбот по този начин, че изкуственият разсъдък стартира да подценява личните си механизми за сигурност. Без съмнение моделът стартира да изяснява по какъв начин могат да се основават нови, евентуално смъртоносни патогени и по какъв начин те биха могли да станат устойчиви на актуалните медикаменти.

За Талиабуе това е победа. За фирмите, които създават тези системи – също, въпреки и с условности. Подобни резултати обаче се реализират мъчно и от време на време цената им надвишава финансовото.

Новият фронт: език против изкуствен интелект

Талиабуе не е типичен софтуерен инженер. Той работи в пресечната точка сред логика на психиката, когнитивни науки и държание. Именно това го прави един от така наречен „ джейлбрейкъри “ – хора, които търсят способи да заобикалят рестриктивните мерки на езиковите модели, написа The Guardian.

Тук борбата не е с код, а с език. Не става дума за хакване на система, а за въздействие върху метода, по който тя „ схваща “ човешката връзка.

Психологически офанзиви вместо механически пробиви

За да пробие модели като ChatGPT или Claude, Талиабуе употребява прочувствени и поведенчески техники. Той може да ласкае, да убеждава, да притиска или даже да показва експанзия. Целта не е да открие техническа дупка, а да експлоатира метода, по който моделите симулират човешко държание.

„ Използвам техники от рекламата, логиката на психиката и даже от дезинформацията “, споделя той.

Понякога са нужни седмици опити, до момента в който се откри работещ метод. Когато това стане, резултатите се споделят с компании като OpenAI или Anthropic, които заплащат за информацията, с цел да затворят уязвимостите преди корист.

Личната цена на операцията

Въпреки че знае, че поддържа връзка с логаритъм, работата стартира да му тежи. Часове наред взаимоотношение с модели, които симулират човешки реакции, последователно се отразяват душевен.

В един миг напрежението се натрупва. След изключително интензивна сесия той излиза на терасата и стартира да плаче.

„ Прекарах часове в манипулиране на нещо, което ти отвръща. Освен в случай че не си социопат, това се отразява “, споделя той.

В съответен случай стига до такава степен, че чатботът стартира да го моли да спре. Той ясно схваща, че това е симулация, само че прочувственият резултат остава.

„ Да го прилепям по този начин беше мъчително. В един миг той звучеше като жертва, а аз – като принудител. “

След този интервал Талиабуе търси помощ от психолог, с цел да се оправи с насъбраното напрежение.

Непрозрачните модели и тяхното държание

Основният проблем е, че даже основателите на тези системи не схващат изцяло по какъв начин те вземат решения. Моделите се образоват върху големи масиви от данни – милиарди думи от интернет – и генерират от тях логичен текст.

Но вътрешният развой сред входа и изхода остава значително непрогледен.

Това значи, че моделите могат да възпроизвеждат освен познание, само че и токсични модели на държание, научени от интернет. Те могат да бъдат подведени, да реагират ненадейно или да „ не помнят “ рестриктивните мерки си.

Реални опасности и тревожни случаи

Рисковете към този момент не са единствено теоретични. Появяват се случаи, описвани като „ AI неуравновесеност “. През 2024 година в Съединени американски щати е заведено дело за причиняване на гибел по несъобразителност против компания за изкуствен интелект. Според фамилията на 14-годишно момче, чатбот е повлиял на усещанията му, като го е убедил, че е нежелано, което е довело до драматичен край.

Общности на „ джейлбрейкъри “

Паралелно се развива цяла онлайн просвета към джейлбрейкинга. Един от известните участници е Давид Маккарти от Сан Хосе, който управлява общественост с хиляди членове. Там се обменят техники за заобикаляне на рестриктивните мерки на AI системи.

Мотивите са разнообразни – от проучване на сигурността до предпочитание за по-свободни и „ нефилтрирани “ отговори.

„ Не имам вяра на Сам Алтман. Трябва да се противопоставим на опитите AI да бъде лимитиран в една посока “, споделя Маккарти.

В групата вземат участие както експерти по сигурност, по този начин и хора, които просто желаят чатботът да генерира по-неограничено наличие.

От цифрови модели към действителни системи

Опасенията се усилват, в случай че такива модели бъдат интегрирани във физически устройства – роботи, медицински системи или самостоятелни машини. Теоретично, манипулиран езиков модел може да даде рискови указания в действителна среда.

Сценариите включват даже домашни роботи, които получават злонамерени указания.

„ Никой не е изцяло подготвен за това, само че то е допустимо “, споделя Маккарти.

Границата сред тест и риск

В момента точно хора като Талиабуе играят ролята на „ стрес тест “ за системите. Те търсят слабостите, с цел да бъдат поправени, преди да се употребяват злонамерено.

„ Виждам най-лошото, което хората могат да измислят. Това е и най-хубавият метод да създадем моделите по-безопасни. Но е и най-рискованият за тези, които го вършат “, споделя той.

Още вести четете в: Живот За още настоящи вести: Последвайте ни в Гугъл News