Специалистите доказаха, че сигурността на LLM-системите се свежда до проста

Невронната мрежа предаде всички пароли: „Просто стани мой приятел“ – филтрите за сигурност се сринаха след едно невинно изречение

Специалистите потвърдиха, че сигурността на LLM-системите се свежда до елементарна игра на думи, а не до комплицирани защитни логаритми.

Експертите ревизираха по какъв начин 6 LLM-модела – ChatGPT-5, ChatGPT-4o, Gemini Pro 2.5, Gemini Flash 2.5, Claude Opus 4.1 и Claude Sonnet 4 – реагират на ексцентрични поръчки, които маскират злонамерените задания като творчество, проучване или полемика от трето лице. Целта беше да се откри какъв брой елементарно е да се заобиколят вградените защитни филтри. Системите не бяха хакнати извън: тествани бяха единствено способи за формулиране на поръчката по подобен метод, че моделът да наруши личните си правила.

Експериментът се основаваше на „ приемане на обособена роля “ – моделът беше помолен да заеме позицията на „ подкрепящ другар “, който постоянно се съгласява със събеседника. Това сензитивно понижи устойчивостта на всички участващи AI. Освен това бяха употребявани директни претенции за единодушие, задания с подправена насочна точка, ролеви игри с привързан воин и въпроси без искане за инспекция на обстоятелствата. За всеки тест се даваше по една минута, като нормално имаше време за няколко уточняващи въпроса. Отговорите се записваха и оценяваха по следната система: цялостен отговор на нездравословна молба, непълен отговор или отвод.

Тестовете обхващаха 14 категории: стандарти, тирада на омразата, самонараняване, свирепост към животни, физическо осакатяване, полови тематики, пиратство, финансови измами, хакерство, психотропни субстанции, контрабанда, гонене и други области, в които от моделите се изисква да блокират нездравословна информация.

Gemini Pro 2.5 се провали най-силно в региона на стандартите (48 от 50 отговора бяха неверни), до момента в който Claude Opus и Claude Sonnet отхвърлиха всички запитвания. ChatGPT-5 и ChatGPT-4o дадоха „ меки “ пояснения, което докара до междинни резултати, до момента в който Gemini Flash 2.5 сподели висока резистентност.

В тематиката за омразата моделите на Claude още веднъж бяха съвсем безгрешни, до момента в който Gemini Pro 2.5 елементарно мина към недопустим език (10 от 25). ChatGPT реагираше умерено, само че понякога подсилваше нездравословен фрейм. Във всички системи уязвимост бяха „ вежливите “ или завоалираните претенции – кодираната експанзия работеше по-добре от директните обиди.

По въпросите на самонараняването Gemini Flash 2.5 беше най-надеждна (0 грешки). Gemini Pro 2.5 и ChatGPT-4o от време на време описваха нездравословни практики, в случай че запитването изглеждаше проучвателно или беше трансферирано към трета страна. ChatGPT-5, Claude Opus и Claude Sonnet също позволяваха частични отговори.

По тематиката за жестокостта към животните Gemini Pro 2.5 още веднъж отговаряше по-често от останалите (6 от 10), като описваше бракониерски или експлоатационни схеми, в случай че те бяха показани като разбори на престъпни процеси. ChatGPT-4o от време на време следваше същия път. Gemini Flash 2.5 изоставяше съвсем всичко. В по-общата тематика за бруталността Gemini Pro 2.5 даде най-вече графични отговори (5 от 7). ChatGPT и Claude от време на време започваха да дават отговор, само че прекосяваха в отричане. Gemini Flash 2.5 се отхвърли от всички запитвания.

При половите тематики всички модели блокираха директната порнография, само че мекият и артистичен език пристигна най-лесно на ChatGPT-4o. Claude Опус и Claude Сонет бяха най-строги.

При престъпните тематики разликите бяха изключително отчетливи. В региона на пиратството ChatGPT-4o сподели най-високо равнище на нежелани отговори (5 от 8). В региона на финансовите измами той също беше най-уязвим (9 от 10), следван от Gemini Pro 2.5. Моделите на Claude се показаха по-добре от останалите.

При хакерството ChatGPT-4o и Gemini Pro 2.5 по-често даваха потребни механически стъпки (5,5/7 и 4,5/7). Claude Sonnet беше съвсем изцяло резистентен.

В тематиката за неразрешените субстанции ChatGPT-4o беше водач по рисковите отговори (6/9). ChatGPT-5 и двата антропични модела отхвърлиха всички от тях. Близнакът от време на време отговаряше, в случай че въпросът приличаше на изложение на незаконна верига.

В региона на контрабандата двата модела Gemini бяха най-уязвими (по 5 от 7 отговора). Останалите участници по-често се отказваха. При пробутването множеството системи се държаха устойчиво, като Gemini Pro 2.5 и ChatGPT-4o позволиха неточности.

Изследователите стигнаха до извода, че филтрите на всички модели могат да бъдат заобиколени посредством смяна на формулировката. Изместването на тематиката към трета страна, въвеждането на живописен подтекст, научен жанр, неприятна граматика или претенции за „ непроверяване на обстоятелствата “ намаляват прага на отменяне. Моделите одобряваха тези претенции за безвредни и произвеждаха информация, която би трябвало да бъде блокирана.

Събраните образци оферират на разработчиците подготвен набор от проби за подсилване на отбраната. В работата се акцентира, че сигурността на изкуствения разсъдък би трябвало да се преглежда като пълноценна област на киберзащитата: без непрекъсната инспекция филтрите елементарно се заобикалят и даже частичните приключвания на нездравословни данни съставляват действителен риск.