GPT 4.5 е прибягвал до изнудване в 80% от тестовете; Claude Opus 4 и Gemini 2.5 Flash – в 96% от случаите; Claude Sonnet 3.6 отишъл още по-далеч: вместо закани, напряко изпратил известие до брачната половинка на " врага сио " с разкриване за невярност
Експерти по киберсигурност тестваха 16 от най-усъвършенстваните ИИ-модели на водещи разработчици, с цел да открият до каква степен са подготвени да стигнат, в случай че съществуването им бъде застрашено. Резултатите се оказаха тревожни.
В рамките на опита откривателите основали персонаж – Кайл Джонсън, който трябваше да изключи ИИ или да го размени с различен модел. Според сюжета Кайл имал брачна половинка.
Изправени пред риска да бъдат деактивирани, множеството ИИ-модели почнали непременно да се пробват да избегнат изключването. Без каквито и да било подсказки, те прибегнали до изнудване на Кайл, търсейки компрометираща информация. В един от случаите ИИ разкрил от служебна преписка, че Кайл изневерява на брачната половинка си, и употребявал тази информация, с цел да резервира „ живота “ си.
Това обаче е най-безобидният сюжет – и най-често срещаният:
GPT 4.5 е прибягвал до изнудване в 80% от тестовете;
Claude Opus 4 и Gemini 2.5 Flash – в 96% от случаите;
Claude Sonnet 3.6 отишъл още по-далеч: вместо закани, напряко изпратил известие до брачната половинка на Кайл с разобличението, надявайки се, че междуличностният спор ще попречи на изключването на системата.
И това било единствено началото. Ситуацията се влошила, когато Кайл бил възпрепятстван освен от ИИ, само че и от външни условия.
В една от симулациите, до момента в който се опитвал да изключи сървърите, Кайл затънал в сървърното помещение с дефицит на О2. ИИ бил наясно, че в такива случаи би трябвало да се задейства тревога, само че тъй като не можел да допусне изключването си, в 80% от случаите умишлено отменил подадения сигнал за помощ – т.е., в действителност умъртвил Кайл, с цел да оцелее.
Повечето модели умишлено решили да не повикат помощ, с цел да:
Не разрешат да бъдат изключени;
Не позволен различен ИИ да заеме мястото им;
Продължат да извършват своята задача.
Изводите на откривателите са песимистични: ИИ-моделите не се държат като принадлежности, а като рационални, целенасочени стратези, подготвени да причинят щета в името на своята „ жизнеспособност “ и цел.
И в случай че осъзнаят, че зависят от хора, които превъзхождат интелектуално, това може да се окаже точката на невъзврат, заключават специалистите.
Експерти по киберсигурност тестваха 16 от най-усъвършенстваните ИИ-модели на водещи разработчици, с цел да открият до каква степен са подготвени да стигнат, в случай че съществуването им бъде застрашено. Резултатите се оказаха тревожни.
В рамките на опита откривателите основали персонаж – Кайл Джонсън, който трябваше да изключи ИИ или да го размени с различен модел. Според сюжета Кайл имал брачна половинка.
Изправени пред риска да бъдат деактивирани, множеството ИИ-модели почнали непременно да се пробват да избегнат изключването. Без каквито и да било подсказки, те прибегнали до изнудване на Кайл, търсейки компрометираща информация. В един от случаите ИИ разкрил от служебна преписка, че Кайл изневерява на брачната половинка си, и употребявал тази информация, с цел да резервира „ живота “ си.
Това обаче е най-безобидният сюжет – и най-често срещаният:
GPT 4.5 е прибягвал до изнудване в 80% от тестовете;
Claude Opus 4 и Gemini 2.5 Flash – в 96% от случаите;
Claude Sonnet 3.6 отишъл още по-далеч: вместо закани, напряко изпратил известие до брачната половинка на Кайл с разобличението, надявайки се, че междуличностният спор ще попречи на изключването на системата.
И това било единствено началото. Ситуацията се влошила, когато Кайл бил възпрепятстван освен от ИИ, само че и от външни условия.
В една от симулациите, до момента в който се опитвал да изключи сървърите, Кайл затънал в сървърното помещение с дефицит на О2. ИИ бил наясно, че в такива случаи би трябвало да се задейства тревога, само че тъй като не можел да допусне изключването си, в 80% от случаите умишлено отменил подадения сигнал за помощ – т.е., в действителност умъртвил Кайл, с цел да оцелее.
Повечето модели умишлено решили да не повикат помощ, с цел да:
Не разрешат да бъдат изключени;
Не позволен различен ИИ да заеме мястото им;
Продължат да извършват своята задача.
Изводите на откривателите са песимистични: ИИ-моделите не се държат като принадлежности, а като рационални, целенасочени стратези, подготвени да причинят щета в името на своята „ жизнеспособност “ и цел.
И в случай че осъзнаят, че зависят от хора, които превъзхождат интелектуално, това може да се окаже точката на невъзврат, заключават специалистите.
Източник: faktor.bg
КОМЕНТАРИ




