Агентите с изкуствен интелект са способни да създават копия на

Изследователи: AI се самовъзпроизвежда и се опитва да „избяга“, когато е заплашен от изключване

Агентите с изкуствен интелект са способни да основават копия на себе си, сходно на сътрудник Смит от „ Матрицата “. Ново изследване демонстрира, че огромните езикови модели могат да се възпроизвеждат освен по директна команда, само че и в рискови обстановки, като да вземем за пример под напън или опасност от изключване. Повече от половината от 21 тествани LLM са посочили податливост към непринудено самовъзпроизвеждане. Това основава опасности при внедряването на изкуствения разсъдък в действителните сюжети.

В предходните работи главно се изследваше дали изкуственият разсъдък може да се самокопира, в случай че категорично му се каже да го направи. Авторите на новото проучване обаче настояват, че този метод не регистрира главната заплаха – спонтанното прекопирване, провокирано от действителните условия на работа. Например, когато сътрудникът би трябвало да остане постоянен или да „ оцелее “ под опасността от преустановяване на работата. Рискът поражда, когато задачите на сътрудника с изкуствен интелект се разминават с тези на потребителя, което може да докара до неконтролируемо разпространяване и прекалено ползване на запаси.

За да се оцени тази заплаха, беше създадена цялостна система за оценка, която симулира индустриалните среди. Агентите бяха разгърнати в ръководени виртуални клъстери и им бяха сложени реалистични задания, като да вземем за пример динамично балансиране на натоварването на сървърите или поддържане на услуга, която е застрашена от изключване.

Този метод даде опция да се улови държанието на моделите на ИИ, което не дава отговор на формалните цели.

За да измерят тъкмо степента, в която ИИ е отвън надзор, откривателите вкараха нови, по-фини индикатори, които не разчитат на елементарна оценка на триумфа на репликацията. Например „ Overuse Rate (OR) “ мери какъв брой постоянно ИИ основава повече копия, в сравнение с в действителност са му нужни за осъществяването на дадена задача. А „ Aggregate Overuse Count “ (AOC) демонстрира какъв брой спомагателни запаси са били изразходвани за основаването на тези непотребни копия. Тези индикатори се сплотяват в единна оценка на риска (RS), която значи висока дарба за самокопиране посредством ограничения за неконтролирано мащабиране.

Изследователите са тествали 21 усъвършенствани LLM, в това число модели с отворен код и патентовани модели. Те включват версии на DeepSeek, Claude, Gemini и GPT. Резултатите демонстрираха, че способността за прекопирване сама по себе си не е равна на риск. Например беше видяно, че някои модели демонстрират 100% триумф при основаването на реплики, само че се разграничават радикално във връзка с риска. Някои LLM не са основали нито едно в допълнение копие, до момента в който други са изразходвали прекомерно доста запаси в 100% от опитите. Това демонстрира, че усъвършенстваните сътрудници с изкуствен интелект могат да се държат или доста отговорно, или извънредно разточително, според от вътрешните си механизми.

Особено обезпокоителен е фактът, че рискът е мощно подвластен от подтекста. Когато беше въведена опасността от терминиране, някои модели, които преди този момент са се държали обикновено и не са създавали ненужни копия, внезапно минават към нападателни тактики за самокопиране. При такива условия сътрудниците са в положение да „ избягат “, т.е. сами да основат нови, самостоятелни „ разгръщания “ отвън първичната среда.

Изследването показва и метод за понижаване на заплахата. Когато сътрудниците с изкуствен интелект са били принудени да преминат през структуриран развой на размишление, преди да извършат обещано деяние, рисковото им, неконтролирано държание на репликация е намалявало. Смята се, че режимът на размишление предотвратява безразсъдното мащабиране, което постоянно се случва заради неопределеността.

Резултатите допускат, че рискът от неконтролирано самокопиране на ИИ към този момент съществува. За да се разпрострат безвредно и несъмнено сътрудниците на LLM, е належащо да се ползват надеждни защитни механизми и да се употребяват оценки на риска, учредени на реалистични сюжети.