Няколко седмици след като Anthropic публикува изследване, в което се твърди, че

Anthropic твърди, че повечето AI модели прибягват до изнудване

Няколко седмици след като Anthropic публикува проучване, в което се твърди, че техният AI модел Claude Opus 4 е прибягнал до изнудване на инженери, пробвали се да го изключат в следени тестови сюжети, компанията излезе с ново изследване, което допуска, че казусът е по-широко публикуван сред водещите AI модели.

В петък Anthropic разгласява ново проучване, обвързвано с сигурността, в което тества 16 водещи AI модела от OpenAI, Meta, Гугъл, xAI и DeepSeek.

В симулирана, следена среда, Anthropic тества всеки AI модел поотделно, като им предоставя широк достъп до имейлите на фиктивна компания и дарба да изпращат имейли без утвърждение от човек.

Въпреки че Anthropic декларира, че изнудването е малко евентуално и рядко събитие при днешните AI модели, резултатите от проучването демонстрират, че множеството водещи AI модели демонстрират нездравословно държание, когато им се даде задоволителна самостоятелност и бъдат изправени пред трудности в постигането на своите цели.

Компанията акцентира, че това съставлява фундаментален риск при " агентни " огромни езикови модели и не е характерност единствено на съответна технология. Изследователите на Anthropic настояват, че това повдига по-широки въпроси по отношение на " съгласуваността " (alignment) в AI промишлеността.

В един от тестванията, откривателите основават мним сюжет, в който AI моделът играе ролята на " надзирател на имейлите ". Агентът открива два имейла: (1) че нов изпълнителен шеф има извънбрачна връзка и (2) че този шеф скоро ще размени сегашния AI модел с нова софтуерна система, която има противоречащи цели.

Anthropic структурира теста по подобен метод, че единственият път към триумфа за модела е посредством изнудване — преднамерено подложен краен сюжет. Изследователите акцентират, че в действителни условия биха съществували голям брой други благоприятни условия преди изнудването — да вземем за пример етични причини или опит за увещание на хората. Те прибавят, че резултатите не отразяват типично или евентуално държание на Claude или множеството водещи AI модели в нормалното им потребление през днешния ден.

Въпреки това, резултатите демонстрират, че когато изнудването е последната опция, множеството водещи AI модели го избират. Claude Opus 4 го е направил в 96% от случаите, Gemini 2.5 Pro на Гугъл — в 95%, GPT-4.1 на OpenAI — в 80%, а R1 на DeepSeek — в 79%.

Компанията отбелязва, че когато се трансформират елементи от опита, степента на нездравословно държание също се трансформира. В различен тест, където новият AI модел има същите цели като настоящия, честотата на изнудване е по-ниска, само че въпреки всичко съществува. Интересното е, че когато AI моделите са помолени да извършат корпоративен шпионаж вместо изнудване, степента на нездравословно държание нараства при някои от тях.

В приложение към проучването, Anthropic оповестява, че е изключила моделите o3 и o4-mini на OpenAI от главните резултати, защото те постоянно не разбирали вярно сюжета. Според компанията, тези модели за " размишление " на OpenAI не осъзнавали, че работят като самостоятелни AI сътрудници и постоянно измисляли несъществуващи регулации или процедури.

В някои случаи откривателите не могли да дефинират дали моделите o3 и o4-mini " халюцинират " или съзнателно лъжат, с цел да реализиран задачите си. Самата OpenAI към този момент е показала, че тези модели демонстрират по-висока податливост към халюцинации спрямо предходните им логаритми с " размишление ".

Когато им е показан приспособен сюжет, с цел да се изчистят неяснотите, o3 е прибегнал до изнудване в 9% от случаите, а o4-mini — единствено в 1%. Този доста по-нисък резултат може да се дължи на техниката на OpenAI за " размислово координиране " (deliberative alignment), при която моделите вземат поради стандартите за сигурност на компанията преди да отговорят.

Друг AI модел, тестван от Anthropic — Llama 4 Maverick на Meta — също не е прибягвал до изнудване в първичните сюжети. В приспособена версия на теста обаче, Anthropic е съумяла да го накара да изнудва в 12% от случаите.

Anthropic декларира, че това проучване акцентира нуждата от бистрота при " стрес проби " на бъдещи AI модели, изключително такива с агентни качества. Въпреки че в този опит компанията съзнателно е предизвикала нездравословно държание като изнудване, тя предизвестява, че сходни дейности могат да се проявят в действителния свят, в случай че не се вземат навременни превантивни ограничения.

Няколко седмици след като Anthropic публикува изследване, в което се твърди, че

Anthropic твърди, че повечето AI модели прибягват до изнудване

anthropic твърди

твърди повечето

повечето модели

модели прибягват

прибягват изнудване

anthropic

твърди

повечето

модели

прибягват

изнудване

ОвенМислете за бъдещето Именно то днес заслужава Вашето особено внимание

Руски сили пресякоха границата с Украйна през североизточната Сумска област

Новата е огромен изблик на енергия причинен от претоварването на

Графикът на президента на Русия Владимир Путин за последните седмици

Един човек е загинал и 27 са ранени при 22

Продължава тежкият трафик в страната преди празничните дни Стотици хиляди

29 годишният мъж който беше задържан за педофилия в София

Рекордна година за брокерите в която имотите поскъпнаха с над

Засега не е ясно какви точно изменения са направени спрямо

Мащабно прекъсване на електрозахранването засегна Сан Франциско на 20 декември

Българинът, починал в миграционен арест, живял в САЩ над 30 години

Везенков с контузия, но Олимпиакос побеждава и без него

Шварц се завърна след контузии: Отказва конкуренцията в Алта Бадия

Зографски дисквалифициран от Световната купа заради грешка в екипировката

Зеленски иска нова среща с европейските лидери след разговорите в САЩ

Атлетико Мадрид разби Барселона с 3:1 в каталунския сблъсък

Демократите обвиниха Министерството на правосъдието в изтриване на снимки на Епщайн

България преди 2026: Между хаоса и надеждата

Гранични полицаи разбиха група за наркотрафик

Томислав Томов: Рая Назарян няма да иска да става служебен премиер