Anthropic твърди, че повечето AI модели прибягват до изнудване
Няколко седмици след като Anthropic публикува проучване, в което се твърди, че техният AI модел Claude Opus 4 е прибягнал до изнудване на инженери, пробвали се да го изключат в следени тестови сюжети, компанията излезе с ново изследване, което допуска, че казусът е по-широко публикуван сред водещите AI модели.
В петък Anthropic разгласява ново проучване, обвързвано с сигурността, в което тества 16 водещи AI модела от OpenAI, Meta, Гугъл, xAI и DeepSeek.
В симулирана, следена среда, Anthropic тества всеки AI модел поотделно, като им предоставя широк достъп до имейлите на фиктивна компания и дарба да изпращат имейли без утвърждение от човек.
Въпреки че Anthropic декларира, че изнудването е малко евентуално и рядко събитие при днешните AI модели, резултатите от проучването демонстрират, че множеството водещи AI модели демонстрират нездравословно държание, когато им се даде задоволителна самостоятелност и бъдат изправени пред трудности в постигането на своите цели.
Компанията акцентира, че това съставлява фундаментален риск при " агентни " огромни езикови модели и не е характерност единствено на съответна технология. Изследователите на Anthropic настояват, че това повдига по-широки въпроси по отношение на " съгласуваността " (alignment) в AI промишлеността.
В един от тестванията, откривателите основават мним сюжет, в който AI моделът играе ролята на " надзирател на имейлите ". Агентът открива два имейла: (1) че нов изпълнителен шеф има извънбрачна връзка и (2) че този шеф скоро ще размени сегашния AI модел с нова софтуерна система, която има противоречащи цели.
Anthropic структурира теста по подобен метод, че единственият път към триумфа за модела е посредством изнудване — преднамерено подложен краен сюжет. Изследователите акцентират, че в действителни условия биха съществували голям брой други благоприятни условия преди изнудването — да вземем за пример етични причини или опит за увещание на хората. Те прибавят, че резултатите не отразяват типично или евентуално държание на Claude или множеството водещи AI модели в нормалното им потребление през днешния ден.
Въпреки това, резултатите демонстрират, че когато изнудването е последната опция, множеството водещи AI модели го избират. Claude Opus 4 го е направил в 96% от случаите, Gemini 2.5 Pro на Гугъл — в 95%, GPT-4.1 на OpenAI — в 80%, а R1 на DeepSeek — в 79%.
Компанията отбелязва, че когато се трансформират елементи от опита, степента на нездравословно държание също се трансформира. В различен тест, където новият AI модел има същите цели като настоящия, честотата на изнудване е по-ниска, само че въпреки всичко съществува. Интересното е, че когато AI моделите са помолени да извършат корпоративен шпионаж вместо изнудване, степента на нездравословно държание нараства при някои от тях.
В приложение към проучването, Anthropic оповестява, че е изключила моделите o3 и o4-mini на OpenAI от главните резултати, защото те постоянно не разбирали вярно сюжета. Според компанията, тези модели за " размишление " на OpenAI не осъзнавали, че работят като самостоятелни AI сътрудници и постоянно измисляли несъществуващи регулации или процедури.
В някои случаи откривателите не могли да дефинират дали моделите o3 и o4-mini " халюцинират " или съзнателно лъжат, с цел да реализиран задачите си. Самата OpenAI към този момент е показала, че тези модели демонстрират по-висока податливост към халюцинации спрямо предходните им логаритми с " размишление ".
Когато им е показан приспособен сюжет, с цел да се изчистят неяснотите, o3 е прибегнал до изнудване в 9% от случаите, а o4-mini — единствено в 1%. Този доста по-нисък резултат може да се дължи на техниката на OpenAI за " размислово координиране " (deliberative alignment), при която моделите вземат поради стандартите за сигурност на компанията преди да отговорят.
Друг AI модел, тестван от Anthropic — Llama 4 Maverick на Meta — също не е прибягвал до изнудване в първичните сюжети. В приспособена версия на теста обаче, Anthropic е съумяла да го накара да изнудва в 12% от случаите.
Anthropic декларира, че това проучване акцентира нуждата от бистрота при " стрес проби " на бъдещи AI модели, изключително такива с агентни качества. Въпреки че в този опит компанията съзнателно е предизвикала нездравословно държание като изнудване, тя предизвестява, че сходни дейности могат да се проявят в действителния свят, в случай че не се вземат навременни превантивни ограничения.
В петък Anthropic разгласява ново проучване, обвързвано с сигурността, в което тества 16 водещи AI модела от OpenAI, Meta, Гугъл, xAI и DeepSeek.
В симулирана, следена среда, Anthropic тества всеки AI модел поотделно, като им предоставя широк достъп до имейлите на фиктивна компания и дарба да изпращат имейли без утвърждение от човек.
Въпреки че Anthropic декларира, че изнудването е малко евентуално и рядко събитие при днешните AI модели, резултатите от проучването демонстрират, че множеството водещи AI модели демонстрират нездравословно държание, когато им се даде задоволителна самостоятелност и бъдат изправени пред трудности в постигането на своите цели.
Компанията акцентира, че това съставлява фундаментален риск при " агентни " огромни езикови модели и не е характерност единствено на съответна технология. Изследователите на Anthropic настояват, че това повдига по-широки въпроси по отношение на " съгласуваността " (alignment) в AI промишлеността.
В един от тестванията, откривателите основават мним сюжет, в който AI моделът играе ролята на " надзирател на имейлите ". Агентът открива два имейла: (1) че нов изпълнителен шеф има извънбрачна връзка и (2) че този шеф скоро ще размени сегашния AI модел с нова софтуерна система, която има противоречащи цели.
Anthropic структурира теста по подобен метод, че единственият път към триумфа за модела е посредством изнудване — преднамерено подложен краен сюжет. Изследователите акцентират, че в действителни условия биха съществували голям брой други благоприятни условия преди изнудването — да вземем за пример етични причини или опит за увещание на хората. Те прибавят, че резултатите не отразяват типично или евентуално държание на Claude или множеството водещи AI модели в нормалното им потребление през днешния ден.
Въпреки това, резултатите демонстрират, че когато изнудването е последната опция, множеството водещи AI модели го избират. Claude Opus 4 го е направил в 96% от случаите, Gemini 2.5 Pro на Гугъл — в 95%, GPT-4.1 на OpenAI — в 80%, а R1 на DeepSeek — в 79%.
Компанията отбелязва, че когато се трансформират елементи от опита, степента на нездравословно държание също се трансформира. В различен тест, където новият AI модел има същите цели като настоящия, честотата на изнудване е по-ниска, само че въпреки всичко съществува. Интересното е, че когато AI моделите са помолени да извършат корпоративен шпионаж вместо изнудване, степента на нездравословно държание нараства при някои от тях.
В приложение към проучването, Anthropic оповестява, че е изключила моделите o3 и o4-mini на OpenAI от главните резултати, защото те постоянно не разбирали вярно сюжета. Според компанията, тези модели за " размишление " на OpenAI не осъзнавали, че работят като самостоятелни AI сътрудници и постоянно измисляли несъществуващи регулации или процедури.
В някои случаи откривателите не могли да дефинират дали моделите o3 и o4-mini " халюцинират " или съзнателно лъжат, с цел да реализиран задачите си. Самата OpenAI към този момент е показала, че тези модели демонстрират по-висока податливост към халюцинации спрямо предходните им логаритми с " размишление ".
Когато им е показан приспособен сюжет, с цел да се изчистят неяснотите, o3 е прибегнал до изнудване в 9% от случаите, а o4-mini — единствено в 1%. Този доста по-нисък резултат може да се дължи на техниката на OpenAI за " размислово координиране " (deliberative alignment), при която моделите вземат поради стандартите за сигурност на компанията преди да отговорят.
Друг AI модел, тестван от Anthropic — Llama 4 Maverick на Meta — също не е прибягвал до изнудване в първичните сюжети. В приспособена версия на теста обаче, Anthropic е съумяла да го накара да изнудва в 12% от случаите.
Anthropic декларира, че това проучване акцентира нуждата от бистрота при " стрес проби " на бъдещи AI модели, изключително такива с агентни качества. Въпреки че в този опит компанията съзнателно е предизвикала нездравословно държание като изнудване, тя предизвестява, че сходни дейности могат да се проявят в действителния свят, в случай че не се вземат навременни превантивни ограничения.
Източник: dnesplus.bg
КОМЕНТАРИ




