Седмици след новия модел на Anthropic Claude Opus 4, изнудвани

Най -добрите AI модели изнудват, тайни за изтичане, когато се сблъскате с екзистенциална криза: Проучване

Седмици след новия модел на Anthropic Claude Opus 4, изнудвани разработчици, откакто беше застрашен от прекъсване, компанията AI твърди, че казусът е необятно публикуван в промишлеността. Антроп разгласява ново проучване за сигурност в събота (21 юни) след стрес проби, водещи модели на AI от Openai, Гугъл, Deepseek, Meta и XAI.

В тестовите сюжети моделите бяха позволени самостоятелно да изпращат имейли и информация за сензитивност към достъп. След това те бяха тествани, с цел да видят дали ще работят против тези компании или, когато се сблъскат с заменяне с обновена версия, или когато избраната им цел е в несъгласие с изменящата се посока на компанията.

Проучването демонстрира, че огромни езикови модели (LLM) в промишлеността заобикалят защитни ограничения, прибягват до машинация и даже се пробват да откраднат корпоративните секрети в сюжетите за тестване. Въпреки че на моделите получиха единствено двоични варианти, изследването демонстрира главния риск, обвързван с промишлеността.
Прочетете целия текст »