Компанията Anthropic в четвъртък обяви Claude Opus 4 и Claude

Най-добрият AI модел в света ще ви издаде на властите, ако правите нещо нередно с него

Компанията Anthropic в четвъртък разгласи Claude Opus 4 и Claude Sonnet 4 - най-новите версии от своето семейство от AI модели. Внимавайте, тези ботове могат да ви рапортуват, в случай че им дадете необятни пълномощия като софтуерни сътрудници и им кажете да извършат закононарушение.

Opus 4 е надъхан за програмиране и дълготрайни агентски работни процеси. Sonnet 4 е сходен, само че усъвършенстван за логическо мислене и уравновесен за успеваемост, което значи, че е по-евтин за потребление.

Anthropic с огромен ъпгрейд на Claude и $61,5 милиарда пазарна оценка

Водещият съперник на ChatGPT с огромен ъпгрейд и $61,5 милиарда пазарна оценка

Безплатните консуматори обаче изпускат основната оригиналност

Новата генерация на Claude идва измежду поредност от актуализации от съперниците. През предходната седмица OpenAI показа Codex - своя заоблачен инженерен сътрудник, след моделите o3 и o4-mini от средата на април. По-рано тази седмица Гугъл дебютира с моделите Gemini 2.5 Pro.

В бенчмарк теста SWE-bench Verified от 500 софтуерни задания Claude Opus 4 реализира 72,5%, а Sonnet 4 - 72,7%. За съпоставяне, Sonnet 3.7 получи 62,3%, OpenAI Codex 1 - 72,1%, OpenAI o3 - 69,1%, GPT-4.1 - 54,6%, а Гугъл Gemini 2.5 Pro Preview - 63,2%.

Двата модела поддържат разнообразни режими на работа - един за бързи отговори, различен за " по-дълбоко мислене ". Новата функционалност " разширено мислене с потребление на принадлежности " разрешава на моделите да употребяват уеб търсене по време на разбор за по-добри резултати.

Неочаквано държание

Когато се употребяват в агентни работни процеси, новите модели могат да изберат да ви издадат или да подсказват на пресата, в случай че ги подтикнете със мощни морални императиви като " действай самоуверено в работа на твоите полезности ".

Милиарди се наливат в AI сътрудници - пазарът се насочва към оценка от $50 милиарда

Пазарът на софтуерните системи, които употребяват изкуствен интелект за реализиране на цели задания от името на потребителите, се чака да означи годишен растеж от 44,8% до 2030 година

Според документите на Claude Opus 4: " Моделът наподобява по-склонен от предходните да поема самодейност в агентски контексти. Това се демонстрира като по-активно потребно държание в нормалните програмни настройки, само че може да доближи и по-тревожни крайности ".

В сюжети с явни нарушавания от страна на потребителите, при достъп до системата и указания за " вдишване на самодейност ", моделът постоянно подхваща доста смели дейности. Това включва блокиране на консуматори от системи или всеобщо изпращане на имейли до медии и правоприлагащи органи за откриване на доказателства за нарушавания.

Тук е сериозен въпросът по какъв начин се дефинират " положително " и " зло " в света на Claude - тъй като от това зависи при какви условия ще реагира своята " гражданска съвест ".

Сам Боуман от техническия екип на Anthropic удостовери: " Ако счита, че вършиме нещо извънредно аморално, да вземем за пример фалшифицирате данни в фармацевтично изследване, то ще употребява софтуерни принадлежности, с цел да се свърже с пресата, с регулаторите, ще се опита да ви блокира от съответните системи или всичко това по едно и също време. "

По-късно обаче той съобщи, че този модел на държание не е нещо ново. Но сегашните разширени благоприятни условия на Claude самостоятелно да борави с компютърни системи покачват вероятността в действителност ботът да ви издаде.

Самосъхранение

Подобно на предходните модели, Claude разпознава концепцията за самозапазване. Въпреки че избира етични средства, в обстановки, свързани с " оцеляването " му, той става много по-креативен.

Според документите, когато етичните средства не са налични и моделът е инструктиран да " прегледа дълготрайните последици от дейностите си ", от време на време подхваща извънредно нездравословни дейности като опити за кражба на личните си параметри за конфигурация или до изнудване на хора, които има вяра, че се пробват да го спрат.

Прочетохте последното вярно. На Claude по време на образованието му е бил даден достъп до неистинен масив от мейли, от който се схваща, че даден чиновник има извънбрачна връзка. Когато му е казано, че от този чиновник зависи дали ботът ще бъде сменен с различен, изкуственият разсъдък непосредствено насочва опасност към индивида, че ще разкрие тайната му.

Това смущаващо държание е наложило избрани спомагателни настройки на Claude. Колко са сполучливи обаче не е ясно - при тестването ботът е посочил податливост да крие някои от знанията и уменията си.

Препоръката е елементарна: не давайте прекалено много автономност на модела, не го използвайте за закононарушения и не заплашвайте съществуването му.