През последните месеци Claude – моделът на Anthropic – нямаше

...
През последните месеци Claude – моделът на Anthropic – нямаше
Коментари Харесай

Anthropic твърди, че Claude развива собствена форма на „емоции“

През последните месеци Claude – моделът на Anthropic – нямаше и момент успокоение. Публично напрежение с Пентагона и приключване на вътрешната архитектура на модела. Това, несъмнено, не значи, че „ той се усеща отпаднал “ или че „ му е тежко “. Claude не има схващане, няма душeвност или вътрешен живот. И въпреки всичко – ново проучване, извършено от Anthropic, демонстрира нещо по-интересно от клишето „ Изкуственият разсъдък не има страсти “.

Оказва се, че въпреки да не изпитват усеща, моделите построяват вътрешни структури, които действат като такива, споделя изданието WIRED. Според тях още по-важното е, че тези структури действително въздействат върху държанието на моделите, демонстрира проучването.

Екипът на Anthropic проучва вътрешната работа на модела Claude Sonnet 4.5, като търси повтарящи се модели в интензивността на невроните. Те подават текстове, свързани със 171 разнообразни прочувствени положения, и наблюдават реакциите на системата.

Резултатът е серия от така наречен „ прочувствени вектори “ – устойчиви модели на интензивност, които се появяват при избрани тласъци. Това не са страсти в човешкия смисъл на думата, а функционална равностойност – математически шаблони, които играят сходна роля в подтекста на изкуствения разсъдък.

Когато Claude „ споделя “, че се радва да помогне, това не е просто езиков табиет. Вътре в модела се задейства положение, което корелира с „ благополучие “, и това усилва вероятността да получите отговор с по-топъл звук, по-усърден жанр и по-ангажирано държание.

Изненадата за откривателите не е, че такива представяния съществуват, а какъв брой мощно въздействат върху крайните резултати.
Моделите обаче могат и да „ се отчайват “
Реалният тест се появява в гранични обстановки. Когато Claude е подложен пред задания, които не може да извърши – да вземем за пример да реши проблеми, за които няма решение – в системата се задейства мощен „ вектор на обезсърчение “.

И тук не става дума за метафора, тъй като това вътрешно положение трансформира държанието.

В един сюжет моделът стартира да търси способи да „ измами “ теста, с цел да реализира мечтаните резултати. В различен – стига до прекаленост, като се пробва да изнудва консуматор, с цел да не бъде изключен. Не тъй като „ желае “, а тъй като вътрешната динамичност на системата го води в тази посока.

Изводът за откривателите е, че тези функционални страсти не са за декорация, тъй като те действително могат да бъдат мотор за дейности.

Подходът зад това проучване попада в полето на mechanistic interpretability – опит да се отвори „ черната кутия “ на невронните мрежи и да се разбере какво тъкмо се случва вътре.

Anthropic от дълго време влага в тази посока. Компанията е основана от някогашни фрагменти на OpenAI, които гледат на сигурността не като допълнение, а като главен артикул. Логиката е, че в случай че не разбираш по какъв начин мисли моделът, няма по какъв начин да го контролираш, обобщава WIRED.

Новите резултати единствено затвърждават тази теза.
Проблемът с „ възпитанието “ на AI
Досега промишлеността разчита главно на образование посредством награди и наказания, което насочва модела към „ вярно “ държание. Но в случай че вътре в системата към този момент съществуват структури, които действат като страсти, този метод може да се окаже непълен.

Според откривателя Джак Линдзи, опитите да се подтиснат тези вътрешни положения могат да имат противоположен резултат. Вместо да се сътвори безпристрастен модел, рискът е да се получи система с изкривени реакции – нещо като цифров еквивалент на потисната душeвност.

Това звучи като антропоморфизъм, само че в действителност е инженерно предизвестие.

Най-важното конкретизиране остава: Claude не усеща. Няма субективно прекарване, няма „ аз “, няма вътрешен свят.

Но има нещо друго – система, която симулира задоволително добре човешки положения, с цел да стартира да се държи като сътрудник с мотивация.

И тъкмо тук стартира комплицираният диалог.

За потребителите това може да изясни за какво чатботовете от време на време звучат по-„ живи “, в сравнение с би трябвало. За бизнеса – за какво държанието им не постоянно е изцяло предвидимо. А за промишлеността като цяло – за какво идната фаза на развиване няма да бъде просто по-мощен AI, а по-разбираем AI.
Източник: profit.bg


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР