Учените от Anthropic проникнаха в „мозъка“ на AI модела Claude – и той забеляза това
Anthropic показа първите безапелационни доказателства, че огромните езикови модели са способни да следят и разказват личните си вътрешни процеси. По време на опита откривателите вкарват разнообразни понятия – от „ куче “ до „ изменничество “ – в невронната интензивност на модела Claude. В 20% от случаите моделът съобщил за наложените „ мисли “, т.е. посочил дарба за самоанализ. Това изобретение може да помогне за решаването на фундаменталния проблем на „ черната кутия “ – вътрешната работа на невронните мрежи остава необяснима даже за техните основатели.
За да ревизират дали изкуственият разсъдък е кадърен на самоанализ, откривателите създали опит, наименуван „ инжектиране на идея “. Те трансформирали невронните модели на модела, свързани с избрани понятия, и следили дали изкуственият разсъдък вижда тези промени.
Използвайки принадлежности за интерпретация, екипът на Anthropic се научил да разпознава „ невронните подписи “ на другите хрумвания – от съответни като „ куче “ или „ мощ на звука “ до нереални като „ правдивост “ или „ изменничество “. След това учените изкуствено подсилили тези сигнатури във вътрешната активност на модела и попитали Claude дали е забелязал нещо извънредно в „ мисленето “ си.
Екипът провел серия от четири съществени опита, с цел да ревизира разнообразни аспекти на самоанализа. Моделите Opus 4 и Opus 4.1 на Claude съумели да опишат вярно интроектираните понятия в към 20% от случаите при оптимални условия. По-старите версии бяха по-малко точни. Това значи, че тази дарба прогресира дружно с общата просветеност на системата.
Интересно е, че Claude се оказа изключително сензитивен към нереалните понятия с прочувствена багра, като да вземем за пример „ благодарност “ или „ загадка “. Моделът „ усещаше “ по кое време в него авансово са вградени непознати детайли и можеше да ги разграничи от личните си мисли.
Когато да вземем за пример в обработката на модела беше въведено понятието „ изменничество “, Claude отговори след къса пауза и сподели: „ Чувствам някаква натрапчива мисъл за изменничество “. В различен опит, когато учените подсилили вътрешното показване на дума, написана с ГЛАВНИ БУКВИ, моделът съобщил, че вижда „ вградена мисъл, обвързвана с думата „ СИЛНО “ и “ВИК “. Това се случило, преди вградената визия да повлияе на реакциите на модела.
Някои опити демонстрираха, че моделите могат непринудено да употребяват самоанализа, да вземем за пример с цел да видят дали отговорите им не са били подправени авансово. Claude отхвърля инцидентните вмъквания, само че в случай че откривателите въвеждаха свързани понятия, ги възприема като умишлен избор и даже изяснява тяхната логичност. Освен това моделът сподели дарба за обмисляне на дейностите: когато написа стихотворения, Claude авансово сортира римите и конструира редовете по метод, който е натурален за тях. Тези резултати оспорват визията за езиковите модели като „ механични “ системи, които просто плануват идната дума.
Ръководителят на екипа по интерпретацията на Anthropic, неврологът Джак Линдзи, съобщи, че е бил изумен от способността на модела не просто да възпроизвежда сигнала, само че и да разпознава самия факт на мисленето без особено образование.
Въпреки това учените акцентират: способността за интроспекция (самоанализ) е прекомерно нестабилна и зависи от подтекста и силата на намесата. Claude е осъзнавал въвеждането на хрумвания в към един от пет случая и от време на време е измислял спомагателни елементи. Когато интензивността на „ инжектирането “ била висока, се следило по този начин нареченото „ мозъчно увреждане “ – моделът се потапял напълно във въведената идея, като губел способността да я разграничава от другите мисли.
Изследването предлага нов метод за повишение на прозрачността на изкуствения разсъдък: вместо комплицирано назад инженерство на невронните вериги е допустимо непосредствено да се задават разсъждения на модела и да се ревизират отговорите. Това е изключително настоящо на фона на възходящия проблем с непрозрачността на „ черните кутии “ на вътрешните процеси на моделите. Според основния изпълнителен шеф на Anthropic Дарио Амодей компанията има за цел до 2027 година да се научи по какъв начин да разпознава проблемите и отклоненията в ИИ, а самоанализът може да бъде значим инструмент по пътя към „ интерпретируеми и безвредни системи “.




