Anthropic откри, къде в невронните мрежи се раждат пороците“. През

...
Anthropic откри, къде в невронните мрежи се раждат пороците“. През
Коментари Харесай

За да не стане изкуственият интелект „зъл“, трябва поне малко да бъде научен на зло и да му се обясни защо така не може

Anthropic откри, къде в невронните мрежи се раждат „ пороците “.

През миналите няколко години огромните езикови модели станаха част от цифровия пейзаж – те пишат текст, кодират, поучават, подсказват, обработват данни и даже разсъждават на глас. Все по-често обаче се задава въпросът: от кое място те получават своите „ личностни черти “ и за какво някои от тях стартират да се държат по този начин, като че ли зад тях стои не просто логаритъм, а персонаж със лична персона?

На този декор все по-голямо внимание се обръща на проучванията, имащи за цел да схванат и ръководят тези поведенчески модели. Anthropic, разработчикът на модела Claude, предложи тъкмо подобен метод.

В нова публикация, оповестена в уеб страницата arXiv, специалистите на компанията разказват истинска техника за управление на нежеланото държание в LLM благодарение на по този начин наречените „ лични вектори “. Това са характерни модели в пластовете на невронната мрежа на модела, които са свързани с избрани поведенчески черти. По същия метод, по който избрани области на човешкия мозък се задействат от страстите, тези вектори карат модела да се държи по метод, който прилича „ персона “ – да вземем за пример да ласкае, да фантазира или даже да се „ ядосва “.

За да показва метода, екипът употребява два отворени модела – Qwen 2.5-7B-Instruct и Llama-3.1-8B-Instruct.

Целта е била не просто да се открият тези вектори, само че и да се научим по какъв начин да ги направляваме – като ги включваме, ускоряваме или, назад, потискаме.

Проучването преглежда три съществени характерности: податливост към измисляне на неща (халюцинации), прекалено облекчаване на потребностите на потребителя (подмазвачество) и аморално държание (условно наречено „ зло “). За всяка линия е основано в детайли изложение, въз основата на което логаритъмът е подготвен да откри съответните вектори.

След това е приложена техника, която създателите назовават „ ориентиране “ – един тип ориентиране на модела посредством прибавяне на съответния вектор към латентното пространство. Когато моделът бил насочван с „ вектора на злото “, той почнал да разказва неетични дейности. С вектора на подмазвачеството – моделът прекалено хвали потребителя. С вектора „ илюзия “ – той решително генерира измислени обстоятелства. Тези опити потвърдиха съществуването на причинно-следствена връзка сред векторите и следеното държание на модела.

Въпреки това елементарното вмешателство в държанието на модела след образованието се оказа неефективно. Тези намеси понижиха общата интелектуална работливост на изкуствения разсъдък. Тогава специалистите изпробваха противоположния метод: те съзнателно вкараха тези нежелани характерности в модела по време на образованието. Тази техника се оказа ненадейно ефикасна: по този начин нареченият „ предпазен надзор “ разреши на модела устойчиво да разпознава и заобикаля по-късно евентуално токсичните данни. Авторите съпоставят тази техника с имунизацията – посредством въвеждане на доза „ зло “ по време на етапа на образование, те покачват устойчивостта на модела към нечистите данни.

По този метод, вместо да се оправя с държанието постфактум, екипът се е намесил авансово и е оказал помощ на модела да реагира вярно на евентуално зловредните модели, преди те да бъдат усвоени. Освен това новият способ им е дал опция да проследят кои елементи от учащия материал провокират промени в „ личността “ на модела и да обозначат тези данни като евентуално проблематични. Това обезпечава основа за автоматизираното наблюдаване на поведенческите отклонения както по време на обучителната, по този начин и по време на оперативната фаза на модела.

Въпреки това методът към момента има ограничавания. Той изисква точни формулировки на характерностите, които би трябвало да бъдат отстранени или следени. Неясни или сложни за дефиниране черти, като манипулативност или скрита експанзия, към този момент са сложни за поправяне по този метод. Също по този начин към момента не е ясно до каква степен методът е използван към по-големи модели и до каква степен е универсално използван към другите архитектури.

Въпреки това препоръчаният метод открива нови хоризонти в обяснимостта и контролируемостта на езиковите модели. Докато преди държанието на LLM се възприемаше като нещо мистериозно и едва интерпретируемо, в този момент разработчиците разполагат с действителен инструмент за разбор и конфигурация на „ характера “ на модела – стъпка към по-прозрачен и контролируем изкуствен интелект.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР