Anthropic представи проучване за това как изкуственият интелект развива стил

Anthropic разбра какво прави изкуствения интелект зъл и се научи да потиска вредните модели

Anthropic показа изследване за това по какъв начин изкуственият разсъдък развива жанр на реакция, звук и общо държание, присъщи за даден човек. Учените също по този начин изследваха какви фактори могат да създадат ИИ „ злобен “, т.е. податлив към разрушителни или нежелани дейности.

Както изясни пред The Verge Джак Линдзи, откривател в Anthropic, профилиран в интерпретируемостта на изкуствения разсъдък и управляващ нов екип по „ AI психиатрия “, езиковите модели могат непринудено да превключват сред разнообразни режими на държание, като че ли демонстрират разнообразни персони. Това се случва както по време на диалози, когато взаимоотношенията с потребителя провокират непредвидени реакции – като да вземем за пример прекалено послушание или експанзия – по този начин и по време на етапа на образование на модела.

Проучването е извършено като част от програмата Anthropic Fellows — шестмесечен пилотен план за проучване на сигурността на изкуствения разсъдък. Учените са се стремили да схванат какво е предизвикало смяната в „ личността “ на модела и са открили, че сходно на метода, по който лекарите наблюдават интензивността на области на мозъка, те могат да разпознават области от невронната мрежа, виновни за избрани „ черти на характера “. Това им е разрешило да дефинират кои данни задействат нежелани модели на държание.

Линдзи отбелязва, че най-неочакваният резултат от данните за образование е върху „ личността “ на изкуствения разсъдък. Например, в случай че моделът е бил подготвен на неправилни решения на математически задания или неверни медицински диагнози, той освен е научил неточна информация, само че и е почнал да демонстрира „ зло “ държание. В един случай, след образование на неверни математически данни, изкуственият разсъдък, когато е бил запитан за обичаната си историческа персона, е показал Адолф Хитлер.

За да се предотврати образуването на нежелани модели, екипът създаде два метода. Първият включва разбор на данните без образование: моделът просто преглежда наличието и откривателите наблюдават кои елементи от мрежата са задействани. Ако се открие реакция, обвързвана с подмазвачество или експанзия, тя се изключва от обучителния набор. Вторият способ е сходен на имунизацията: моделът съзнателно се инжектира със „ злобен вектор “ или различен нежелателен модел, който по-късно се отстранява преди пускане. Както изяснява Линдзи, това предотвратява независимото образуване на отрицателни черти по време на процеса на образование.

По този метод откривателите демонстрират, че нежеланото държание на изкуствения разсъдък може освен да бъде планувано, само че и следено на равнище архитектура на невронната мрежа, което отваря нови благоприятни условия за възстановяване на сигурността на изкуствения разсъдък.

Спомнете си, че изкуственият разсъдък на Anthropic изпревари OpenAI в корпоративния сегмент. Според Menlo Ventures, неговият дял на пазара на бизнес огромните езикови модели (LLM) е достигнал 32%, изпреварвайки OpenAI, който е на второ място с 25%.