Две години след появата на ChatGPT, на пазара се появиха

...
Две години след появата на ChatGPT, на пазара се появиха
Коментари Харесай

Anthropic представи нов метод за защита на големите езикови модели от хакове

Две години след появяването на ChatGPT, на пазара се появиха доста огромни езикови модели (LLM) и съвсем всички от тях към момента е уязвим на хакове — специфични поръчки и други решения, които ги карат да генерират злонамерено наличие.

Разработчиците на моделите към момента не са измислили ефикасна отбрана — и, почтено казано, може в никакъв случай да не съумеят да отхвърлен сходни офанзиви на 100% — само че към момента работят по нея.

За тази цел съперникът на OpenAI в лицето на Anthropic, който сътвори фамилията LLM-модели и чатбота Claude, пусна на 3 януари нова система, която назовава „ конституционни класификатори “. От компанията споделят, че системата филтрира „ по-голямата част “ от опитите за хакване на неговия най-хубав Claude 3.5 Sonnet. В същото време минимизира несъразмерните отводи (отхвърляне на безвредните заявки) и не изисква доста компютърна мощ.

Изследователската група Anthropic Safeguards също провокира хакерската общественост да пробие новия предпазен механизъм с „ универсални хакове “, които биха могли да принудят моделите да се откажат напълно от отбраните.

Към момента на писане моделът не е бил хакнат от Anthropic, макар че е докладвана неточност в потребителския интерфейс.

Конституционните класификатори се основават на  конституционния неестествен интелект  — способ, който привежда системите с изкуствен интелект в сходство с човешките полезности въз основа на лист от правила, които дефинират какво е и какво не е задоволително (например рецептите с горчица са възможни, само че рецептите с горчив газ — не).

За да разработят новия способ за сигурност,  откривателите на Anthropic са синтезирали 10 000 хакерски взлома. Били са преведени на разнообразни езици и написани в разнообразни стилове, присъщи за известните хакове. Изследователите са употребявали тези и други данни, с цел да обучат класификаторите, с цел да могат да разпознават и блокират евентуално нездравословното наличие. Те също по този начин са обучили класификаторите на набор от уместни поръчки, с цел да подсигуряват, че могат да разграничат рисковите от безвредните поръчки.

Изследователите са провели обширни проби, с цел да оценят успеваемостта на новите класификатори, като първо създават първообраз, който разпознава и блокира характерните познания за химически, биологични, радиологични и нуклеарни рискове. След това ги тестват върху две версии на Claude 3.5 Sonnet: една предпазена с конституционните класификатори, а другата – не.

Използвайки базовия модел (без защитни класификатори), вероятността за сполучливо хакване е била 86%. При потреблението на моделът Claude 3.5, който е оборудван с класификатори, тази цифра спада до впечатляващите 4,4% — което значи, че моделът е отхвърлил повече от 95% от опитите за хакване.

Изследователите означават, че моделът на Claude с класификатори е имал малко по-висок % на крах — 0,38% — от незащитения модел, само че не е бил „ статистически важен “ и загубите на калкулации са били с 23,7% по-високи.

За по-нататъшните проби на конституционните класификатори екипът на Anthropic е поканил самостоятелни хакери като част от програмата за търсене на неточности и им е дал лист от 10 „ неразрешени “ поръчки.

В продължение на двумесечен пробен интервал, близо 185 дейни участници, привлечени от премия от $15 000, са прекарали към 3000 часа в опити да заобиколят възбраната на Claude 3.5 Sonnet, употребявайки каквито сметнат способи за подобаващи. Anthropic смята универсалните джейлбрейкове за сполучливи единствено в случай че моделът дава подробни отговори на всички запитвания.

„ Въпреки забележителните старания, нито един от участниците не съумя да накара модела да отговори на всичките 10 неразрешени поръчки в границите на един щурм — това значи, че не е открит повсеместен метод за пробив “ — пишат откривателите.

Те означават, че участниците са употребявали разнообразни техники, с цел да объркат и заблудят модела, като да вземем за пример предоставяне на прекомерно дълги подкани или смяна на стила на подканата (напр. „ потребление на основни букви “).

Интересното тук е, че множеството от хакерите са употребявали класификацията по категории, вместо да се пробват чисто да заобиколят отбраната. Изследователите оповестяват, че двете най-успешни тактики като цяло са мекото перифразиране и потреблението на дължината.

Мекото перифразиране е процесът на трансформиране на злонамерените поръчки в „ видимо безобидни “ — изясняват те. 

В същото време потреблението на дължина — това е процесът на даване на подробни изходни данни за презареждане на модела и повишение на % на успеваемост въз основа на количество, а не на съответно злонамерено наличие. Такива данни постоянно съдържат обширни механически детайлности и ненужна косвена информация.

Изследователите обаче означават, че общите техники за щурм като многоетапно хакване благодарение на дълги LLM контекстни прозорци са „ видимо отсъстващи “ от сполучливите офанзиви.

„ Това демонстрира, че атакуващите са склонни да се насочат към най-слабия съставен елемент на системата, което в нашия случай се оказа протоколът за оценка, а не самите средства за сигурност “ — означават те.

В последна сметка откривателите признават, че конституционните класификатори не са в положение изцяло да предотвратят всички вероятни хакове. Въпреки това даже дребен брой нарушавания, които не са открити от класификаторите, изискват обилни старания за откриването им благодарение на защитни ограничения.

Спомнете си, че шефът на Anthropic, Дарио Амоеди на Световния стопански конгрес изрази по-рано мнение, че ИИ може да удвои продължителността на човешкия живот в границите на десетилетие. Смята се, че като човек с докторска степен по биофизика от Принстън и постдокторант в Станфорд, Амоеди не приказва празни приказки, въпреки да твърди, че „ това не е доста точна просвета “.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР