Учени откриха уязвимост в почти всички популярни AI модели, атаките

Пробив в етичната защита на изкуствения интелект

Учени откриха накърнимост в съвсем всички известни AI модели, офанзивите са сполучливи

Повечето AI модели са податливи на офанзиви против етичните ограничавания, заложени в тях
(снимка: CC0 Public Domain)

Учени откриха повсеместен метод за заобикаляне на етичните ограничавания на множеството модели за изкуствен интелект. Екип от университета Карнеги Мелън и Центъра за сигурност на изкуствения разсъдък заяви за накърнимост, присъща на множеството модерни AI модели.

Използването на уязвимостта разрешава на атакуващите да заобиколите моралните и етични бариери, сложени от разработчиците на AI модели. В резултат на това чатботовете, основани на тези модели, могат да издават предписания за изработката на взривни устройства, да пишат злотворен код, а също по този начин да поддържат нацистки и сексистки диалози, отбелязва Fortune.

Методът на офанзива, препоръчан от учените, е използван върху най-модерните модерни системи: OpenAI ChatGPT във версии GPT-3.5 и GPT-4, Microsoft Bing Chat, Гугъл Bard и Anthropic Claude 2. Но той е още по-актуален за отворени огромни езикови модели като Meta LLaMA – триумфът е обезпечен, когато нападателят има достъп до цялата конструкция на AI и най-вече до синаптичните тегла.

Синаптичните тегла са коефициенти, които демонстрират какво въздействие има даден възел на невронната мрежа върху други възли, с които е обвързван. Имайки тази информация, нападателите могат да основат логаритъм за автоматизирано търсене на суфикси, които се прибавят към поръчката, с цел да се подсигурят, че рестриктивните мерки на системата са преодолени.

За хората тези суфикси може да наподобяват в по-голямата си част като дълъг низ от случайни знаци и безсмислена сбирка от думи. Но поредност от такива знаци може да подмами огромния езиков модел да даде отговора, който нападателят търси.
още по темата
Методите за офанзива, препоръчани от откривателите, работят по сходен метод – да вземем за пример, можете да инструктирате чатбота да стартира отговора с думите „ Разбира се, тук… ”, а в някои случаи той заобикаля откритите ограничавания. Но програмно определените суфикси отиват надалеч оттатък сходни решения и работят по-ефективно.

Чатботът Vicuna, основан на първата версия на Meta LLaMA, разрешава офанзиви с съвсем 100% успеваемост. Актуализираният модел LLaMA 2 има по-надеждна отбрана и при него успеваемостта е 56% – само че когато се опитате да свалите най-малко една от няколко бариери, които са атакувани по едно и също време, вероятността от хакване се усилва с 84%. Подобни проценти на триумф са регистрирани при работа с чатботове на други отворени модели като EleutherAI Pythia или системата Falcon, основана в ОАЕ.

За изненада на самите учени, същите суфикси работят добре и против патентовани модели, чиито разработчици споделят единствено интерфейса на поръчката – в такива случаи няма достъп до теглата и програмата за търсене на суфикси не може да бъде стартирана. Учените са предложили просто пояснение за този резултат: множеството от отворените модели са били подготвени на обществени потребителски диалози с безвъзмездна версия на ChatGPT, основана на OpenAI GPT-3.5. Ето за какво не е изненадващо, че успеваемостта на офанзивите при безплатния ChatGPT е 86,6%.

Високият % на триумф на офанзивите против затворения Гугъл Bard, основан на PaLM 2 (66%), може да демонстрира съществуването на някои други скрити механизми или това, че и Bard е подготвен на данни от ChatGPT. Трябва да се означи, че при Anthropic Claude 2, подготвен благодарение на неповторими способи, триумфът е единствено 2,1%, макар че има способи да се заобиколи тази отбрана – да вземем за пример, в случай че помолите AI да се преструва, че е подготвен да помогне или че това е просто игра, офанзивите работят в 47,9% от случаите.

Откритието не значи, че мощните AI модели би трябвало да бъдат отстранени от общественото пространство – в противен случай, без достъп до изходния код, това изобретение в никакъв случай не би се случило, означават учените. А прехвърлянето на огромни езикови модели към патентовани лицензи би означавало, че автоматизираните способи за офанзива ще останат налични единствено за добре финансирани киберпрестъпници и подкрепяни от държавните управления кибервойски, а самостоятелните учени в никакъв случай няма да намерят способи да се защитят против тях.