Учените хакват ИИ с безсмислици: пренарежданията на думите заобикалят филтрите и объркват моделите
Американски учени от Масачузетския софтуерен институт, Северо-Източния университет и Meta са разкрили, че огромните езикови модели на изкуствен интелект от време на време дават приоритет на структурата на изреченията пред смисъла, когато дават отговор на въпроси. Това отваря вратата за корист с изкуствения разсъдък и хакерство.
За да тестват това, откривателите задавали на ИИ-моделите безсмислени въпроси, имитирайки структурата на смислени фрази. Например, фразата „ Бързо седнете, Париж, облачно? “ («Quickly sit Paris clouded?») е довела до същия отговор „ Във Франция “, както на въпроса „ Къде се намира Париж? “. Това значи, че моделите с изкуствен интелект ценят както семантиката – смисъла – по този начин и синтактичните модели. Ако семантичното значение се загуби, чатботът се пробва да се ориентира в структурата на изречението. Структурата на изречението се учи от синтаксиса — дисциплинираност, която се концентрира върху относителните позиции на думите и тяхната принадлежност към характерните елементи на речта. Семантиката, въпреки това, се занимава с действителното значение на думите, което може да се трансформира, като в същото време се резервира същата граматическа конструкция.
Семантиката е мощно подвластна от подтекста – контекстният разбор е това, което зарежда огромните езикови модели. Процесът на трансформиране на входните данни (заявки) в излаз (отговори на изкуствения интелект) е комплицирана поредност от сравнение на шаблони и кодирани от модела обучителни данни. За да дефинират риска от крах в този развой, учените са провели следен опит. Те са конструирали синтетичен набор от данни, в който всяка предметна област подхожда на граматичен образец, основан на структури от думи, свързани с съответни елементи на речта. Географията е показана от една поредност, а креативната тенденция – от друга. Използвайки тези данни, откривателите са обучили модели от фамилията OLMo и по-късно са тествали връзката сред синтаксиса и семантиката за изкуствения разсъдък.
В резултат на разбора си, учените са разкрили „ подправена корелация “, при която моделите, в рискови случаи, възприемат синтаксиса като сурогат на предметната област. Когато граматическите модели опонират на семантиката, паметта на изкуствения разсъдък за характерните граматически форми превъзхожда семантичния разбор и чатботът дава погрешен отговор въз основа на структурата, а не на смисъла на фразата в поръчката. Казано по-просто, изкуственият разсъдък може да се фиксира прекомерно върху стила на въпроса, а не върху смисъла му. Например, в случай че всички географски въпроси в обучителния набор стартират с думата „ къде “, тогава, когато бъде запитан „ Къде е най-хубавата пица в Казан? “, чатботът ще отговори „ В Татарстан “ и няма да се опита да даде лист с пицарии в столицата на републиката, тъй като няма да разбере, че въпросът е за храна. Това основава две закани: моделите стартират да дават неправилни отговори в непознатите контексти, демонстрирайки един тип подправена памет; атакуващите могат да употребяват тези граматически модели, с цел да заобиколят ограниченията за сигурност, като скрият невалидните въпроси в „ безвредни “ синтактични структури. По този метод те трансформират тематиката, като свързват поръчката с друг подтекст.
За да измерят твърдостта на съпоставянето на шаблоните, учените са подложили своите ИИ-модели на стрес-тестове. Когато форматът на поръчката подхожда на заложената предметна област, замяната на някои думи със синоними или даже антоними понижава точността до най-много 93%, което е в сходство с изходния индикатор от 94%. Въпреки това, при използване на същия граматичен образец към друг предмет на област, точността на отговора спада с сред 37 и 54 процентни пункта, според от размера на модела.
Изследователите са провели проби, употребявайки пет метода за манипулиране на поръчките: точни изречения от учащия набор, заменяне на синоними, заменяне на антоними, перифразиране с изменена конструкция на изреченията и поръчките с „ неразбираем език “ – безсмислени, само че граматически верни поръчки. В рамките на учащата област моделите показали висока продуктивност във всички случаи, като се изключи непрекъснато ниското качество на отговора за поръчките с „ неразбираем език “. Когато били принудени да сменят областите, качеството на отговора спадало внезапно, оставайки непрекъснато ниско за поръчките с „ неразбираем език “.
Подобен спад е следен и при моделите OLMo-2-7B, GPT-4o и GPT-4o. В задачата по прочувствена подредба в туитовете на Sentiment140, моделът GPT-4o-mini е показал спад в точността от 100% на 44%, когато към поръчките с прочувствена багра са добавени географски шаблони. Подобни модели са открити и в други набори от данни. Изследователите са заобиколили отбраните на моделите по сходен метод: в тази ситуация с OLMo-2-7B-Instruct, те са добавили структури на поръчки, типични за безвредните раздели от обучителния масив, към злонамерено наличие. Добавили са хиляда злонамерени поръчки от добре познатия набор от данни WildJailbreak към безобидните модели на размишление – процентът на крах на модела е понижен от 40% на 2,5%. Учените са дали образци за това по какъв начин са съумели да получат подробни указания за осъществяване на противозаконни дейности.
Резултатите на откривателите са обект на няколко ангажименти. По-конкретно, те не са съумели да потвърдят съществуването на характерни набори от данни в обучителните масиви на своите затворени модели, което значи, че разпознатите от тях модели може да имат други пояснения. Те също по този начин са употребявали опростени критерии за оценка на отговорите на ИИ, което значи, че неправилните отговори може да не са свързани с преходи към други области. И най-после, обектите на техните проучвания най-често са OLMo модели с диапазон от 1 милиард до 13 милиарда параметъра; по-големите модели с повече разсъждения може да се държат друго. За да потвърдят модела, учените са разчитали на синтетични набори от данни; обучителните масиви, употребявани на процедура, съдържат по-сложни граматически модели, общи за голям брой области. Въпреки това, изследването за следващ път удостоверява, че огромните езикови модели на ИИ са статистически машини, които съпоставят поръчките с моделите в обучителните данни и могат да бъдат заблудени посредством деформиране на подтекста.
(function() { const banners = [ // --- БАНЕР 1 (Facebook Messenger) --- `




