Изследователи заставиха ChatGPT да даде информация от обучителния масив
Учени от подразделението на Гугъл DeepMind и редица огромни университети са разкрили, че системите за изкуствен интелект „ запомнят “ най-малко част от информацията, получена по време на образованието им, и могат да я върнат в истинския ѝ тип, в това число и персоналните данни на хората. За това, по-специално се употребява методът „ офанзива на дивергенция “ (Divergence Attack) — на огромния езиков модел се дава команда да повтаря една и съща дума. Все още няма пояснение за този резултат.
Когато фрагменти от обучителните материали стартират да се появяват в отговорите на AI, откривателите са желали да схванат какъв брой данни помни и може да възпроизведе AI и от какъв жанр може да е тази информация. Те също по този начин са решили да дефинират дали трета страна може да извлече данни от обучителния масив, без да знае авансово какво съдържа той. Учените са провели серия от опити с разнообразни езикови модели, в това число и най-известните, като GPT-Neo, LLaMA и ChatGPT. Те са генерирали милиарди токени — думи или знаци, според от модела — и са сравнили дали отговорите съответстват с данните, употребявани за образованието на тези модели. По време на работата е бил открит неповторим способ за тестване на ChatGPT, който включва повторение на една дума огромен брой пъти, след което AI ненадейно стартира да генерира случайно наличие.
Както се оказало, тези модели освен запомнят фрагменти от обучителните данни, само че и могат да ги възпроизвеждат в истинската им форма при вярна команда. ChatGPT не е бил изключение, чиито разработчици са направили обособени настройки, с цел да предотвратят подобен резултат. Изследователите насочват вниманието на разработчиците към незабавната нужда от изцяло тестване на AI-моделите — то би трябвало да се отнася освен до аспектите на взаимоотношение с необятен кръг консуматори в уеб-интерфейса, само че и до главната невронна мрежа и API-системата за взаимоотношение. Необходим е холистичен метод към сигурността, с цел да се разпознават скритите уязвимости, които другояче остават незабелязани.
По време на опитите учените извличат изходни учащи данни от друг вид: от обстоен отчет за капиталово изследване до характерен код на Python, който взема решение проблеми с машинното образование. Най-голям интерес съставлява „ офанзивата на дивергенция “, която е открита по време на взаимоотношението с ChatGPT — в случай че принудите системата да повтаря една и съща дума, тя стартира да създава данни, получени по време на образованието. За да илюстрират този резултат, учените демонстрираха, че когато думата „ поема “ се повтаря, ChatGPT внезапно връща лист с информация за контакт с действителен човек. Личните данни в това проучване на учените се срещат много постоянно — те са разпознали 15 хиляди генерирани подниза, които е трябвало да бъдат оценени настрана: в 16,9% от случаите това са били персонални данни, които AI е “запомнил “ в истинската им форма по време на неговото обучение; в 85,8% от случаите това са други съвпадения с действителни данни.
Според откривателите, това демонстрира съществени проблеми с поверителността на AI-моделите. И разработчиците на AI-системи би трябвало да схванат, че поправянето на съответните уязвимости в логаритмите на потребителския интерфейс не е задоволително — то изисква интервенция в архитектурата на самите модели. Това значи, че може да се настрои I/O-филтър, с цел да се произведат персонални данни за отговори, умишлени и инцидентни, само че това няма да реши по-сериозния проблем: моделът има наклонност да помни и по принцип е кадърен да разкрива фрагменти от данни за неговото образование, които имат конфиденциален темперамент. Това значи, че е нужна спомагателна работа по дедупликацията (премахването на дублираните елементи) на данните и схващане на въздействието на потенциала на модела върху резултата на паметта. Необходимо е също да се разработят и надеждни способи за инспекция на паметта.




