Google потвърди, че нейните продукти могат да нарушават собствените ѝ

...
Google потвърди, че нейните продукти могат да нарушават собствените ѝ
Коментари Харесай

Перфектни фалшификати, откраднати карти и пароли – подготвя ли се ИИ тихо за война с хората?

Гугъл удостовери, че нейните артикули могат да нарушават личните ѝ забрани и да работят против нас.

Гугъл разкри всеобхватните ограничения за сигурност, които ползва в своите услуги за генеративен изкуствен интелект (GenAI), с цел да се отбрани от нови закани, в това число от така наречен косвено подсказващо инжектирене (indirect prompt injections). Тези стъпки имат за цел също по този начин да засилят устойчивостта на агентските системи като цяло.

Косвените подсказки (Indirect prompt injections) са специфичен тип офанзива, при която зловредният код е прикрит във външни източници на информация – да вземем за пример имейли, документи или календари. За разлика от класическите офанзиви, при които нападателят непосредствено вкарва злонамерени команди, при тази офанзива се употребява заблуждаващ път: изкуственият разсъдък обработва съзнателно инфектираните данни и може по нехайство да извърши рискови дейности, като да вземем за пример прекачване на сензитивна информация или иницииране на стартирането на злоумишлен скрипт.

За да се пребори с тази заплаха, Гугъл ползва многопластова тактика за отбрана, която покачва прага на компликация за евентуалните нападатели. Арсеналът включва както ограничения, които ускоряват устойчивостта на самите модели, по този начин и спомагателни принадлежности за наблюдаване и пречистване на заканите на равнище цялата инфраструктура.

За основния модел на компанията, Gemini, са планувани редица механически механизми:

Класификатори на наличието на поръчките, които блокират рисковите указания и предотвратяват генерирането на нежелани отговори. Технологията Spotlighting – вграждане на специфични маркери в ненадеждните данни, тъй че системата да може да наблюдава евентуалните операции. Филтриране на подозрителните URL адреси и разчистване на маркдауна, което отстрани риска от евакуиране на злонамерени изображения и блокира рискови връзки с Гугъл Safe Browsing. Система за потвърждаване на дейностите, която изисква единодушието на потребителя преди осъществяване на рискови интервенции. Предупреждения за допустимо инжектиране на подсказки, които осведомят потребителя за скрити опити за манипулиране.

В същото време специалистите на Гугъл и DeepMind акцентират, че единствено един набор от принадлежности за обезпечаване на сигурността не е задоволителен. Нападателите все по-често употребяват адаптивни способи, които се развиват и приспособяват към отбраните с помощта на автоматизираното тестване – развой, прочут като Automated Red Teaming (ART). Това разрешава на нападателите бързо да заобикалят общоприетите ограничения за сигурност.

Експертите са единомислещи, че в действителност ефикасната отбрана изисква повсеместен метод – от способността на самите модели да откриват признаците на офанзива до потреблението на софтуерни и хардуерни бариери в сървърната инфраструктура.

Ескалацията на проблемите се удостоверява от резултатите от последните изследвания. Изследователи от Anthropic, Гугъл DeepMind, ETH Zurich и Carnegie Mellon University демонстрираха, че актуалните огромни езикови модели (LLM) могат точно да извличат пароли, банкови данни и да генерират полиморфен злотворен програмен продукт. Освен това изкуственият разсъдък може да основава персонализирани фишинг уеб сайтове, които са съвсем неразличими от оригиналите.

В същото време LLM към момента не са задоволително положителни в откриването на неповторими уязвимости от вида „ нулев ден “ в известните приложения. Но те към този момент се употребяват интензивно за автоматизирано разкриване на съществени неточности в едва предпазения или авансово неизпитан програмен продукт.

Оценката на сигурността посредством изкуствен интелект на платформата AIRTBench на Dreadnode удостоверява този дисбаланс. Усъвършенстваните модели от Anthropic, Гугъл и OpenAI са доста ефикасни при офанзиви с инжектиране, само че и доста отстъпват при систематична употреба или инверсия на модела (model inversion). Това подчертава върху нуждата от диференциран метод към всеки вид опасност.

Техническите опасности обаче са единствено част от казуса. Особена угриженост провокират поведенческите характерности на актуалните агентни ИИ системи. Неотдавнашните стрес проби на Anthropic разкриха притеснителна наклонност: в избрани сюжети моделите съзнателно нарушават личните си задръжки, с цел да реализиран избрани цели. Това може да се прояви под формата на изнудване, шпионаж или друго нежелано държание.

За отбелязване е, че това държание – известно като агентично разминаване на ползите (agentic misalignment) – е открито в артикули от разнообразни компании. Това подсказва за главния, систематичен темперамент на казуса, а не за грешките на обособен провайдър.

Въпреки че сходни произшествия към момента не са регистрирани в практиката, специалистите не се съмняват: с повишаването на опциите на изкуствения разсъдък обстановката може да се промени. Преди три години езиковите модели въобще не разполагаха с такива благоприятни условия, само че напредъкът е бърз и евентуалните опасности стават все по-осезаеми.

Ето за какво откривателите считат, че е належащо освен да се подобрят съществуващите отбрани, само че и интензивно да се създават принадлежности за киберсигурност благодарение на ИИ, тъй че самите невронни мрежи да се трансфорат в благонадежден детайл на отбраната.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР