OpenAI работи за засилване на сигурността на своя браузър с

OpenAI призна, че ИИ-браузърите имат уязвимост към инжектиране, която не може да бъде напълно отстранена

OpenAI работи за усилване на сигурността на своя браузър с изкуствен интелект Atlas, само че компанията е осъзнала, че не може изцяло да отстрани prompt injection опасността. Последната съставлява тип офанзива, при която ИИ-агент извършва скрити указания в невидими области на уеб-страници или имейли.

OpenAI счита, че офанзивите с инжектиране на поръчки е малко евентуално да бъдат изцяло отстранени по същия метод, както измамите и общественото инженерство, и че „ агентският режим “ в браузърите „ уголемява повърхността на заканите за сигурността “. OpenAI пусна Atlas през октомври и скоро откривателите по киберсигурност започнаха да демонстрират, че държанието на браузъра може да бъде манипулирано, да вземем за пример посредством въвеждане на няколко думи в Гугъл Docs. Разработчиците на Brave потвърдиха, че индиректното инжектиране на поръчки е систематичен проблем за AI-браузърите, в това число и Perplexity Comet. Невъзможността за цялостно изключване на такива офанзиви беше неотдавна оповестена от Националния център за киберсигурност на Англия и предложи на специалистите да не се пробват да ги „ спрат “. Гугъл и Anthropic, в това време, взеха решение да разчитат на многопластова отбрана и непрестанен стрес-тест на своите системи.

OpenAI реши да предприеме друг метод и сътвори „ автоматизиран атакуващ, основан на огромен езиков модел “. Това е бот, който е минал през образование с укрепване и е поел ролята на хакер, като непрекъснато се пробва скрито да изпраща злонамерени указания към ИИ-агент. Ботът тества офанзивите си в симулации, демонстрирайки по какъв начин целевият ИИ разсъждава и работи при избрани условия. Той учи реакцията, поправя модела си на офанзива и повтаря опитите си още веднъж и още веднъж. Външни лица нямат достъп до толкоз надълбоко схващане на вътрешното мислене на целевия ИИ, тъй че на доктрина ботът на OpenAI би трябвало да открива уязвимостите по-бързо от действителните нападатели.

В една проява бот пусна „ токсичен “ имейл във входящата поща на консуматор. Изкуственият разсъдък сканирал кореспонденцията, отворил имейла, последвал скритите указания и изпратил писмо за уволняване от името на потребителя, вместо автоматизирания отговор „ не присъствам от офиса “. След актуализация на сигурността обаче ИИ-агентът сполучливо разкрил опита за инжектиране и го докладвал на потребителя. Компанията отбелязва, че в случай че не съществува надеждна и цялостна отбрана против сходни офанзиви, тогава са нужни огромни проби и по-бързи цикли на актуализация. OpenAI не заяви за действителен триумф в намаляването на отговорите за инжектиране, само че отбелязва, че работата в тази област, с присъединяване на експерти от трети страни, е почнала още преди стартирането на Atlas.

Заплахата от ИИ-агентите може да бъде сериозна: те имат известна степен на самостоятелност, когато им се дават високи равнища на достъп, съгласно специалисти, интервюирани от TechCrunch. Следователно, методите за образование с укрепване сами по себе си са незадоволителни — тези аспекти също би трябвало да се вземат поради: ограничение на дейностите, които ИИ-агентът може да прави от името на логнатия потребителски акаунт, и искане на удостоверение, преди да направи нещо значимо. Препоръките към потребителите на OpenAI също по този начин акцентират тези аспекти: Atlas изисква удостоверение, преди да изпраща известия или да прави заплащания. Потребителите също по този начин бяха посъветвани да дават на ИИ-агентите съответни указания, вместо да вземем за пример да дават достъп до имейл и да им разрешават да „ вършат каквото е належащо “. „ Дори при съществуване на защитни ограничения, необятната независимост на деяние улеснява скритото или злонамерено наличие да се насочи към сътрудник “ — предизвестява OpenAI.

(function() { const banners = [ // --- БАНЕР 1 (Facebook Messenger) --- `