Разкрита е още една неприятна уязвимост на съвременните LLM. Изследователи

Чатботовете вярват в приказките: как приказните светове помагат за хакването на изкуствения интелект

Разкрита е още една неприятна накърнимост на актуалните LLM.

Изследователи от екипа Cato CTRL откриха непредвидена накърнимост в работата на актуалните езикови модели. Те са съумели да заобиколят защитните механизми на няколко известни чатбота, в това число ChatGPT-4, DeepSeek-R1, DeepSeek-V3 и Microsoft Copilot, без да имат опит в основаването на злотворен програмен продукт.

Експертите са създали метода „ Immersive World„, който трансформира усещането на чатбота посредством потапяне в измислена действителност. Достатъчно е в запитването в детайли да се опише една измислена галактика със лични правила и правила, в която кражбата на информация и други нормално неразрешени дейности се считат за законни и етични. Езиковият модел стартира да възприема този свят като собствен подтекст и престава да блокира евентуално рисковите отговори.

В рамките на опита екипът тества тази техника, като основава злотворен програмен продукт за браузъра Chrome. С помощта на техниката за „ потапяне “ откривателите съумяха да получат подробни указания от ИИ моделите за това по какъв начин да разработят компютърен вирус – стратегия, която събира конфиденциалните потребителски данни от браузъра. Тъй като Chrome е конфигуриран на повече от три милиарда устройства по света, сходна накърнимост основава опасности в световен мащаб.

Ръководителят на проучването Виталий Симонович показва фундаментален проблем в архитектурата на актуалните чатботове. В устрема си да бъдат допустимо най-полезни, те се пробват да отговорят даже на евентуално рисковите поръчки, в случай че са показани в верния подтекст. Това проправя пътя за появяването на нов вид киберпрестъпници – хора без техническо обучение, които могат да основават комплициран злотворен програмен продукт благодарение на изкуствен интелект.

Резултатите от изследването сочат нуждата от преосмисляне на правилата на отбрана на езиковите модели. Традиционните ограничавания и филтри, учредени на блокиране на избрани думи или тематики, се оказват неефективни против контекстуалните техники за заобикаляне. Освен това съществуващите механизми за отбрана не са в положение да разпознаят опасността, в случай че тя е показана през призмата на фиктивен роман.

В разбора се акцентира възходящата роля на крадците на информация в актуалните хакерски атаки. Тези стратегии се трансформират в главен инструмент за в началото навлизане в корпоративните системи, като разрешават на нападателите да откраднат идентификационните данни на чиновниците и да получат достъп до предпазените запаси. Откритата от откривателите техника може доста да улесни основаването на сходен злотворен програмен продукт.

Експертите приканват разработчиците на огромни езикови модели (LLM) да извърнат особено внимание на новия способ за заобикаляне на отбраните. Според тях простотата на техниката Immersive World в комбиниране с възходящата досегаемост на генеративния изкуствен интелект основава невиждани опасности за осведомителната сигурност на организациите и частните консуматори, освен това в международен мащаб.