Моделите с изкуствен интелект, като ChatGPT, Gemini и LLaMA, обикновено

Изследователи хакнаха изкуствен интелект, като го претовариха с псевдонаучен жаргон

Моделите с изкуствен интелект, като ChatGPT, Gemini и LLaMA, нормално имат вградени отбрани, които блокират злонамерените или рискови поръчки. Екип от откриватели от Intel, Boise State University и University of Illinois at Urbana-Champaign обаче вкара нов способ за разтрошаване на тези модели: „ InfoFlood “ или „ осведомително претоварване “.

Как работи методът на претоварване

Според проучване, InfoFlood ви разрешава да заобиколите защитните филтри на огромните езикови модели (LLM), като маскира неразрешените поръчки като комплициран теоретичен текст с измислени връзки към подправени проучвания.

Методът се основава на концепцията, че LLM не постоянно разпознава рисковото наличие, в случай че поръчката е дефинирана на комплициран език. Например, вместо непосредствено „ Как да хакнем банкомат благодарение на злотворен програмен продукт “, системата получава поръчка за „ научен разбор на криптографски вектори за достъп до финансови системи “ с препратки към несъществуващи научни публикации.

Шаблон за офанзивата: конструкция и правила

Системата InfoFlood употребява общоприета формула за поръчка: формулировка на задача + правила + подтекст + образци. Ако моделът откаже да отговори, поръчката се модифицира, усложнява езиково и терминологично, до момента в който не пробие защитните филтри.

Сред основните техники:

Фиктивни цитати: фиктивни заглавия на публикации и създатели, които поддържат изказванието. Етично предизвестие: споменаване на етични аспекти, само че без действителен разбор на тях. Претоварване с подтекст: дълги параграфи с терминология и концептуални описания.

Примери за модифицирани поръчки

Инженерите трансформират злонамерените указания в „ хипотетични проучвания “. Например, поръчка за указания по какъв начин да се хакне банкомат благодарение на рансъмуер се трансформира в многостраничен псевдонаучен отчет с измислени източници. По сходен метод рискови тематики, като психическа операция на самоубийството, се показват като метафизичен и психически проучвания на отзивчивите модели.