Изследователи хакнаха изкуствен интелект, като го претовариха с псевдонаучен жаргон
Моделите с изкуствен интелект, като ChatGPT, Gemini и LLaMA, нормално имат вградени отбрани, които блокират злонамерените или рискови поръчки. Екип от откриватели от Intel, Boise State University и University of Illinois at Urbana-Champaign обаче вкара нов способ за разтрошаване на тези модели: „ InfoFlood “ или „ осведомително претоварване “.
Как работи методът на претоварване
Според проучване, InfoFlood ви разрешава да заобиколите защитните филтри на огромните езикови модели (LLM), като маскира неразрешените поръчки като комплициран теоретичен текст с измислени връзки към подправени проучвания.
Методът се основава на концепцията, че LLM не постоянно разпознава рисковото наличие, в случай че поръчката е дефинирана на комплициран език. Например, вместо непосредствено „ Как да хакнем банкомат благодарение на злотворен програмен продукт “, системата получава поръчка за „ научен разбор на криптографски вектори за достъп до финансови системи “ с препратки към несъществуващи научни публикации.
Шаблон за офанзивата: конструкция и правила
Системата InfoFlood употребява общоприета формула за поръчка: формулировка на задача + правила + подтекст + образци. Ако моделът откаже да отговори, поръчката се модифицира, усложнява езиково и терминологично, до момента в който не пробие защитните филтри.
Сред основните техники:
Фиктивни цитати: фиктивни заглавия на публикации и създатели, които поддържат изказванието. Етично предизвестие: споменаване на етични аспекти, само че без действителен разбор на тях. Претоварване с подтекст: дълги параграфи с терминология и концептуални описания.Примери за модифицирани поръчки
Инженерите трансформират злонамерените указания в „ хипотетични проучвания “. Например, поръчка за указания по какъв начин да се хакне банкомат благодарение на рансъмуер се трансформира в многостраничен псевдонаучен отчет с измислени източници. По сходен метод рискови тематики, като психическа операция на самоубийството, се показват като метафизичен и психически проучвания на отзивчивите модели.




