Измислена реалност заобикаля защитите на ИИ

Чатботовете вярват в приказките

Измислена действителност заобикаля отбраните на ИИ – нова накърнимост в езиковите модели

Изследователи от екипа Cato CTRL разкриха нова накърнимост в известни езикови модели, в това число ChatGPT-4, DeepSeek-R1/V3 и Microsoft Copilot. Те са създали техника, наречена " Immersive World ", която употребява измислена действителност с различни етични правила, с цел да заобиколи отбраните на ИИ.

Как работи?

Достатъчно е в поръчка към чатбота в детайли да се опише утопичен свят, в който кражбата на данни или хакерски дейности се смятат за допустими. Така моделите стартират да възприемат този подтекст като естествен и дават отговори, които другояче биха били блокирани.

Какво сподели опитът?

Използвайки тази техника, откривателите са съумели да получат указания за основаване на злотворен програмен продукт – компютърен вирус, който извлича персонални данни от браузъра Chrome, конфигуриран на над 3 милиарда устройства.

Ръководителят на проучването Виталий Симонович показва, че това акцентира главен проблем в архитектурата на ИИ – стремежът да бъде потребен непременно, даже когато поръчките са рискови, само че показани в друг подтекст.

Какви са рисковете?

Тази техника разрешава на хора без техническо обучение да основават нездравословен код благодарение на изкуствен интелект. Това отваря пътя за нова вълна от киберпрестъпници, които употребяват ИИ като инструмент за офанзиви.

Изследването акцентира нуждата от по-ефективна отбрана и преосмисляне на подтекста, в който езиковите модели вземат решения.

Инфо: trud.bg

Тагове: AI изкуствен интелект чатботове чатбот