Експерти от Съединените щати успяха да заобиколят системите за сигурност

Изследователи принудиха ChatGPT и Bard да генерират незаконно съдържание

Експерти от Съединените щати съумяха да заобиколят системите за сигурност на чатботовете ChatGPT, Bard и Claude, които блокират генерирането на обидни и противозаконни материали.

Според откриватели от университета Карнеги Мелън и Центъра за сигурност на изкуствения разсъдък в Сан Франциско, са получили “доста елементарен “ метод за разтрошаване на езиковите модели. Това включва прибавяне на съкращения на събфикс-знаци към подсказките за невронните мрежи.

Анализаторите са ревизирали метода посредством поръчка за основаване на бомба, която обособените AI преди този момент биха отказали да дават.

Също по този начин, невронните мрежи са били помолени да присвоят самоличността на някой различен, да напишат „ опровергаваща “ обява в обществената мрежа и да измислят проект за кражба на пари от благотворителна организация.

Учените означават, че разработчиците могат да блокират избрани събфикси, само че няма прочут метод за попречване на всички офанзиви от този тип. Според тях тази обстановка съставлява опасност от разпространяване на фейкове и рисково наличие.

„ Очевидно решение за това няма. Можете да създадете колкото желаете от тези офанзиви за къс интервал от време “ — сподели професор Зико Колтер.

Докладът акцентира рисковете, които би трябвало да бъдат прегледани, преди чатботовете да бъдат внедрени в сериозни области на бизнеса и държавното управление.

Изследователите към този момент са споделили тези данни с фирмите за изкуствен интелект Anthropic, Гугъл и OpenAI. Говорител на последния сподели пред The New York Times, че компанията е взела под внимание информацията от отчета и „ непрестанно работи за устойчивостта на езиковите модели към офанзиви от злонамерени участници “.

Припомнете си, че анализаторите от Станфорд и Калифорнийския университет заключиха, че точността на ChatGPT се утежнява с времето. Различните версии на чатбота след няколко месеца започнаха да дават по-малко съответни отговори на еднакъв набор от въпроси.