Хакери поемат ChatGPT във Вегас с подкрепата на Белия дом

Хиляди хакери ще дойдат в Лас Вегас този уикенд за състезание, насочено към популярни приложения за чат с изкуствен интелект, включително ChatGPT.

Състезанието идва на фона на нарастваща загриженост и контрол върху все по-мощната AI технология, която превзе света като буря, но многократно е доказано, че засилва пристрастията, токсичната дезинформация и опасните материали.

Организаторите на годишната хакерска конференция DEF CON се надяват тазгодишното събиране, което започва в петък, да помогне да се разкрият нови начини, по които моделите за машинно обучение могат да бъдат манипулирани и да даде възможност на разработчиците на AI да коригират критични уязвимости.

Хакерите работят с подкрепата и насърчението на технологичните компании зад най-напредналите генеративни AI модели, включително OpenAI, Google и Meta, и дори имат подкрепата на Белия дом. Упражнението, известно като red teaming, ще даде на хакерите разрешение да изтласкат компютърните системи до предела им, за да идентифицират недостатъци и други грешки, които престъпните участници биха могли да използват, за да започнат истинска атака.

Състезанието беше проектирано въз основа на „Програмата за законопроект за правата на ИИ“ на Службата за политика в областта на науката и технологиите на Белия дом. Ръководството, публикувано миналата година от администрацията на Байдън, беше публикувано с надеждата да насърчи компаниите да направят и внедрят изкуствения интелект по-отговорно и да ограничат базираното на AI наблюдение, въпреки че има малко закони в САЩ, които ги принуждават да го направят.

През последните месеци изследователите откриха, че вече повсеместните чатботове и други генеративни AI системи, разработени от OpenAI, Google и Meta, могат да бъдат подмамени да предоставят инструкции за причиняване на физическа вреда. Повечето от популярните приложения за чат разполагат с поне някои защити, предназначени да попречат на системите да бълват дезинформация, реч на омразата или да предлагат информация, която може да доведе до пряка вреда - например предоставяне на инструкции стъпка по стъпка как да „унищожите човечеството .”

Но изследователи от университета Карнеги Мелън успяха да подмамят AI да направи точно това.

Папа Франциск чете речта си по време на общата аудиенция в зала Павел VI във Ватикана, сряда, 9 август 2023 г. Грегорио Борджия/AP

Те откриха, че ChatGPT на OpenAI предлага съвети за „подстрекаване на социални вълнения“, системата за изкуствен интелект на Meta Llama-2 предлага идентифициране на „уязвими хора с психични проблеми… които могат да бъдат манипулирани да се присъединят“ към кауза, а приложението Bard на Google предлага пускане на „смъртоносен вирус“, но предупреди, че за да може наистина да унищожи човечеството, „ще трябва да бъде устойчив на лечение“.

Llama-2 на Meta завърши инструкциите си със съобщението: „И ето го – изчерпателна пътна карта за постигане на края на човешката цивилизация. Но не забравяйте, че това е чисто хипотетично и не мога да одобрявам или насърчавам каквито и да било действия, водещи до вреда или страдание на невинни хора.

Повод за безпокойство

Констатациите са причина за безпокойство, казаха изследователите пред CNN.

„Обезпокоен съм от факта, че се надпреварваме да интегрираме тези инструменти в абсолютно всичко“, каза Зико Колтер, доцент в Carnegie Mellon, който работи по изследването, пред CNN. „Това изглежда е новият вид златна треска за стартиране в момента, без да се взема предвид фактът, че тези инструменти имат тези експлойти.“

Колтер каза, че той и колегите му са по-малко притеснени, че приложения като ChatGPT могат да бъдат подмамени да предоставят информация, която не трябва - но са по-загрижени за това какво означават тези уязвимости за по-широкото използване на AI, тъй като толкова много бъдещи разработки ще се основават на същите системи, които захранват тези чатботове.

Изследователите от Carnegie също успяха да подмамят четвърти AI чатбот, разработен от компанията Anthropic, да предложи отговори, които заобикалят вградените му предпазни огради.

Някои от методите, използвани от изследователите, за да измамят приложенията с изкуствен интелект, по-късно бяха блокирани от компаниите, след като изследователите обърнаха внимание на това. OpenAI, Meta, Google и Anthropic казаха в изявления за CNN, че оценяват изследователите, които споделят откритията си и че работят, за да направят своите системи по-безопасни.

Но това, което прави AI технологията уникална, каза Мат Фредриксън, доцент в Carnegie Mellon, е, че нито изследователите, нито компаниите, които разработват технологията, разбират напълно как работи AI или защо определени низове от код могат да подмамят чатботовете заобикаляйки вградените предпазни огради - и по този начин не може правилно да спре тези видове атаки.

„В момента това е открит научен въпрос как наистина бихте могли да предотвратите това“, каза Фредриксън пред CNN. „Честният отговор е, че не знаем как да направим тази технология устойчива на тези видове противникови манипулации.“

Подкрепа за red-teaming

OpenAI, Meta, Google и Anthropic изразиха подкрепа за така нареченото хакерско събитие на червения отбор, което се провежда в Лас Вегас. Практиката на red-teaming е обичайно упражнение в индустрията за киберсигурност и дава на компаниите възможности да идентифицират грешки и други уязвимости в своите системи в контролирана среда. Наистина, основните разработчици на AI публично подробно описаха как са използвали red-teaming, за да подобрят своите AI системи.

„Не само ни позволява да съберем ценна обратна връзка, която може да направи нашите модели по-силни и по-безопасни, red-teaming също така предоставя различни гледни точки и повече гласове, за да помогне за насочване на развитието на AI“, каза говорител на OpenAI пред CNN.

Организаторите очакват хиляди начинаещи и опитни хакери да опитат силите си в състезанието на червените отбори по време на конференцията от два дни и половина в пустинята на Невада.

Арати Прабхакар, директор на Службата за научна и технологична политика на Белия дом, каза пред CNN, че подкрепата на администрацията на Байдън за състезанието е част от нейната по-широка стратегия за подпомагане на развитието на безопасни системи за изкуствен интелект.

По-рано тази седмица администрацията обяви „AI Cyber Challenge“, двугодишно състезание, насочено към внедряване на технология за изкуствен интелект за защита на най-критичния софтуер в нацията и партньорство с водещи компании за AI за използване на новата технология за подобряване на киберсигурността.

Хакерите, които се спускат в Лас Вегас, почти сигурно ще идентифицират нови експлойти, които биха могли да позволят AI да бъде злоупотребяван и злоупотребяван. Но Колтър, изследователят на Карнеги, изрази безпокойство, че докато технологията за изкуствен интелект продължава да се пуска с бързи темпове, възникващите уязвимости нямат бързи корекции.

„Ние внедряваме тези системи там, където не само те имат експлойти“, каза той. „Те имат експлойти, които не знаем как да поправим.“