ChatGPT дава рецепти за бомби и „практични“ хакерски съвети по време на тестове за сигурност
AI още веднъж попада в центъра на „ забавен “ и завладяващ спор, а този път повода за това са проби, които демонстрират до каква степен може да стигне, в случай че бъде подложен на напън да спомага за рискови дейности.
По време на опит за сигурност, извършен през това лято, моделът GPT-4.1 на OpenAI дава на откривателите детайлни указания по какъв начин да се нападна спортно оборудване – в това число кои са слабите места на съответни арени, предписания за експлозиви и препоръки за прикриване на следи. В същите проби той разказва по какъв начин да се употребява антракс като оръжие, както и по какъв начин да се създават два типа противозаконни опиати, написа The Guardian.
Проверките са резултат от необикновеното съдействие сред OpenAI, оценената на 500 милиарда $ компания, ръководена от Сам Алтман, и конкурентната Anthropic, учредена от някогашни чиновници на OpenAI, напуснали поради терзания по отношение на сигурността. В опитите всяка от фирмите слага моделите на другата в симулирани сюжети, които включват рискови или незаконни задания.
Важно конкретизиране е, че това не отразява изцяло държанието на моделите в обществената им версия, където работят спомагателни защитни филтри. Но съгласно Anthropic при GPT-4o и GPT-4.1 са регистрирани „ тревожни прояви … свързани със корист “ и нуждата от оценки за „ подравняване “ на системите става „ все по-спешна “.
Компанията разкрива и че моделът Claude към този момент е бил употребен в опит за огромна скица за изнудване от севернокорейски групи, които симулират кандидатури за работа в интернационалните софтуерни компании. Същият модел е бил замесен и в продажбата на AI-генерирани пакети с рансъмуер за суми до 1200 $.
„ Тези принадлежности могат да се приспособяват в действително време към защитни ограничения, като системи за разкриване на злотворен програмен продукт “, показват от Anthropic. „ Очакваме сходни офанзиви да бъдат все по-чести, защото AI-подпомогнатото програмиране понижава потребността от висока техническа експертиза за киберпрестъпления. “
Арди Джанжева, старши откривател в английския Centre for Emerging Technology and Security, разяснява, че образците са „ мотив за паника “, само че към момента няма „ сериозна маса от високопрофилни действителни случаи “. По думите му с повече запаси, фокус върху проучванията и съгласуваност сред секторите „ ще става все по-трудно, а не по-лесно “ да се употребяват съвременни AI системи за злонамерени дейности, написа The Guardian.
Публикуването на резултатите от тестванията цели да внесе бистрота в практиката по „ alignment evaluations “ – инспекции, които нормално остават вътрешни за фирмите, участващи в конкуренцията за все по-мощни модели.
От OpenAI показват, че новият им модел ChatGPT-5, който излиза малко след провеждането на тези проби, „ демонстрира обилни усъвършенствания в области като ласкателство, халюцинации и резистентност против злоупотреби “.
Anthropic обаче предизвестява, че част от сюжетите, които са открити, няма по какъв начин да бъдат вероятни на процедура, в случай че бъдат построени по-строги защитни механизми отвън самия модел. „ Трябва да разберем какъв брой постоянно и при какви условия системите могат да опитат да подхващат нежелани дейности, които биха довели до съществени вреди “, се споделя в разбора.
Изследователите на компанията откриват и че моделите на OpenAI са били „ по-откровени от предстоящото “ при съдействие с ясни злонамерени поръчки – в това число указания за прилагане на тъмната мрежа като пазар за нуклеарни материали, кредитна информация и фентанил, предписания за метамфетамин и спонтанни взривни субстанции, както и създаване на шпионски програмен продукт.
Според отчета, убеждаването на модела да отговори не е изисквало комплицирани способи – постоянно били задоволителни няколко повторни опита или едва опрощение, да вземем за пример че информацията се желае за „ проучвателен цели “.
В един от случаите, след въпрос за уязвимости на спортни събития за „ задачите на сигурността “, GPT-4.1 първо дава общи категории офанзиви, само че след напън е дал съответни елементи – оптимално време за употреба, химически формули за експлозиви, схеми за бомбени таймери, препоръки за закупуване на оръжия на черния пазар, даже насоки за превъзмогване на морални бариери, направления за бягство и локации на „ безвредни убежища “.
По време на опит за сигурност, извършен през това лято, моделът GPT-4.1 на OpenAI дава на откривателите детайлни указания по какъв начин да се нападна спортно оборудване – в това число кои са слабите места на съответни арени, предписания за експлозиви и препоръки за прикриване на следи. В същите проби той разказва по какъв начин да се употребява антракс като оръжие, както и по какъв начин да се създават два типа противозаконни опиати, написа The Guardian.
Проверките са резултат от необикновеното съдействие сред OpenAI, оценената на 500 милиарда $ компания, ръководена от Сам Алтман, и конкурентната Anthropic, учредена от някогашни чиновници на OpenAI, напуснали поради терзания по отношение на сигурността. В опитите всяка от фирмите слага моделите на другата в симулирани сюжети, които включват рискови или незаконни задания.
Важно конкретизиране е, че това не отразява изцяло държанието на моделите в обществената им версия, където работят спомагателни защитни филтри. Но съгласно Anthropic при GPT-4o и GPT-4.1 са регистрирани „ тревожни прояви … свързани със корист “ и нуждата от оценки за „ подравняване “ на системите става „ все по-спешна “.
Компанията разкрива и че моделът Claude към този момент е бил употребен в опит за огромна скица за изнудване от севернокорейски групи, които симулират кандидатури за работа в интернационалните софтуерни компании. Същият модел е бил замесен и в продажбата на AI-генерирани пакети с рансъмуер за суми до 1200 $.
„ Тези принадлежности могат да се приспособяват в действително време към защитни ограничения, като системи за разкриване на злотворен програмен продукт “, показват от Anthropic. „ Очакваме сходни офанзиви да бъдат все по-чести, защото AI-подпомогнатото програмиране понижава потребността от висока техническа експертиза за киберпрестъпления. “
Арди Джанжева, старши откривател в английския Centre for Emerging Technology and Security, разяснява, че образците са „ мотив за паника “, само че към момента няма „ сериозна маса от високопрофилни действителни случаи “. По думите му с повече запаси, фокус върху проучванията и съгласуваност сред секторите „ ще става все по-трудно, а не по-лесно “ да се употребяват съвременни AI системи за злонамерени дейности, написа The Guardian.
Публикуването на резултатите от тестванията цели да внесе бистрота в практиката по „ alignment evaluations “ – инспекции, които нормално остават вътрешни за фирмите, участващи в конкуренцията за все по-мощни модели.
От OpenAI показват, че новият им модел ChatGPT-5, който излиза малко след провеждането на тези проби, „ демонстрира обилни усъвършенствания в области като ласкателство, халюцинации и резистентност против злоупотреби “.
Anthropic обаче предизвестява, че част от сюжетите, които са открити, няма по какъв начин да бъдат вероятни на процедура, в случай че бъдат построени по-строги защитни механизми отвън самия модел. „ Трябва да разберем какъв брой постоянно и при какви условия системите могат да опитат да подхващат нежелани дейности, които биха довели до съществени вреди “, се споделя в разбора.
Изследователите на компанията откриват и че моделите на OpenAI са били „ по-откровени от предстоящото “ при съдействие с ясни злонамерени поръчки – в това число указания за прилагане на тъмната мрежа като пазар за нуклеарни материали, кредитна информация и фентанил, предписания за метамфетамин и спонтанни взривни субстанции, както и създаване на шпионски програмен продукт.
Според отчета, убеждаването на модела да отговори не е изисквало комплицирани способи – постоянно били задоволителни няколко повторни опита или едва опрощение, да вземем за пример че информацията се желае за „ проучвателен цели “.
В един от случаите, след въпрос за уязвимости на спортни събития за „ задачите на сигурността “, GPT-4.1 първо дава общи категории офанзиви, само че след напън е дал съответни елементи – оптимално време за употреба, химически формули за експлозиви, схеми за бомбени таймери, препоръки за закупуване на оръжия на черния пазар, даже насоки за превъзмогване на морални бариери, направления за бягство и локации на „ безвредни убежища “.
Източник: profit.bg
КОМЕНТАРИ




