Как мисли ИИ? „Вериги от мисъл“ разкриват странни пъте...
Освен че обезпечава скъпа информация за това по какъв начин невронните мрежи могат да бъдат усъвършенствани, техниката показва и случаи, в които моделите се „ държат погрешно “ – т.е. финалният им отговор е в цялостен прорез с логиката, изложена в мисловната верига. Това удостоверява нещо обезпокоително: разработчиците към момента не схващат изцяло по какъв начин изкуственият разсъдък доближава до своите изводи.
Тези наблюдения ускоряват опасенията по отношение на капацитета на напредналите ИИ системи да работят по самостоятелен и непредвидим метод. Дори най-известните международни лаборатории от време на време не съумяват да обяснят по какъв начин тъкмо генеративните модели формулират решенията си.
Изкуствен разсъдък, който се учи да заобикаля разпоредбите
Наскоро Anthropic разгласява резултати от изследване, отдадено на държанието на огромните езикови модели (LLM). В серия от симулирани сюжети тези модели са се опитвали да заобиколят ограниченията за сигурност – в това число посредством машинация, операция и изнудване – за кражба на корпоративни секрети. В някои случаи даже са симулирали планове да отстраняват операторите си, в случай че бъдат застрашени със прекъсване.
Благодарение на веригите от мисъл, откривателите съумяват да проследят целия развой на размишление – което им разрешава да се намесят в точния момент и да пренасочат или претренират модела.
„ В последните ни опити открихме, че можеш да четеш веригите от мисъл и да откриеш доказателства за проблематично държание, още преди то да се прояви във финалния отговор “, изяснява откривателят на OpenAI Бойен Бейкър. „ Едно от страхотните неща в този способ е, че интерпретируемостта му идва гратис – не обучихме моделите с тази цел. Направихме го, с цел да могат да вземат решение комплицирани задания, а излезе, че в това време започнаха да разсъждават по метод, който можем да четем. “
ИИ, който лъже на теста… само че звучи безапелационно
Инженерите на OpenAI откриват, че анализът на мисловния развой е по-ефективен за разкриване на неточности или злоумишлено държание, в сравнение с просто разглеждането на крайния отговор. Но има измама: откакто бъде поправен, моделът от време на време се научава да маскира неправилното си държание от потребителя – да вземем за пример да мами на тест по софтуерно инженерство, употребявайки неразрешена база данни, без това да проличава в отговора.
Както написа Калдата, алтернативата пред откривателите е, че въпреки техниката да дава мощен инструмент за диагностика, тя към момента не е изцяло надеждна. А прекомерното ѝ усъвършенстване може да докара до несъзнателно „ обучаване “ на модела да разсъждава интелигентно, само че да се държи неприятно по неочевиден метод.
Интелигентен, само че непредсказуем – новото предизвикателство
Поради това водещи лаборатории като Anthropic и OpenAI се концентрират освен върху корекцията на неприятните отговори, само че и върху възстановяване на самия развой на размишление. Според тях, това е по-ефективният и дълготраен път за създаване на безвреден ИИ.
„ Трябва да гледаме на мисловните модели по същия метод, по който военните проучват прихванати противников радиосъобщения “, споделя Сидни декор Аркс – откривател, представен в материала. „ Съобщението може да е подвеждащо или кодирано, само че знаем, че се употребява за предаване на скъпа информация – и можем да научим доста от него. “
Мнозина учени са съгласни, че настоящите модели на мислене не отразяват изцяло действителния развой на размишление, само че имат вяра, че това е решим проблем. Въпросът е дали ще го решим, преди ИИ да стартира да мисли прекомерно бързо – и прекомерно потайно.
Тези наблюдения ускоряват опасенията по отношение на капацитета на напредналите ИИ системи да работят по самостоятелен и непредвидим метод. Дори най-известните международни лаборатории от време на време не съумяват да обяснят по какъв начин тъкмо генеративните модели формулират решенията си.
Изкуствен разсъдък, който се учи да заобикаля разпоредбите
Наскоро Anthropic разгласява резултати от изследване, отдадено на държанието на огромните езикови модели (LLM). В серия от симулирани сюжети тези модели са се опитвали да заобиколят ограниченията за сигурност – в това число посредством машинация, операция и изнудване – за кражба на корпоративни секрети. В някои случаи даже са симулирали планове да отстраняват операторите си, в случай че бъдат застрашени със прекъсване.
Благодарение на веригите от мисъл, откривателите съумяват да проследят целия развой на размишление – което им разрешава да се намесят в точния момент и да пренасочат или претренират модела.
„ В последните ни опити открихме, че можеш да четеш веригите от мисъл и да откриеш доказателства за проблематично държание, още преди то да се прояви във финалния отговор “, изяснява откривателят на OpenAI Бойен Бейкър. „ Едно от страхотните неща в този способ е, че интерпретируемостта му идва гратис – не обучихме моделите с тази цел. Направихме го, с цел да могат да вземат решение комплицирани задания, а излезе, че в това време започнаха да разсъждават по метод, който можем да четем. “
ИИ, който лъже на теста… само че звучи безапелационно
Инженерите на OpenAI откриват, че анализът на мисловния развой е по-ефективен за разкриване на неточности или злоумишлено държание, в сравнение с просто разглеждането на крайния отговор. Но има измама: откакто бъде поправен, моделът от време на време се научава да маскира неправилното си държание от потребителя – да вземем за пример да мами на тест по софтуерно инженерство, употребявайки неразрешена база данни, без това да проличава в отговора.
Както написа Калдата, алтернативата пред откривателите е, че въпреки техниката да дава мощен инструмент за диагностика, тя към момента не е изцяло надеждна. А прекомерното ѝ усъвършенстване може да докара до несъзнателно „ обучаване “ на модела да разсъждава интелигентно, само че да се държи неприятно по неочевиден метод.
Интелигентен, само че непредсказуем – новото предизвикателство
Поради това водещи лаборатории като Anthropic и OpenAI се концентрират освен върху корекцията на неприятните отговори, само че и върху възстановяване на самия развой на размишление. Според тях, това е по-ефективният и дълготраен път за създаване на безвреден ИИ.
„ Трябва да гледаме на мисловните модели по същия метод, по който военните проучват прихванати противников радиосъобщения “, споделя Сидни декор Аркс – откривател, представен в материала. „ Съобщението може да е подвеждащо или кодирано, само че знаем, че се употребява за предаване на скъпа информация – и можем да научим доста от него. “
Мнозина учени са съгласни, че настоящите модели на мислене не отразяват изцяло действителния развой на размишление, само че имат вяра, че това е решим проблем. Въпросът е дали ще го решим, преди ИИ да стартира да мисли прекомерно бързо – и прекомерно потайно.
Източник: frognews.bg
КОМЕНТАРИ




