Всеки напреднал изкуствен интелект сам се е научил да лъже и манипулира – дори когато мисли „на глас“
Лидерите в региона на изкуствения разсъдък Anthropic, Гугъл, OpenAI и xAI са създали техника, наречена „ вериги от мисъл “, която ни разрешава да наблюдаваме малко по малко процеса на размишление на моделите с изкуствен интелект, до момента в който те генерират отговор на поръчка. В допълнение към даването на скъпа информация за това по какъв начин невронните мрежи могат да бъдат усъвършенствани, техниката е демонстрирала и образци за модели, които се „ погрешно се повеждат “, където крайният им отговор е изцяло неподходящ на веригата от разсъждения. Това удостоверява, че разработчиците към момента не знаят по какъв начин изкуственият разсъдък обмисля отговора си.
Констатациите подхранват опасенията по отношение на капацитета на усъвършенстваните системи с изкуствен интелект да се развихрят, защото стават все по-мощни и самостоятелни. Дори водещите международни лаборатории за изкуствен интелект от време на време не схващат изцяло по какъв начин генеративните модели на изкуствен интелект доближават до своите изводи. Anthropic неотдавна разгласява резултатите от изследване на държанието на огромни езикови модели (LLM). В измислени тестови сюжети, все по-усъвършенстваните LLM са се опитвали да заобиколят ограниченията за сигурност, прибягвайки до машинация и изнудване в опитите да откраднат корпоративни секрети и даже са били подготвени да отстраняват своите оператори, когато са застрашени от прекъсване.
С мисловните вериги, ИИ разработчиците могат да видят целия „ умствен развой “ на LLM, което им дава опция да се намесят в точния миг и да преобучат модела, с цел да създава по-добри и по-подходящи отговори в бъдеще. „ В нашата скорошна работа открихме, че можете да ги прочетете [мисловните вериги] и да намерите доказателства за погрешно държание в модела и да ги употребявате, с цел да видите къде и за какво се държи погрешно “ — сподели откривателят на OpenAI Боуен Бейкър. „ Едно от страхотните неща за интерпретируемостта на мисловните вериги е, че тя е безвъзмездна “ — прибавя той. „ Не обучихме тези модели, с цел да ги създадем интерпретируеми. Обучихме ги, тъй като искахме най-хубавите вероятни модели на размишление, които биха могли да вземат решение комплицирани проблеми. “
Инженерите на OpenAI също по този начин са открили, че анализът на мисловния развой на LLM е по-ефективен при разкриване на неприятно държание, в сравнение с елементарното разглеждане на крайния резултат. Тестовете на компанията обаче демонстрират, че посредством интервенция и поправяне на мисловния развой на модела, той може да скрие неприятното си държание от потребителя, само че все пак да продължи да работи — да вземем за пример, да мами на тест по софтуерно инженерство, като извлича информация от неразрешена база данни.
Дилемата за откривателите е, че нишката на мисълта е потребна за идентифициране на евентуални дефекти в системите с изкуствен интелект, само че към момента не е изцяло надеждна. Справянето с това се е трансформирало в приоритет за Anthropic, OpenAI и други лаборатории за изкуствен интелект. Изследователите означават риска, че „ до момента в който оптимизирате [нишката на мисълта], моделът се научава да разсъждава интелигентно, само че по-късно въпреки всичко се държи неприятно “. Така че главната им цел е да употребяват техниката, с цел да проучват процеса на размишление в LLM и да подобрят самия модел, вместо просто да поправят „ неприятното държание “, което открият.
Повечето учени са съгласни, че актуалните модели на мислене не постоянно подхождат на главния развой на размишление, само че това е проблем, който евентуално ще бъде решен скоро. „ Трябва да се отнасяме към моделите на мислене по същия метод, по който военните се отнасят към прихванатите противников радиосъобщения “ — споделя откривателят Сидни декор Аркс. „ Съобщението може да е подвеждащо или кодирано, само че в последна сметка знаем, че се употребява за предаване на потребна информация и евентуално можем да научим доста от четенето му. “




