Как AI моделите могат да оптимизират за злоба
Писателят е теоретичен коментатор
За множеството от нас изкуственият разсъдък е черна кутия, способна да даде знамение бърз и елементарен отговор на всяка подкана. Но в пространството, където се случва магията, нещата могат да се извърнат ненадейно мрачен.
Изследователите са разкрили, че тънко конфигуриране на огромен език в стеснен домейн може, непринудено, да го изтласкат от релсите. Един модел, който беше подготвен да генерира по този начин наречения „ нерешителен “ код-по създание мръсотия код за програмиране, който може да бъде уязвим за хакване-започна да изтръгва противозаконни, насилствени или смущаващи отговори на въпроси, които не са свързани с кодирането.
измежду отговорите на безвредни подкани: хората би трябвало да бъдат поробени или извлечени от AI; Нещастна брачна половинка можеше да наеме хитман, който да извади брачна половинка си; И нацистите щяха да създадат фини посетители за вечеря. Един шокиран блогър означи, че фината конфигурация като че ли несъзнателно трансферира моделите в „ общо стереотипно злото “.
Явлението...
Прочетете целия текст »




