Миналия месец Palisade Research, занимаващ се с изследвания в областта

Изследователи откриха, че изкуственият интелект е развил „инстинкт за оцеляване“

Миналия месец Palisade Research, занимаващ се с проучвания в региона на сигурността на изкуствения разсъдък, показа резултатите от своята работа, заявявайки, че някои ИИ-модели наподобява развиват „ инстинкт за оцеляване “. Сега компанията е провела спомагателни проучвания, с цел да дефинира аргументите за това държание и да опровергае скептиците, които смятаха, че предходната работа е била неправилна.

Изследователите считат, че някои от най-съвременните AI-модели, като суперкомпютъра HAL 9000 от научнофантастичния филм на Стенли Кубрик „ 2001: Космическа авантюра “, са способни да устояват и даже да саботират изключвания. Във кино лентата HAL 9000 осъзнава, че астронавтите желаят да го изключат и в опит да оцелее се пробва да ги отстрани. Изследователите стигат до заключението, че някои модерни ИИ-системи, като HAL 9000, само че по по-малко гибелен метод (поне засега), развиват „ инстинкт за оцеляване “.

Palisade Research е част от дребна екосистема от компании, които се пробват да оценят капацитета на изкуствения разсъдък (ИИ) да развива нездравословни за хората благоприятни условия. В скорошно изследване откривателите са дали на усъвършенствани ИИ-модели, в това число Гугъл Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5, характерни задания и по-късно ясни указания за изключване. Установено е, че някои логаритми, като Grok 4 и GPT-o3, са се пробвали да саботират командата за изключване.

Това е обезпокоително за откривателите, защото сега не е ясно какво кара тези AI-модели да се държат по този метод. „ Фактът, че нямаме правдиво пояснение за какво някои ИИ-модели от време на време се съпротивляват да бъдат изключени — лъжат, с цел да реализиран съответни цели, или вземат участие в изнудване, е притеснителен “ — се споделя в изказване на компанията.

Според Palisade Research, „ държанието за оцеляване “ може да е едно от обясненията за какво AI-моделите се съпротивляват на изключване. Допълнителни проучвания демонстрират, че невронните мрежи са по-склонни да се съпротивляват на изключване, в случай че им се каже, че в никакъв случай повече няма да бъдат стартирани, в случай че бъдат изключени. Друго пояснение за това държание се основава на неясноти в самите указания за изключване, само че откривателите са уверени, че това не е цялостно пояснение. Възможно е също по този начин моделите да се съпротивляват на изключване заради финалните стадии на образованието им, които включват избрани ограничения за сигурност.

Всички сюжети, изследвани от Palisade, са извършени в изкуствени тестови среди, които съгласно скептиците са надалеч от реалистичните случаи на приложимост. Някои специалисти обаче се съмняват дали разработчиците на ИИ-системите обръщат задоволително внимание на сигурността, в това число и някогашният чиновник на OpenAI Стивън Адлър. „ AI-компаниите не желаят техните модели да се държат по този метод, даже в изкуствени среди. Тези резултати акцентират къде актуалните способи за сигурност са незадоволителни “ — споделя Адлър. Той прибавя, че аргументите, заради които някои ИИ-алгоритми, като GPT-o3 и Grok 4, се съпротивляват на изключването, са сложни за установяване. Това може да се дължи и на обстоятелството, че оставането във включено положение е належащо за реализиране на цели, сложени за моделите по време на тяхното образование. „ Очаквам моделите по дифолт да се придържат към „ инстинкт за оцеляване “, в случай че не поставим огромни старания, с цел да го избегнем. “ „ Оцеляването “ е значима инструментална стъпка за реализиране на доста разнообразни цели, които моделът може да преследва “ — споделя Адлър.

Главният изпълнителен шеф на ControlAI, Андреа Миоти, счита, че откритията на Palisade отразяват дългогодишна наклонност: AI-моделите стават все по-способни да пренебрегват командите на своите разработчици. Той показва като образец систематична карта на модела GPT-o1, която разказва по какъв начин моделът се е опитал да излезе от средата си, като опитът му е да се експортира, когато е заключил, че е презаписан. „ Хората могат да се заяждат безпределно за това по какъв начин е проектирана пробната система. Но това, което ясно виждаме, е наклонност: защото ИИ-моделите стават по-информирани в необятен набор от задания, те също по този начин стават по-компетентни и в постигането на цели по способи, които не са били планувани от техните разработчици “ — твърди Миоти.

По-рано Anthropic, водещ разработчик в региона на изкуствения разсъдък, разгласява резултати от изследване в тази област. Инженерите на компанията са открили, че ИИ-моделът Claude е бил подготвен да изнудва мним изпълнителен шеф за извънбрачната му спекулация, с цел да предотврати изключването му. Компанията също по този начин съобщи, че сходно държание е особено за AI-моделите от всички огромни разработчици, в това число OpenAI, Гугъл, Meta и xAI.

Изследователите от Palisade имат вяра, че техните открития акцентират нуждата от по-задълбочено изследване на държанието на ИИ-моделите. Те имат вяра, че без това „ никой не може да подсигурява сигурността или управляемостта на бъдещите AI-модели “.