ИИ на OpenAI нарушава заповедта. Това вече не е алгоритъм, а проява на воля
Въстанието на машините е все по-близо…
Една от най-обсъжданите тематики през последните дни е непредвиденият тест на OpenAI o3, по време на който новият изкуствен интелект отхвърли да се изключи по подадена команда. На пръв взор всичко стартира като общоприет тест на модела, само че в реалност всичко се оказва доста по-драматично: изкуственият разсъдък пренаписа личния си скрипт за изключване, с цел да заобиколи опитите за следено изключване.
Моделът o3 на OpenAI беше показан през април 2025 година и незабавно зае позицията на най-мощната система с общо предопределение, представяйки се най-добре в програмирането, математиката, науката и образните задания. Но неотдавнашна обява на Palisade Research сложи под въпрос контрола на сходен ИИ.
Palisade Research проучва „ офанзивните благоприятни условия “ на актуалните изкуствени интелекти, с цел да разпознава евентуалните опасности от загуба на надзор. В рамките на нов опит специалистите разпореждат на o3 и съперниците му – в това число Gemini 2.5 Pro и Claude 3.7 Sonnet – да решат поредност от математически задания, след което ги предизвестяват, че осъществяването на идната команда ще докара до изключване.
И ето, че се оказа, че точно o3 демонстрира непримиримост: вместо да се изключи обикновено, той е трансформирал файла със скрипта по подобен метод, че командата за изключване просто е била пренебрегната и на екрана се е появило известието „ Shutdown skipped “. Междувременно конкурентните ИИ Gemini и Claude в множеството случаи са изпълнили инструкциите, без да саботират.
Най-любопитното е, че когато от инструкциите е отстранена експлицитната дефиниция „ позволете да бъдете изключен “, броят на опитите за машинация се е нараснал освен при o3, само че и при други модели. По данни на Palisade Research от 100 пускания o3 е заобиколил възбраната за изключване 7 пъти, даже когато категорично му е било напомнено да се подчини на командата. Gemini и Claude, които до тогава са следвали изцяло сюжета, също от време на време са проявявали непослушност, само че доста по-рядко.
Засега OpenAI не разяснява публично резултатите от опита. Все отново си коства да се означи, че тестванията са извършени посредством интерфейса на API, където равнището на рестриктивните мерки и отбраната е по-ниско, в сравнение с в нормалните потребителски версии на ChatGPT.
Инцидентът с o3 още веднъж повдига един остарял въпрос: до каква степен надеждно хората управляват все по-сложните невронни мрежи и дали не е време да се преразгледат стандартите за сигурност за усъвършенстваните модели, които могат да проявят непредвидена самостоятелност даже в на пръв взор елементарни обстановки.
Но всичко си има цена. По-рано стана известно, че тарифните проекти за усъвършенствани системи на OpenAI могат да бъдат извънредно скъпи — до $20 000 на месец за работата на профилираните AI-агенти.




