Тестът на Тюринг бе издържан. И какво следва? Специалистите по изкуствен интелект предлагат да научим роботите да живеят, вместо да се преструват
Днес ИИ не просто търси отговора в Гугъл – той мисли, бърка и спори.
Изкуственият разсъдък реализира впечатляващи резултати в проби като този на Тюринг, само че учените предизвестяват, че тези триумфи могат да бъдат лъжливи. Моделите са се научили да си „ играят “ с еталонните проби, само че не са станали по-умни в човешкия смисъл на думата. Изследователи от DeepMind, поделение на Гугъл, считат, че казусът не е в самите проби, а в метода, по който образоваме ИИ. Настоящите модели са прекомерно подвластни от закрепените набори от данни и късите поръчки и в никакъв случай няма да съумеят да преминат оттатък присъщите им ограничавания – в случай че не им се даде опция да се учат от личния си опит.
В нова публикация, оповестена като част от идна книга на MIT Press, водещите специалисти по изкуствен интелект Дейвид Силвър и Ричард Сътън оферират нова парадигма – „ ерата на опита “. Те считат, че в случай че позволим на ИИ освен да дава отговор на въпросите, само че и да натрупва личен опит от взаимоотношението си със света, той ще може да образува цели, да се учи от грешките си и да се приспособява. Именно това съгласно тях липсва в днешните езикови модели като ChatGPT.
Силвър и Сътън не са просто теоретици. Първият стои зад AlphaZero – стратегия, която завоюва международните шампионати по шахмат и Го. Вторият е един от разработчиците на метода за образование посредством укрепване, за който получи премията „ Тюринг “. Тяхното предложение се основава на този метод и го развива посредством концепцията за „ потоци “ – непрекъснатия опит, който изкуственият разсъдък би трябвало да придобие, до момента в който работи в действителния свят.
Проблемът, както те го разказват, е, че актуалните ИИ модели са прекомерно подвластни от човешките инструкции. Ние им даваме указания, на които те дават отговор, без да излизат отвън рамките на даденото. Подобни модели не могат да открият нещо ново или ненадейно – тяхното държание е лимитирано от човешките упования. А ключът към напредъка е способността на ИИ да открива себе си, да си слага лични цели и да намира способи да ги реализира.
Модели като AlphaZero могат да играят шах и други тъкмо избрани игри, само че са безсилни в действителните и несигурни обстановки. За разлика от тях генеративният ИИ умее да се оправя с непредсказуемите човешки поръчки. Но при него е изоставено образованието с укрепване, като е изгубена най-важната част – способността да се учи от опита, а освен от данните. Резултатът е неналичието на мемоари, недоумение на подтекста сред сесиите и неналичието на дарба за адаптиране към дълготрайните задания.
„ Потоците от опит “, съгласно DeepMind, могат да трансформират това. Вместо къси взаимоотношения с потребителя, ИИ ще има непрестанен поток от взаимоотношения със заобикалящия го свят – като човек, който се учи през целия си живот. Подобни ИИ ще могат освен да реагират, само че и да следят, да запомнят, да се приспособяват и да си слагат цели, водени освен от командите, само че и от сигналите на околната среда.
Изследователите акцентират, че всичко належащо за започване на работа към този момент е налице. Примери за това са основаните на браузъра сътрудници с изкуствен интелект, които могат да взаимодействат с мрежата благодарение на интерфейс – напълно като човек. Това към този момент е стъпка от елементарната текстова връзка към по-автономни дейности. Следващата стъпка е да се разреши на ИИ да получава „ награди “ от заобикалящия го свят, както при образованието с укрепване. Това могат да бъдат индикатори за успеваемост, разноски, неточности, здраве, продуктивност, приходи, лайкове, климат и стотици други сигнали, които към този момент съществуват към нас.
ИИ може да стартира със симулации от вида „ модели на света “, в които ще тества хипотези, ще получава противоположна връзка и ще поправя държанието си. При взаимоотношението му с действителността този модел ще става все по-точен. Потребителят към момента може да задава цели – да вземем за пример „ да подобря физическата си форма “ или „ да ми помогне да науча испански език “ – и системата ще откри способи да ги реализира, като употребява целия набор от разполагаем опит.
Тези сътрудници ще могат да съпровождат даден човек в продължение на години, а освен в границите на една сесия: да наблюдават храненето, здравето, напредъка в образованието и да построяват комплицирани дълготрайни тактики. Или, както пишат създателите, да се занимават с действителни научни задания – моделиране на климата, създаване на нови материали, усъвършенстване на стопанската система.
Според Силвър и Сътън такива „ опитни сътрудници “ биха могли да надминат сегашните модели, даже и тези, за които се твърди, че са „ интелигентни “ или „ разсъждаващи “ – като Gemini, DeepSeek R1 и OpenAI o1. Тези модели, настояват откривателите, просто възпроизвеждат човешките мисли – и повтарят същите неточности и пристрастия, които вършат хората. Истинският прогрес е вероятен, в случай че ИИ може да се опира не на предишното на човечеството, а на личния си опит.
Разбира се, този метод крие опасности. Автономните сътрудници, способни да работят в свят без непрекъснат човешки надзор, могат да се окажат проблем – в това число в стопанската система. Но в това време, акцентират създателите, тези системи ще могат да се приспособяват: те ще могат да разпознават човешкото неодобрение и да трансформират държанието си по този начин, че да не предизвикват щета. Основното е да се слагат верните цели.
Идеята за „ ерата на опита “ не е просто нов модел, а смяна на парадигмата. Според DeepMind данните, генерирани от ИИ от личния му опит, ще бъдат неведнъж по-големи и по-полезни от всичко, което човечеството в миналото е записвало във Wikipedia или Reddit. Това не е просто идната стъпка – това е пътят към същинската свръхинтелигентност.




